Распознавание кода со скриншотов из IDEA

Description

Мотивация

Разпознавание кода поможет перевести скриншоты, которые прикладывают пользователи в баг трэкере YouTrack, в текстовый формат, что улучшит жизнь разработчикам, которым не нужно будет перепечатывать с них код руками, и поможет получить новые данные для алгоритмов машинного обучения, работающих с YouTrack.

Идея проекта

Обучить модель для распознавания текста на синтетических данных. Для их получения предлагается скачать несколько репозиториев, написать скрипт, который открывает из них случайные файлы в IDEA и делает скриншот случайного места на экране, и таким образом получить размеченный датасет, так как мы знаем, какой конкретно текст содержится в редакторе.

Requirements

Понимание алгоритмов глубокого обучения для задач, связанных с картинками
Python для реализации алгоритма и сбора данных
Готовность потратить много времени на составление датасета (в том числе придётся немного залезть в код IDEA)

Admission

Разработчики: Лето 2021

Mentor

Aleksandr Fedotov

Mentor's location

Remote

Product/Team

Data Analytics Team