Internships
Register
Copyright © 2000—2025 JetBrains s.r.o.

Распознавание кода со скриншотов из IDEA

Description

Мотивация

Разпознавание кода поможет перевести скриншоты, которые прикладывают пользователи в баг трэкере YouTrack, в текстовый формат, что улучшит жизнь разработчикам, которым не нужно будет перепечатывать с них код руками, и поможет получить новые данные для алгоритмов машинного обучения, работающих с YouTrack.

Идея проекта

Обучить модель для распознавания текста на синтетических данных. Для их получения предлагается скачать несколько репозиториев, написать скрипт, который открывает из них случайные файлы в IDEA и делает скриншот случайного места на экране, и таким образом получить размеченный датасет, так как мы знаем, какой конкретно текст содержится в редакторе.

Requirements

  • Понимание алгоритмов глубокого обучения для задач, связанных с картинками
  • Python для реализации алгоритма и сбора данных
  • Готовность потратить много времени на составление датасета (в том числе придётся немного залезть в код IDEA)

Admission

Разработчики: Лето 2021

Mentor

Aleksandr Fedotov

Mentor's location

Remote

Product/Team

Data Analytics Team

Tags

Machine Learning