Детекция плагиаризма в коде - это критичная задача для организаций, разрабатывающих софт, отсутствие которой ведет к:
- разрастанию кодовой базы (что ведет к удорожанию поддержания и модификации)
- возможным судебным издержкам (за использование кода с неподходящей лицензией)
- проблемам с безопасностью (если один и тот же уязвимый код будет содержаться в разных частях кодовой базы, то часть из них вероятно будет не модифицирована при нахождении уязвимости)
В этом проекте придется работать над расширением функциональности решения для поиска дуплицированного кода. Что включает в себя:
- продуктизацией
- улучшение ранжирования клонов для показа сложных и критичных клонов в начале
- автоматическая расстановка тэгов для кода (frontend, backend, security/auth, etc)
- поддержка новых языков программирования
- построением индекса для гитхаба
- аналитикой, в том числе на графах, визуализация и т.д.
В результате стажировки стажер не только дополнит портфолио сильным проектом, но и получит опыт работы в команде, прокачает скиллы разработчика (CI, tests, code reviews, docker, etc), поработает над выкатыванием решения клиентам.
В случае вопросов пишите на egor.bulychev@jetbrains.com.