Grazie – команда в JetBrains, отвечающая за поддержку естественного языка. Мы представлены встроенным плагином почти ко всем IDE JetBrains, а также плагином к Chrome. У нас есть система исправления грамматических ошибок, автодополнение естественного языка, суммаризация, перефразирование, свой опечаточник и детектор языков. В планах у нас расширять возможности поддержки языка и улучшать существующие.
В качестве задания для практики предлагается заняться разработкой системы для сбора различных датасетов из открытых источников, таких как Википедия, Reddit и тд (в частности для исправления грамматических ошибок) и их обработки. Задание не ограничивает Вас в методах и инструментах, здоровая доля фантазии приветствуется.
В рамках практики вам придётся познакомиться с миром больших данных. Итоговое решение должно быть способно агрегировать датасеты из различных источников, обрабатывать их быстро (и вероятно распределенно).
Обработка данных будет подразумевать работу с различными существующими NLP и ML задачами, такими как кластеризация, классификация, NER, POS Tagging, возможно dependency parsing и relation extraction, а также с Вашими эвристиками и подходами.
Если вы чего-то не знаете из мира больших данных, ML или о том, как скрапить сайты, то не переживайте -- мы Вам поможем. :)
По всем вопросам можете написать на Ivan.Dolgov@jetbrains.com и johndolgov@gmail.com или @ivandolgov
Требования