Разработка системы для сбора данных из открытых источников

Description

Разработка системы для сбора данных из открытых источников

Grazie – команда в JetBrains, отвечающая за поддержку естественного языка. Мы представлены встроенным плагином почти ко всем IDE JetBrains, а также плагином к Chrome. У нас есть система исправления грамматических ошибок, автодополнение естественного языка, суммаризация, перефразирование, свой опечаточник и детектор языков. В планах у нас расширять возможности поддержки языка и улучшать существующие.

В качестве задания для практики предлагается заняться разработкой системы для сбора различных датасетов из открытых источников, таких как Википедия, Reddit и тд (в частности для исправления грамматических ошибок) и их обработки. Задание не ограничивает Вас в методах и инструментах, здоровая доля фантазии приветствуется.

В рамках практики вам придётся познакомиться с миром больших данных. Итоговое решение должно быть способно агрегировать датасеты из различных источников, обрабатывать их быстро (и вероятно распределенно).

Обработка данных будет подразумевать работу с различными существующими NLP и ML задачами, такими как кластеризация, классификация, NER, POS Tagging, возможно dependency parsing и relation extraction, а также с Вашими эвристиками и подходами.

Если вы чего-то не знаете из мира больших данных, ML или о том, как скрапить сайты, то не переживайте -- мы Вам поможем. :)

По всем вопросам можете написать на Ivan.Dolgov@jetbrains.com и johndolgov@gmail.com или @ivandolgov

Requirements

Требования

Python (или Java)
Знание методов ML

Admission

Разработчики: Лето 2021

Mentor

Ivan Dolgov, Vladislav Tankov

Mentor's location

Remote

Product/Team

Grazie