Efficient Dependency Parsing In Case Of Ungrammatical Sentences

Description

О Команде

Grazie – команда в JetBrains, отвечающая за поддержку естественного языка. Мы представлены встроенным плагином почти ко всем IDE JetBrains, а также плагином к Chrome. У нас есть система исправления грамматических ошибок, автодополнение естественного языка, суммаризация, перефразирование, свой механизм проверки орфографии и детектор языков. В планах у нас расширять возможности поддержки языка и улучшать существующие.

Чем Вам придется заниматься?

Для задач связанных с преобразованием текста зачастую необходимо знать о структуре предложения, в частности, о различных зависимостях в нем. Для таких задач мы используем различные предобученные парсеры зависимостей. Но, к сожалению, зачастую такие парсеры тренируют на чистых данных, но люди зачастую пишут либо грамматически неправильно, либо используют синтаксически плохие конструкции, что крайне сильно сказывается на качестве деревьев зависимостей. Поэтому вам предстоит поработать над методикой построения более устойчивых моделей.

У нас уже есть несколько вариантов подобных моделей, поэтому вам придется разобраться с ними и их недостатками, и в итоге усовершенствовать их или построить и обучить что-то свое. Близкие к данной теме статьи: 1, 2, а также библиотека, которую мы используем в данный момент 3

В идеале хочется иметь качество близкое или равное к парсеру UDPipe2 (который пока что еще не вышел, но метрики которого известны), а так же перевести данные модели в формат ONNX и оптимизировать их для работы на JVM (с данным моментом мы вам поможем).

Requirements

Требования

Python
Опыт с Machine Learning
Продвинутые требования
Опыт с любым из DL фреймворком (мы используем PyTorch)
Законченные DL проекты, опыт и знания в области компьютерной лингвистики.

Admission

Разработчики: Лето 2021

Mentor

Ivan Dolgov, Uladzislau Sazanovich, Vladislav Tankov

Mentor's location

Remote

Product/Team

Grazie