Grazie – команда в JetBrains, отвечающая за поддержку естественного языка. Мы представлены встроенным плагином почти ко всем IDE JetBrains, а также плагином к Chrome. У нас есть система исправления грамматических ошибок, автодополнение естественного языка, суммаризация, перефразирование, свой механизм проверки орфографии и детектор языков. В планах у нас расширять возможности поддержки языка и улучшать существующие.
Для задач связанных с преобразованием текста зачастую необходимо знать о структуре предложения, в частности, о различных зависимостях в нем. Для таких задач мы используем различные предобученные парсеры зависимостей. Но, к сожалению, зачастую такие парсеры тренируют на чистых данных, но люди зачастую пишут либо грамматически неправильно, либо используют синтаксически плохие конструкции, что крайне сильно сказывается на качестве деревьев зависимостей. Поэтому вам предстоит поработать над методикой построения более устойчивых моделей.
У нас уже есть несколько вариантов подобных моделей, поэтому вам придется разобраться с ними и их недостатками, и в итоге усовершенствовать их или построить и обучить что-то свое. Близкие к данной теме статьи: 1, 2, а также библиотека, которую мы используем в данный момент 3
В идеале хочется иметь качество близкое или равное к парсеру UDPipe2 (который пока что еще не вышел, но метрики которого известны), а так же перевести данные модели в формат ONNX и оптимизировать их для работы на JVM (с данным моментом мы вам поможем).