• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Модели и методы выделения именованных сущностей в юридических документах на русском языке.

ФИО студента: Бисенбаева Сакура -

Руководитель: Ильвовский Дмитрий Алексеевич

Кампус/факультет: Высшая школа бизнеса

Программа: Системы больших данных (Магистратура)

Год защиты: 2020

LegalTech относится к технологиям, которые применяются для решения широкого круга юридических бизнес-задач. Поскольку язык и законодательство всегда были тесно связаны, обработка естественного языка (NLP) имеет широкий спектр областей применения, такие как хранение и обработка документов, а также поиск информации. В настоящее время NLP в юридической сфере стремительно развивается, и бизнесу необходимо автоматизировать работу юристов. Таким образом, данная область активно внедряет NLP, машинное обучение и глубокое обучение в свои рабочие процессы. Поскольку внедренные модели выделения именованных сущностей (NER) могут быстро обработать большие объемы юридических текстов, существует ежедневная необходимость использования системы NER. Модель для NER, которую я анализировала в рамках своей работы, была построена с использованием таких моделей как BiLSTM-CRF и RuBERT (адаптация языковой модели BERT для русского языка). В рамках данной диссертации был проанализирован модель для извлечения концептуальных единиц и их атрибутов из Протоколов Избрания. После проведенного анализа был разработан метод, который исправляет ошибок разметки, что является методом постобработки. Для этого в рамках задач диссертации были реализованы следующие шаги: • Предобработка Протоколов Избрания с помощью правил разметки, специально написанными для выделения концептуальных единиц в юридических документах. • Изучение существующих методов извлечения именованных юридических сущностей из текстов на нескольких языках. • Сравнительный анализ плюсов и минусов каждого из них. • Анализ и разработка метода исправления ошибок разметки. • Тестирование нового метода на реальных данных и сравнение метода с базовой моделью. Оценка результата метода с помощью метрик качества NER.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ