• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Флоринский Михаил Константинович
Восстановление пунктуации в тексте
8
2019
Восстановление пунктуации в тексте - сложная задача в области NLP, которая зачастую бывает затруднительна даже для грамотного человека. Подразумевается, что исходный текст не имеет никаких знаков препинания. Решение такой задачи может найти множество применений: автоматическая проверка пунктуации в текстовом редакторе, восстановление знаков препинания и верхних регистров в сплошном тексте, полученном при распознавании речи, а также корректировка результата работы переводчика. Расстановка знаков препинания может быть неоднозначной и привязанной к контексту. Кроме того, сложные предложения можно дробить на более простые, вместо того, чтобы расставлять запятые. Классические подходы, применяемые для проверки пунктуации, основаны на парсинге и заранее построенных структурах, использующих части речи и словари. Несмотря на высокую точность, они не способны справляться с такими случаями. Эта проблема может быть частично или полностью решена LSTM нейронными сетями. Более того, такие сети могут позволить получить универсальную модель, работающую со многими языками одновременно без привязки к каким-либо явно заданным правилам. Цель, обозначенная данным исследованием - создать алгоритм, восстанавливающий пунктуацию в связном тексте на русском языке, а также изучить возможности его работы с другими языками. В качестве методов для решения поставленных задач используются Bidirectional LSTM нейронные сети, работающие на уровне символов, CRF, а также cross-lingual подход. Финальная модель, полученная данным исследованием, довольно качественно обрабатывает текст и восстанавливает в нем пунктуацию.
Текст работы (работа добавлена 15 мая 2019г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР