• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Применение машинного обучения для задачи суммаризации новостных текстов

ФИО студента: Кечин Сергей Андреевич

Руководитель: Масютин Алексей Александрович

Кампус/факультет: Факультет компьютерных наук

Программа: Финансовые технологии и анализ данных (Магистратура)

Год защиты: 2020

В работе исследуется корпус текстов русскоязычных новостных статей агентства РИА Новости. Цель работы - апробировать несколько нейросетевых моделей суммаризации для генерирования заголовков новостей и сравнить полученные метрики качества. Модели сопоставляются по метрике rouge. В работе применяются следующие архитектуры: энкодер-декодер архитектура с использованием рекуррентных нейронных сетей (LSTM) и механизмом внимания, Transformer и представленный в этом году Reformer. Кратко рассматривается структура используемых моделей, а также механизмы сокращения потребляемой памяти, которые предлагается использовать в статье о Reformer: reversible connections и приближенное вычисление внимания с использованием locality-sensitive hashing (LSH). Указанные модели обучены с применением фреймворков: openNMT и Trax. Все модели демонстрируют сопоставимое качество, а получаемые новостные заголовки выглядят адекватными для человеческого прочтения. Кроме того, в работе сравнивается качество оригинального Transformer и Transformer, в котором все слои внимания рассчитываются с помощью LSH. Данное сравнение реализуется с помощью Pytorch.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ