• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическая генерация текста (на примере биржевых новостей)

ФИО студента: Нестеренко Любовь Владимировна

Руководитель: Бонч-Осмоловская Анастасия Александровна

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Год защиты: 2016

Данная работа выполнена в рамках направления компьютерной лингвистики — автоматической генерации текстов на естественном языке (далее АГТ на ЕЯ). Системы АГТ на ЕЯ создаются для того, чтобы сделать возможным автоматическое порождение текстов на ЕЯ, в случаях, когда у человека возникает необходимость регулярно порождать несложные однотипные тексты, например, прогнозы погоды, биржевые новости и т.п. Цель работы — создать программу-генератор, порождающую биржевые новости, основываясь на данных об изменениях показателей биржевых индексов ММВБ и РТС, а также описать особенности его построения. Заявленная цель работы определяет ее конкретные задачи: проработать устройство генератора; выбрать технологию обработки данных об изменениях показателей индексов; ознакомиться с особенностями биржевых новостей; выбрать с подход к реализации АГТ на ЕЯ; написать программу на Python; оценить полученный результат. В работе представлено устройство генератора биржевых новостей и описан процесс его построения. Нами были изучены особенности поведения биржевых индексов и разработана классификация их изменений, определены типы генерируемых новостей и проработаны макеты для них. Генератор включает в себя два модуля: модуль анализа, который получает биржевые данные и при помощи специального алгоритма определяет изменения, проиходящие с индексами, и лингвистический модуль, осуществляющий автоматическое порождение новостей на основе информации об изменениях индексов. АГТ на ЕЯ в лингвистическом модуле реализована при помощи шаблонно-правилового подхода. Для этого был собран словарь биржевой лексики, составлены шаблоны предложений и проработан набор правил, позволяющих порождать тексты новостей. Также были исследованы правила употребления средств связности в процессе порождения текстов. Оценка модулей генератора показала, что он адекватно справляется, как с задачей анализа данных об изменениях биржевых индексов и выделением нужной информации, так и с порождением текстов новостей.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ