• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Писаревская Дина Борисовна
Применение теории риторической структуры текста для распознавания недостоверных новостных сообщений
2016
Проблема распознавания достоверности новостей является актуальной, особенно в настоящее время, в гетерогенном информационном поле. Поэтому необходимо разработать инструменты, которые позволили бы автоматически с использованием лингвистических методов и моделей определять достоверность или недостоверность новостей, опубликованных в интернет-СМИ.

На уровне дискурса в области автоматической обработки текста можно работать с текстами в рамках теории риторической структуры. Мы собрали корпус из 134 достоверных и недостоверных новостей, чтобы выяснить на его примере, является ли риторическая структура текста фактором распознавания достоверности новостей. В разметке использовались 33 типа связей из расширенного списка риторических связей Манна и Томпсон.

Для решения задачи классификации текстов и машинного обучения мы использовали Support Vector Machines (для линейного ядра и rbf-ядра) и Random Forest Classifier, для обоих классификаторов с кросс-валидацией 10-fold. В качестве признаков использовались типы риторических связей (частотность), а также сочетания типов связей (типы риторических связей+биграммы и типы риторических связей+триграммы), всего в эксперименте было использовано три набора данных. Лучшие результаты мы получили при классификации с помощью Support Vector Machines с линейным ядром для первого набора данных, он оказался лучше всего линейно разделим на два класса. Модель имеет предсказательную силу (0.65), превышающую показатели для схожего исследования для английского языка (0.56), а также показатели распознавания достоверности новостей людьми. Получившаяся модель лучше всего умеет выделять сет однозначно достоверных новостей и может служить первичным фильтром, убирающим из выборки недостоверные новости.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР