• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Шакирова Карина Александровна
Речевые маркеры интолерантности и компьютерные инструменты их выявления
10
2018
Работа посвящена анализу компьютерных инструментов для автоматического выделения лексических маркеров речевой интолерантности. Рассматриваются два подхода: словарно-ориентированный с возможностью ручного корректирования и классификация на основе методов машинного обучения. Программа на основе словарей работает с лемматизированными текстами, сравнивая их с опорными словарями, при встрече незнакомого слова программа либо игнорирует его, либо обращается к пользователю для ручного определения. Интерфейс программы был написан с использованием библиотеки tkinter. Функционал включает предобработку и лемматизацию текстовых файлов, возможность редактирования словарей пользователем, пополнение словарей в процессе работы и сохранение обнаруженных маркеров в отдельный текстовый файл.

Классификаторы на основе машинного обучения: Наивный Байесовский, логистическая регрессия и случайный лес, - были обучены на лемматизированном корпусе коротких текстов на русском языке, размеченных по тональности. Тестовые тексты классифицировались на уровне абзаца и на уровне предложения, при этом алгоритм сравнивал вероятность причисления к негативному классу полного текста и текста с удалёнными вхождениями одного из слов. Те слова, для которых разность вероятностей была наибольшей, выделяются как маркеры интолерантности.

Алгоритмы были протестированы на 10 текстах общей направленности из разных источников, результаты оценены по метрикам точности, полноты и F-меры. Все алгоритмы испытывали затруднение с классификацией инвективной лексики, окказионализмов, неверно написанных слов, имен собственных, сокращений и специализированных терминов, а классификаторы также выделяли служебные слова в качестве маркеров. Наилучшие результаты показал словарный подход за счёт пользовательской корректировки, среди классификаторов самым эффективным оказался Наивный Байесовский, при этом классификация на уровне абзаца показала большую точность, чем классификация на уровне предложения.
Текст работы (работа добавлена 30 мая 2018г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР