• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Шаймарданова Алина Рустамовна
Классификатор автоматически сгенерированной VS написанной человеком поэзии 
7
2019
В настоящей работе ставится задача выделения ряда критериев, в соответствии с которыми с наибольшей вероятностью можно автоматически классифицировать стихотворение по типу автора – компьютер или человек. В рамках исследования был собран набор данных для обучения и тестирования классификатора на основе 400 000 стихотворений с открытого с портала stihi.ru и 7000 автоматически-сгенерированных поэтических текстов Генератора Ильи Гусева, Яндекс.Автопоэта, и генератора Сергея Тетерина «КИБЕР-ПУШКИН». Полученный корпус содержит в себе ручную разметку автора. Кроме того, для лучшего понимания устройства нейропоэзии были проанализированы методы разработки моделей генераторов, а также рассмотрен процесс работы указанных выше алгоритмов генерации поэтического текста. Далее, стихотворения были проанализированы в соответствии с рядом признаков, на основе которых обучался классификатор. Признаками для тренировки модели стали: семантическая плотность всего стихотворения, семантическая плотность прилагательных и наречий в стихотворении, семантическая связность четверостиший в стихотворении, выделение частотного слова в стихотворении, а также анализ наличия аллитерации, выражающейся в би- и триграммах. Также, необходимо отметить, что расстояние между семантическими векторами слов будет определяться тремя разными методами: косинус угла между векторами, Евклидово расстояние, а также вычисление скалярного произведения масштабированных до единичной длины векторов слов.

Таким образом, в результате обучении классификатора и анализа метрик качества, мы показываем, что наиболее важными признаками стихотворения, опираясь на которые можно с наибольшей вероятностью автоматически определить автора стихотворения, являются: длина поэтического текста в словах, максимальное количество вхождений частотного слова, биграммы с и без пробелов, триграммы с пробелами. Кроме того, лучшей метрикой определения семантической близости в рамках обучения классификатора стало Евклидово расстояние между семантическими векторами. Лучшими моделями стали RandomForestClassifier и DecisionTreeClassifier, так как они хорошо обучаются на линейно-неразделимых объектах, а также не сильно чувствительны к наличию «шума» в данных, в то время как худшей моделью по этим же причинам стала LogisticRegressionCV. Обученная модель RandomForestClassifie также была протестирована отдельно на творчестве каждого из указанных выше генераторов для определения качества их нейропоэзии. Результаты исследования показали, что худший показатель accuracy характеризует лучшие по своему качеству стихи Автопоэта.Яндекса.

Полученный в работе классификатор был оформлен как функция, которая на вход получает стихотворение, а на выходе даёт пользователю ответ, кто является автором стихотворения – человек или компьютер.
Текст работы (работа добавлена 4 июня 2019г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР