• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическая классификация документов с использованием машинного обучения

ФИО студента: Имаев Артем Александрович

Руководитель: Большакова Елена Игоревна

Кампус/факультет: Отделение прикладной математики и информатики

Программа: Бакалавриат

Год защиты: 2014

<p>Данная выпускная квалификационная работа посвящена применению машинного обучения к задаче автоматической классификации стиля текста.</p><p>Функциональные стили выделяются в соответствии с основными функциями языка (общение, сообщение, воздействие) и связанны с той или иной сферой деятельности человека. В данной работе рассматриваются следующие функциональные стили: научный, официально-деловой, публицистический, художественный и разговорный. В качестве исследуемого метода машинного обучения был выбран и самостоятельно запрограммирован метод к-ближайших соседей.</p><p>Для проведения экспериментов была собрана размеченная по стилям коллекция текстов разных функциональных стилей. Все тексты были собраны из интернета, чтобы приблизить работу алгоритма к реальной ситуации, когда нужно определять стиль текста на web-странице Каждый текст коллекции был предварительно обработан модулем морфологического анализа mystem. Морфологическая обработка текстов позволила преобразовать текст в набор словоформ с их грамматической информацией.</p><p>После морфологического анализа для каждого текста были определены значения&nbsp; признаков функционального стиля. Рассматривались следующие признаки: предметность, качественность, действенность, среднее количество букв в слове, также рассматривались все части речи, и для признаков функциональных стилей были подсчитаны значения частоты встречаемости каждой части речи в текстах. Всего использовалось 14 признаков функциональных стилей.</p><p>Программы обработки морфологических признаков, подсчета их значений и сам метод машинного обучения были реализованы на С++.&nbsp; Эксперименты по распознаванию функционального стиля на базе реализованного метода машинного обучения показали не высокую эффективность метода. В результатах проделанной работы были предположены причины низкой эффективности, а также варианты улучшения результатов.</p>

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ