• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Тематическое моделирование текстов

ФИО студента: Чако Стив -

Руководитель: Ильвовский Дмитрий Алексеевич

Кампус/факультет: Факультет компьютерных наук

Программа: Магистр по наукам о данных (Магистратура)

Год защиты: 2024

Аннотация Объем данных, представленных в виде текстов, велик и быстро растет. Нам нужны эффективные способы организации и понимания этих данных. Тематическое моделирование - популярная техника, позволяющая найти тематическую структуру документов. Она используется в обработке естественного языка и машинном обучении. В этой статье мы рассмотрим два популярных алгоритма тематического моделирования, Latent Semantic Analysis (LSA) и Latent Dirichlet Allocation (LDA), на наборе данных об описаниях фильмов из Википедии. Мы рассмотрим, как использовать эти два метода, и покажем полученные результаты. Статья начинается с объяснения LSA и LDA и показывает, как они работают вместе с методами предварительной обработки и метриками для оценки тематических моделей. Затем мы изучаем эти два алгоритма на заданном наборе данных, где показываем результаты - наилучшее количество тем для каждой исследуемой модели с учетом показателя согласованности. В заключение мы обсуждаем полученные результаты и приходим к выводу, что для коллекции документов фильма Википедия наилучший результат дает модель LDA с 5 темами. Ключевые слова: Тематическое моделирование, LSA, LDA, обработка естественного языка, машинное обучение

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ