• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Классификация текстов в парадигме активного обучения

ФИО студента: Фабр Бетти Жанн -

Руководитель: Артемова Екатерина Леонидовна

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Оценка: 9

Год защиты: 2018

The increase in the amount of data collected and stored leads to the collection of huge datasets that require annotation or labeling to be used. Also, text data, like documents, require time and expertise to be labeled which can be costly. Improving the methods to wisely chose the data to label is, as a consequence, becoming a major topic of interest. The work of this thesis has been to study the active learning paradigm which aims at including and optimizing the human labeling task into the learning process of a classifier. The goal is to study different strategies of active learning applied to text classification tasks. The work has followed three main topics, the active learning strategies and the influence of both the representation of a text or document and the classifier to the process of active learning. Several experiments consisting of training a classifier for the 20newsgroup dataset, have been carried to study Bag-of-words based,Word2Vec based and Doc2Vec based text representation associated with Random Forest, Decision Trees and KNN classifiers in the framework of active learning. The active learning strategies used single learners with uncertainty based query strategy and committees of learners. Also, a semi-active learning strategy that includes an automatic learning process in parallel of the active learning queries has been tested. All the experiments have been implemented in Python using the common data science libraries scikit-learn and pandas, the gensim library and the modAL framework. KEY-WORDS : text data, active learning, classification tasks , representation of a text, classifier, newsgroup dataset, Bag-of-words, Word2Vec, Doc2Vec, Random Forest, Decision Trees, KNN, ncertainty, query, committees, semi-active learning, Python, scikit-learn, pandas, gensim, modAL

Текст работы (работа добавлена 27 мая 2018 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ