• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Выявление токсичного контента в русскоязычных текстах

ФИО студента: Барсуков Никита Сергеевич

Руководитель: Омельченко Александр Владимирович

Кампус/факультет: Санкт-Петербургская школа физико-математических и компьютерных наук

Программа: Анализ больших данных в бизнесе, экономике и обществе (Магистратура)

Оценка: 10

Год защиты: 2021

Агрессивное поведение пользователей по отношению друг к другу – серьезная проблема многих интернет-площадок. Вручную отслеживать каждое сообщение пользователей и предотвращать такого рода поведение – невыполнимая задача. Поэтому автоматизация данного процесса становится главной целью данной проектной работы. Ставится задача построить классификатор русскоязычного текста на наличие в нем токсичного контента и опубликовать полученное решение в открытый доступ. В работе применяется глубокое обучение с использованием библиотеки Tensorflow. Для получения word embeddings были опробованы модели FastText, мультиязычный Universal Sentence Encoder, Wiki40B и Navec. Для классификации текста использовались такие архитектуры нейронных сетей, как сверточные и рекуррентные. Лучшая модель смогла достичь значение точности в 91.43% на тестовой выборке. Модель с лучшим соотношением качества и занимаемой памяти была опубликована в качестве python-пакета. Установить его можно с помощью команды «pip3 install toxicity». Ставилась цель сделать максимально простой в использовании продукт. Чтобы начать пользоваться пакетом, не нужны знания в области глубокого обучения. Достаточно импортировать конструктор класса, создать его экземпляр и вызвать у него метод predict.

Текст работы (работа добавлена 17 мая 2021 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ