Модели и методы автоматического обнаружения, верификации и анализа недостоверной, искаженной и манипулятивной информации в текстовых данныхModels and methods of automatic detection, verification and analysis of fake, distorted and manipulative information in text data

Соискатель:

Руководитель:

Ильвовский Дмитрий Алексеевич (др. работы под рук-вом)

Члены комитета:

Деркач Денис Александрович (НИУ ВШЭ, PhD, председатель комитета), Евсеев Дмитрий Андреевич (ООО «Пайн Форест», к.т.н., член комитета), Панченко Александр Иванович (Сколковский институт науки и технологий, д.комп.н., член комитета), Рахуба Максим Владимирович (НИУ ВШЭ, к.ф.-м.н, член комитета), Шелманов Артем Олегович (Университет искусственного интеллекта имени Мохамеда бен Заида (Объединенные Арабские Эмираты), к.т.н., член комитета)

Диссертация принята к предварительному рассмотрению:

5/29/2025

Диссертация принята к защите:

6/26/2025

Дисс. совет:

Совет по компьютерным наукам

Дата защиты:

9/5/2025

Диссертационное исследование посвящено разработке комплексного подхода к автоматическому анализу текстовых данных для выявления и противодействия распространению недостоверной информации. В работе исследованы три взаимосвязанных направления: автоматическая верификация фактов на основе авторитетных источников, поиск ранее проверенных утверждений и стилистический анализ манипулятивных техник в текстах. В рамках первого направления создан эффективный пайплайн для проверки фактов, включающий компоненты поиска информации и логического вывода. Разработана диагностическая таксономия для анализа моделей и предложен генеративный фреймворк, повышающий качество модели верификации. На основе метода реализована демонстрационная система. Для поиска ранее проверенных утверждений предложен комбинированный подход, объединяющий лексическую и семантическую схожесть текстов, для обучения которого разработана функция потерь BSC, превосходящая существующие методы. Кроме того, создан новый набор данных с применением техник distant supervision для обучения моделей. В области анализа манипулятивных техник представлен подход, включающий сегментацию и классификацию. В процессе выявлены и частично устранены общие недостатки Transformer-based моделей. Разработана классификационная схема для русскоязычных манипулятивных приемов и создан соответствующий набор данных. Результаты исследования формируют основу для создания автоматических систем противодействия дезинформации, что особенно актуально в современных условиях информационного общества.

Диссертация [*.pdf, 4.72 Мб] (дата размещения 7/5/2025)

Резюме [*.pdf, 998.82 Кб] (дата размещения 7/5/2025)

Summary [*.pdf, 960.82 Кб] (дата размещения 7/5/2025)

Публикации, в которых излагаются основные результаты диссертации

Chernyavskiy A., Ilvovsky D. Extract and Aggregate: A Novel Domain-Independent Approach to Factual Data Verification (смотреть на сайте журнала)

Chernyavskiy A., Ilvovsky D., Nakov P. aschern at SemEval-2020 Task 11: It Takes Three to Tango: RoBERTa, CRF, and Transfer Learning (смотреть на сайте журнала)

Chernyavskiy A., Ilvovsky D., Nakov P. WhatTheWikiFact: Fact-Checking Claims Against Wikipedia (смотреть на сайте журнала)

Chernyavskiy A., Ilvovsky D., Nakov P. Transformers: “The End of History” for Natural Language Processing? (смотреть на сайте журнала)

Chernyavskiy A., Ilvovsky D., Nakov P. Aschern at CheckThat! 2021: Lambda-Calculus of Fact-Checked Claims (смотреть на сайте журнала)

Chernyavskiy A., Ilvovsky D., Kalinin P., Nakov P. Batch-Softmax Contrastive Loss for Pairwise Sentence Scoring Tasks (смотреть на сайте журнала)

Hardalov M., Chernyavskiy A., Koychev I., Ilvovsky D., Nakov P. CrowdChecked: Detecting Previously Fact-Checked Claims in Social Media (смотреть на сайте журнала)

Chernyavskiy A., Shomova S., Dushakova I., Kiriya I., Ilvovsky D. ZenPropaganda: A Comprehensive Study on Identifying Propaganda Techniques in Russian Coronavirus-Related Media (смотреть на сайте журнала)

Galitsky B., Chernyavskiy A., Ilvovsky D. Truth-O-Meter: Handling Multiple Inconsistent Sources Repairing LLM Hallucinations (смотреть на сайте журнала)

Chernyavskiy A., Ilvovsky D., Nakov P. Enhancing FEVER-Style Claim Fact-Checking Against Wikipedia: A Diagnostic Taxonomy and a Generative Framework (смотреть на сайте журнала)

Отзывы

Отзыв научного руководителя

Ильвовский Дмитрий Алексеевич (дата размещения 5/31/2025)

Отзыв члена Комитета

Рахуба Максим Владимирович (дата размещения 8/27/2025)
Деркач Денис Александрович (дата размещения 8/27/2025)
Евсеев Дмитрий Андреевич (дата размещения 8/27/2025)
Панченко Александр Иванович (дата размещения 8/27/2025)

Отзыв ведущей организации

Шелманов Артем Олегович (дата размещения 8/27/2025)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 05.09.2025). Решением диссертационного совета (протокол № 8 от 18.09.2025) присуждена ученая степень кандидата компьютерных наук.

Ключевые слова:

архитектура Трансформер, искусственный интеллект, машинное обучение, обработка естественного языка, проверка фактов, семантический анализ

См. на ту же тему

Влияния сентимента на биржевые характеристики активов фондового рынка РоссииКандидатская диссертация

Соискатель: Файзулин Максим Сергеевич
Руководитель: Теплова Тамара Викторовна

Методы глубинного обучения для предсказания Z-ДНК на основе омиксных данныхКандидатская диссертация

Соискатель: Бекназаров Назар Сохибжонович
Руководитель: Попцова Мария Сергеевна

Автоматизация создания неправильных вариантов (дистракторов) для банков заданий языкового тестированияКандидатская диссертация

Соискатель: Логин Никита Вячеславович
Руководитель: Ляшевская Ольга Николаевна