• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
20
Апрель

Научно-исследовательский семинар "Не мой язык: автоматизированные подходы к изучению интерференции"

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс по выбору
Когда читается:
4-й курс, 3 модуль

Преподаватели


Ремнев Никита Валерьевич


Смирнов Иван Юрьевич

Программа дисциплины

Аннотация

Данная дисциплина дает представление об основных подходах и проблемах в исследовании интерференции, дает возможность получить практические навыки автоматической обработки русских текстов иноязычных авторов, выявления в них специфических ошибок и классификации текстов по разным с помощью методов машинного обучения. Предполагается, что студенты знакомы с базовыми методами машинного обучения и обладают достаточным уровнем владения языка программирования Python для использования стандартных библиотек (Pandas, Numpy, Scikit-learn и др.) и средств языка при решении задач классификации.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение основных подходов и современных практик к исследованию интерференции
  • Получение практических навыков применения методов машинного обучения для анализа русскоязычных текстов, написанных иноязычными авторами
  • Исследование особенностей ошибок, совершаемых иноязычными авторами в русских текстах, а также подходов к их выявлению и классификации
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает структуру русского учебного корпуса, знает подходы к решению задач в условиях несбалансированности и «малых» данных
  • Знает основные признаки, подходы и методы машинного обучения, используемые для решения задачи NLI. Знает классификацию по родному языку автора, основываясь на ошибках, классификацию по типу говорящего
  • Знает основные типы и классификация ошибок, совершаемых иноязычными авторами русскоязычных текстов, ошибок, совершаемых эритажными говорящими и изучающими русский язык. Знает подходы к автоматическому определению и исправлению разных типов ошибок
  • Знает основные подходы и методы машинного обучения, используемые для определения и исправления грамматических и пунктуационных ошибках.
  • Знает методы обучения моделей с использованием словарей, сложные случаи орфографических ошибок, не определяемых системами проверки правописания.
  • Знает разные подходы к анализу и автоматическому исправлению словообразовательных ошибок
  • Знает основные типы и примеры ошибок, которые затрагивают несколько слов. Знает подходы к выделению сложносоставных конструкций.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    Введение. Понятие интерференции, условия возникновения, примеры. Основные направления, работы и исследования в компьютерной лингвистике и машинном обучении на тему изучения билингвов.
  • Русский учебный корпус
    Русский учебный корпус: структура, метаданные, статистические выкладки. Примеры данных корпуса. Спектр задач, которые будут рассмотрены в рамках НИС с помощью данных корпуса. Балансировка данных корпуса, подходы к решению задач в условиях несбалансированности и «малых» данных.
  • Задача Native Language Identification
    Задача определения родного языка автора текста, области применения. NLI Shared Task 2013 и 2017 - описание результатов соревнований. TOEFL 11 корпус - описание данных, статистические выкладки. Основные признаки, подходы и методы машинного обучения, используемые для решения задачи NLI. Классификация по родному языку автора, основываясь на ошибках. Классификация по типу говорящего – эритажные говорящие или изучающие русский язык в качестве дополнительного.
  • Ошибки и их классификация
    Основные типы и классификация ошибок, совершаемых иноязычными авторами русскоязычных текстов. Примеры ошибок из данных Русского учебного корпуса. Основные типы и классификация ошибок, совершаемых эритажными говорящими и изучающими русский язык, основываясь на данных Русского учебного корпуса. Подходы к автоматическому определению и исправлению разных типов ошибок. Какие ошибки на данный момент могут определить самые распространенные системы проверки правописания, а какие нет, какие сложности в определении ошибок присутствуют.
  • Машинное обучение и исправление ошибок в текстах
    Основные подходы и методы машинного обучения, используемые для определения и исправления грамматических и пунктуационных ошибках. Различные источники данных для обучения - словари, тексты в открытом доступе, генерация данных для обучения. Нейронные сети и глубокое обучение: интересные подходы (pre-training, copy-augmented architecture и другие). Обзор главных работ в области.
  • Орфографические ошибки, интерференция с L1
    Обучение моделей с использованием словарей, сложные случаи орфографических ошибок, не определяемых системами проверки правописания.
  • Словообразовательные ошибки
    Подходы к анализу и автоматическому исправлению словообразовательных ошибок. Обучение моделей с использованием словарей словообразования, размеченных данных об ошибках, а также открытых источников данных.
  • Комплексные ошибки, затрагивающие несколько слов
    Основные типы и примеры ошибок, которые затрагивают несколько слов, часто находящихся в разных частях предложения. Подходы к выделению сложносоставных конструкций, поиск зависимостей в предложениях.
Элементы контроля

Элементы контроля

  • неблокирующий домашнее задание
  • неблокирующий аудиторная работа
  • неблокирующий экзамен
    Экзамен проводится в виде защиты большого проекта, выполняемого в рамках НИС. Студенты представляют результаты выполнения проекта в виде презентации в аудитории.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.2 * аудиторная работа + 0.3 * домашнее задание + 0.5 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hall, M., Witten, Ian H., Frank, E. Data Mining: practical machine learning tools and techniques. – 2011. – 664 pp.

Рекомендуемая дополнительная литература

  • The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics