Бакалавриат
2019/2020
Научно-исследовательский семинар "Не мой язык: автоматизированные подходы к изучению интерференции"
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Ремнев Никита Валерьевич,
Смирнов Иван Юрьевич
Язык:
русский
Кредиты:
4
Контактные часы:
28
Программа дисциплины
Аннотация
Данная дисциплина дает представление об основных подходах и проблемах в исследовании интерференции, дает возможность получить практические навыки автоматической обработки русских текстов иноязычных авторов, выявления в них специфических ошибок и классификации текстов по разным с помощью методов машинного обучения. Предполагается, что студенты знакомы с базовыми методами машинного обучения и обладают достаточным уровнем владения языка программирования Python для использования стандартных библиотек (Pandas, Numpy, Scikit-learn и др.) и средств языка при решении задач классификации.
Цель освоения дисциплины
- Освоение основных подходов и современных практик к исследованию интерференции
- Получение практических навыков применения методов машинного обучения для анализа русскоязычных текстов, написанных иноязычными авторами
- Исследование особенностей ошибок, совершаемых иноязычными авторами в русских текстах, а также подходов к их выявлению и классификации
Планируемые результаты обучения
- Знает структуру русского учебного корпуса, знает подходы к решению задач в условиях несбалансированности и «малых» данных
- Знает основные признаки, подходы и методы машинного обучения, используемые для решения задачи NLI. Знает классификацию по родному языку автора, основываясь на ошибках, классификацию по типу говорящего
- Знает основные типы и классификация ошибок, совершаемых иноязычными авторами русскоязычных текстов, ошибок, совершаемых эритажными говорящими и изучающими русский язык. Знает подходы к автоматическому определению и исправлению разных типов ошибок
- Знает основные подходы и методы машинного обучения, используемые для определения и исправления грамматических и пунктуационных ошибках.
- Знает методы обучения моделей с использованием словарей, сложные случаи орфографических ошибок, не определяемых системами проверки правописания.
- Знает разные подходы к анализу и автоматическому исправлению словообразовательных ошибок
- Знает основные типы и примеры ошибок, которые затрагивают несколько слов. Знает подходы к выделению сложносоставных конструкций.
Содержание учебной дисциплины
- ВведениеВведение. Понятие интерференции, условия возникновения, примеры. Основные направления, работы и исследования в компьютерной лингвистике и машинном обучении на тему изучения билингвов.
- Русский учебный корпусРусский учебный корпус: структура, метаданные, статистические выкладки. Примеры данных корпуса. Спектр задач, которые будут рассмотрены в рамках НИС с помощью данных корпуса. Балансировка данных корпуса, подходы к решению задач в условиях несбалансированности и «малых» данных.
- Задача Native Language IdentificationЗадача определения родного языка автора текста, области применения. NLI Shared Task 2013 и 2017 - описание результатов соревнований. TOEFL 11 корпус - описание данных, статистические выкладки. Основные признаки, подходы и методы машинного обучения, используемые для решения задачи NLI. Классификация по родному языку автора, основываясь на ошибках. Классификация по типу говорящего – эритажные говорящие или изучающие русский язык в качестве дополнительного.
- Ошибки и их классификацияОсновные типы и классификация ошибок, совершаемых иноязычными авторами русскоязычных текстов. Примеры ошибок из данных Русского учебного корпуса. Основные типы и классификация ошибок, совершаемых эритажными говорящими и изучающими русский язык, основываясь на данных Русского учебного корпуса. Подходы к автоматическому определению и исправлению разных типов ошибок. Какие ошибки на данный момент могут определить самые распространенные системы проверки правописания, а какие нет, какие сложности в определении ошибок присутствуют.
- Машинное обучение и исправление ошибок в текстахОсновные подходы и методы машинного обучения, используемые для определения и исправления грамматических и пунктуационных ошибках. Различные источники данных для обучения - словари, тексты в открытом доступе, генерация данных для обучения. Нейронные сети и глубокое обучение: интересные подходы (pre-training, copy-augmented architecture и другие). Обзор главных работ в области.
- Орфографические ошибки, интерференция с L1Обучение моделей с использованием словарей, сложные случаи орфографических ошибок, не определяемых системами проверки правописания.
- Словообразовательные ошибкиПодходы к анализу и автоматическому исправлению словообразовательных ошибок. Обучение моделей с использованием словарей словообразования, размеченных данных об ошибках, а также открытых источников данных.
- Комплексные ошибки, затрагивающие несколько словОсновные типы и примеры ошибок, которые затрагивают несколько слов, часто находящихся в разных частях предложения. Подходы к выделению сложносоставных конструкций, поиск зависимостей в предложениях.
Элементы контроля
- домашнее задание
- аудиторная работа
- экзаменЭкзамен проводится в виде защиты большого проекта, выполняемого в рамках НИС. Студенты представляют результаты выполнения проекта в виде презентации в аудитории.
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.2 * аудиторная работа + 0.3 * домашнее задание + 0.5 * экзамен
Список литературы
Рекомендуемая основная литература
- Hall, M., Witten, Ian H., Frank, E. Data Mining: practical machine learning tools and techniques. – 2011. – 664 pp.
Рекомендуемая дополнительная литература
- The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics