2021/2022
Универсальные системы аннотации открытых данных
Статус:
Майнор
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Шейфер Карина Олеговна
Язык:
русский
Кредиты:
3
Контактные часы:
22
Программа дисциплины
Аннотация
Для работы языковых моделей на нейросетях используются системы морфосинтаксической аннотации Universal Dependencies (UD) и Universal Morphology (UniMorph). Каждая из систем динамично развивается и поддерживается собственным сообществом исследователей. Семинар будет включать изучение этих систем, а также их совместимости и транскодирования. В рамках индивидуальной/групповой (2-3 человека) работы студенты приведут разметку корпуса языка Х в формат UD/UniMorph. Практическая ценность задания состоит в том, что на основе существующих корпусов будут созданы датасеты (в т.ч. трибанки) для разработки языковых моделей на нейросетях.
Цель освоения дисциплины
- Курс знакомит с существующими системами аннотирования открытых данных. Цель дисциплины - сформировать навыки аннотирования и коррекции ошибок.
Планируемые результаты обучения
- Студент владеет форматами хранения данных.
- Студент владеет форматом аннотации в проекте Universal Dependencies. CoNLL-U, форматом аннотации в проекте Universal Morphology.
- Студент знаком со способами устранения типичных ошибок при аннотировании.
- Студент имеет представление о типах лингвистических аннотаций.
- Студент имеет представление о традиции описания языков разного строя.
Содержание учебной дисциплины
- Тема 1. Типы лингвистических аннотаций
- Тема 2. Большие проекты по аннотации разных языков
- Тема 3. Основные форматы хранения аннотированных данных
- Тема 4. Форматы аннотаций: навыки
- Тема 5. Сложности аннотирования и типичные ошибки
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль0.5 * Проверочная работа + 0.5 * Защита проекта
Список литературы
Рекомендуемая основная литература
- D. Kachan A., & Д. Качан А. (2018). Open Data: Analysis of Trends ; Открытые Данные: Анализ Тенденций. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.5271C977
Рекомендуемая дополнительная литература
- ИГНАТОВА АННА МИХАЙЛОВНА. (2015). Открытые данные как новый способ взаимодействия государства и общества. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.B5CE0229