• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2021/2022

Универсальные системы аннотации открытых данных

Статус: Майнор
Когда читается: 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Шейфер Карина Олеговна
Язык: русский
Кредиты: 3
Контактные часы: 22

Программа дисциплины

Аннотация

Для работы языковых моделей на нейросетях используются системы морфосинтаксической аннотации Universal Dependencies (UD) и Universal Morphology (UniMorph). Каждая из систем динамично развивается и поддерживается собственным сообществом исследователей. Семинар будет включать изучение этих систем, а также их совместимости и транскодирования. В рамках индивидуальной/групповой (2-3 человека) работы студенты приведут разметку корпуса языка Х в формат UD/UniMorph. Практическая ценность задания состоит в том, что на основе существующих корпусов будут созданы датасеты (в т.ч. трибанки) для разработки языковых моделей на нейросетях.
Цель освоения дисциплины

Цель освоения дисциплины

  • Курс знакомит с существующими системами аннотирования открытых данных. Цель дисциплины - сформировать навыки аннотирования и коррекции ошибок.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент владеет форматами хранения данных.
  • Студент владеет форматом аннотации в проекте Universal Dependencies. CoNLL-U, форматом аннотации в проекте Universal Morphology.
  • Студент знаком со способами устранения типичных ошибок при аннотировании.
  • Студент имеет представление о типах лингвистических аннотаций.
  • Студент имеет представление о традиции описания языков разного строя.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Типы лингвистических аннотаций
  • Тема 2. Большие проекты по аннотации разных языков
  • Тема 3. Основные форматы хранения аннотированных данных
  • Тема 4. Форматы аннотаций: навыки
  • Тема 5. Сложности аннотирования и типичные ошибки
Элементы контроля

Элементы контроля

  • неблокирующий Проверочная работа
  • неблокирующий Защита проекта
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    0.5 * Проверочная работа + 0.5 * Защита проекта
Список литературы

Список литературы

Рекомендуемая основная литература

  • D. Kachan A., & Д. Качан А. (2018). Open Data: Analysis of Trends ; Открытые Данные: Анализ Тенденций. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.5271C977

Рекомендуемая дополнительная литература

  • ИГНАТОВА АННА МИХАЙЛОВНА. (2015). Открытые данные как новый способ взаимодействия государства и общества. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.B5CE0229