• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2022/2023

Корпусная лингвистика

Статус: Курс обязательный (Компьютерная лингвистика)
Направление: 45.04.03. Фундаментальная и прикладная лингвистика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Прогр. обучения: Компьютерная лингвистика
Язык: русский
Кредиты: 6
Контактные часы: 64

Программа дисциплины

Аннотация

Электронные корпусные ресурсы, включающие особым образом размеченные письменные, устные и мультимодальные языковые данные, являются важным источником эмпирической информации для фундаментальной и прикладной лингвистики. Этот курс предполагает углубленное изучение методов разработки дизайна корпуса, ручной, автоматизированной и автоматической лингвистически ориентированной разметки, количественной и качественной оценки корпусных компонентов, знакомство с инструментами индексации и поискового менеджмента. В курсе также будут рассматриваться современные методы автоматической очистки (дедупликации, распознавания "псевдотекста и т.п."), предобработки и разметки корпусов с использованием нейросетевых технологий, а также методы расширения текстовых данных за счет генерации искусственных примеров (аугментации корпусов) с использованием современных генеративных технологий.Особое внимание будет уделено совместимости форматов разметки, викификации и подключению других внешних ресурсов, особенностям конструирования корпусов сетевой коммуникации, учебных корпусов, исторических корпусов, параллельных корпусов, корпусов полевых данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • - уметь определять цели создания для основных типов корпусов, необходимый функционал, специальные характеристики, приводить примеры задач, которые можно решать с использованием корпуса соответствтующего типа - уметь автоматически собирать корпуса, предобрабатывать и очищать от дубликатов и "псевдо"текста, в том числе с использованием современных нейросетевых технологий - уметь аугментировать корпусные данные с использованием генеративных нейросетевых моделей - уметь разработать и провести устойчивую разметку корпусов, включая автоматизированную и автоматическую разметку - научиться разрабатывать собственные корпуса и обеспечивать их необходимым пользовательским интерфейсом (на примере одной из доступных корпусных платформ)
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент умеет корректно размечать данные
  • Анализирует организацию одного из типа корпусов (учебных, риторических и т.п.) с точки зрения цели создания, состава, видов разметки, примеров использования, функциональность, удобства пользовательского интерфейса
  • Умеет собирать данные из различных web-источников для корпуса
  • Умеет осуществлять очистку и первичную разметку текстов для корпуса (метаразметку и грамматическую аннотацию)
  • Умеет осуществлять дедупликацию и фильтрацию текстовых данных
  • Студент умеет выбирать платформу для разметки корпусных данных, разворачивать ее и работать в ней.
  • Студент умеет создавать инструкцию для аннотации корпусных данных
  • Студент размещает разеченные корпусные данные в корпусном менеджере
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Состав и структура данных.
  • Разработка корпуса
  • Корпусные поисковые платформы
  • Связанные ресурсы
  • Синтез корпусных данных
Элементы контроля

Элементы контроля

  • неблокирующий Доклад на семинаре о выбранном типе корпусов
    1. Приведите три пользовательских сценария, для которых мог бы использоваться ваш корпус. 2. Расскажите о функционале корпуса на примере одного-двух сценариев, критически оцените а) данные, б) пользовательские функции, в) параметры выдачи, г) интерфейс и т.д. 3. Чего вам не хватило для реализации сценария, что показалось лишним?
  • неблокирующий Реферат по статье
  • неблокирующий Проект по созданию собственного корпуса
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.4 * Проект по созданию собственного корпуса + 0.4 * Доклад на семинаре о выбранном типе корпусов + 0.2 * Реферат по статье
Список литературы

Список литературы

Рекомендуемая основная литература

  • Захаров В.П., Богданова С.Ю. - Корпусная лингвистика - 978-5-288-05997-1 - Санкт-Петербургский государственный университет - 2020 - https://znanium.ru/catalog/product/1244746 - 1244746 - ZNANIUM

Рекомендуемая дополнительная литература

  • Contemporary corpus linguistics, , 2012
  • Грудева, Е. В. Корпусная лингвистика : учебное пособие / Е. В. Грудева. — 4-е изд., стер. — Москва : ФЛИНТА, 2025. — 165 с. — ISBN 978-5-9765-1497-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/504928 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020

Авторы

  • Ляшевская Ольга Николаевна
  • Толдова Светлана Юрьевна
  • Перова Дарья Максимовна