• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Дополнительные главы корпусной лингвистики

2023/2024
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1, 2 модуль

Преподаватели

Программа дисциплины

Аннотация

Данная дисциплина является продолжением курса "Корпусная лингвистика". В рамках дисциплины будут рассмотрены современные инструменты для создания размеченных корпусов, средства специальной разметки, методы хранения и обработки таких корпусов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомиться с различными способами реализации дополнительного функционала к корпусам: визуализация и статистическая обработка корпусных данных
  • Освоить различные способы реализации дополнительного функционала к корпусам
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеет проводить частотный анализ текстовых данных и визуализировать их
  • Студент анализирует основной пользовательский функционал, предоставляемый корпусным интерфейсом, в произвольном корпусе; определяет плюсы и минусы интерфейса с точки зрения различных пользовательских сценариев
  • Формулирует задачи фронтенда и бэкенда для разных типов корпусов
  • умеет проектировать функционал для отражения частотных характеристик языковых единиц в корпусном интерфейсе
  • Реализует колллокационные методы для выделения коллокаций и коллоконструкций.
  • Анализирует различные коллокационные методы: какие ошибки дает каждый из методов. Организует тестирование реализованных на разработанном корпусе коллокационных методов
  • Разрабатывает структуру даенных для представления текстов корпуса и корпусной разметки
Содержание учебной дисциплины

Содержание учебной дисциплины

  • 1. Развитие фронтэнда и бэкэнда для проектов, развитие поискового функционала
  • 2. Информация о частотности языковых единиц в корпусе
  • Статистический копрусной функционал: коллокации и коллоконструкции (образец: SketchEngine, CoCoCo)
  • Разработка бэкенда для корпуса: способы представления данных корпуса и разметки
  • Разработка пользовательского интерфейса с дополнительным функционалом для корпуса
Элементы контроля

Элементы контроля

  • неблокирующий Понятие и основные меры для выявления статистики сочетаемости. Сравнение метрик
    Доклад по коллокационным метрикам
  • неблокирующий Обсуждения и тестирование корпусных платформ на семинарах
    Анализ дополнительного функционала корпусных платформ
  • неблокирующий Письменные домашние задания
  • неблокирующий Программная реализация проекта по созданию собственного корпуса
  • неблокирующий Проект по созданию собственного корпуса
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.13 * Обсуждения и тестирование корпусных платформ на семинарах + 0.1 * Письменные домашние задания + 0.2 * Письменные домашние задания + 0.07 * Понятие и основные меры для выявления статистики сочетаемости. Сравнение метрик + 0.2 * Программная реализация проекта по созданию собственного корпуса + 0.3 * Проект по созданию собственного корпуса
Список литературы

Список литературы

Рекомендуемая основная литература

  • A mosaic of corpus linguistics : selected approaches, , 2010
  • Contemporary corpus linguistics, , 2009
  • Corpus interrogation and grammatical patterns, , 2014
  • Corpus linguistics. Vol.4: Methods and applications, , 2012
  • Базы данных. Теория и практика : учебник, Советов Б.Я., Цехановский В.В., 2007

Рекомендуемая дополнительная литература

  • Entrenchment in usage-based theories : what corpus data do and do not reveal about the mind, Blumenthal-Drame, A., 2012
  • Exploring corpus linguistics : language in action, Cheng, W., 2012
  • Quantitative corpus linguistics with R: a practical introduction, Gries, S.T., 2011
  • Национальный корпус русского языка и проблемы гуманитарного образования, [сборник], отв. ред.-сост. Н. Р. Добрушина ; Гос. ун-т - Высшая школа экономики, 237 с., , 2007