• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
07
Октябрь

Аннотации учебных дисципин

Адаптационные курсы

Компьютерная лингвистика

Адаптационный курс по компьютерной лингвистике состоит из четырех блоков, которые выбираются студентом, исходя из имеющихся у него компетенций. Курс включает в себя следующие тематические  блоки, являющиеся, по сути, вводными мини-курсами: лингвистика, математика, компьютерная лингвистика, программирование.

Тематический блок по лингвистике

Цель тематического блока по лингвистике состоит в том, чтобы познакомить студентов без лингвистического образования, с понятиями, категориями и методологическим аппаратом лингвистик.
Курс вводит идею уровневой структуры языка и последовательно рассматривает проблематику, связанную с каждым из уровней (фонетикой, морфологией, синтаксисом и семантикой). Рассматриваются следующие темы:

  • Общая теория языка: основания классификаций языков, уровневые модели языка.
  • Фонетика: артикуляционная и акустическая классификация, основы фонологии.
    Морфология: морфонология, теория частей речи, словоизменительные и словообразовательные категории.
  • Синтаксис: структура словосочетания, структура предложения, формальные представления синтаксиса, анафора, коммуникативное членение предложения.
  • Семантика: лексические классы, семантические категории, семантические отношения, референция, основы прагматики, коммуникативные цели.

Тематический блок по математике

Цель тематического блока по математике – дать студентам развернутое представление об основных разделах математики, необходимых для успешного изучения курса «Математические основания компьютерной лингвистики». Предполагается, что данные курсы помогут сгладить разницу в уровне математической подготовки магистрантов. На этих же курсах студенты приобретают первичные навыки автоматической обработки текстов.

Среди рассматриваемых тем:

  • комбинаторика,
  • основы математической логики,
  • основы теории множеств,
  • дискретная теория вероятностей,
    основы линейной алгебры,
  • графики функций.

Тематический блок по компьютерной лингвистике

Цель тематического блока по компьютерной лингвистике – дать базовые представления об алгоритмах первичных процессов автоматической обработки текста: токенизации, сплиттингу, морфологическому анализу, а также обзор основных областей современной отрасли компьютерной лингвистики. Блок предназначен для тех студентов, которые не слушали ранее курса по компьютерной лингвистике.

Тематический блок по программированию

Тематический блок по программированию предназначен для слушателей, не имеющих достаточного опыта изучения информатики и программировании. Курс знакомит  студентов с основными характеристиками алгоритмов, типами данных, форматами и кодировками текстов, особенностями операционных систем, командами UNIX, регулярными выражениями, основами веб-дизайна. Предлагается экспресс-курс по языку Python.

Цикл общих дисциплин направления

Формальные модели в лингвистике

Цель курса – ознакомить студентов с методологией и теоретической базой лингвистических направлений, основывающихся на формальном анализе языковых структур. Как правило, такие теории весьма слабо освещаются в соответствующих вузовских программах. В то же время они играют весьма значительную роль в современном пространстве теоретической, прикладной и компьютерной лингвистики. При моделировании естественно-языковых процессов формальные теории опираются каждая на свой набор исходных допущений о природе естественного языка и используют формальные языки, ограниченные рядом параметров и правил, предсказывающих допустимые и недопустимые языковые структуры.   В курсе предлагается обзор основных теорий, связанных с разными уровнями языка: фонетикой, морфологией, синтаксисом и семантикой:

  • Теория оптимальности (А. Принс,  П. Маккарти и др.)
  • Генеративная грамматика  (Н. Хомский  и его последователи)
  • Грамматика вершинно-управляемых групповых структур (Head Driven Phrase Structure Grammar:  К. Поллард и  И. Саг)
  • Грамматика лексических функций (Lexical functional grammar: Дж.  Бреснан и Р. Каплан)
  • Формальная семантика (Р. Монтегю, Б.Парти и др.)
  • Генеративный лексикон (Дж. Пустейовски).
Особое внимание уделяется критическому осмыслению результатов, полученных при исследовании русского материала на базе каждой из теорий.

Функциональные и когнитивные модели в лингвистике

Цель данного курса – познакомить студента с методологическим аппаратом и базовыми теоретическими положениями современных направлений функциональной и когнитивной лингвистики. Функциональные направления в лингвистике объединяет подход к языку как к инструменту, предназначенного для выполнения некоторых функций, прежде всего коммуникативной и когнитивной. Свою задачу эти направления видят в том, чтобы связать основные свойства языковых структур с их функциями.

Когнитивные модели в лингвистике исходят из того, что язык является лишь одной из многих базовых когнитивных способностей  человека  и имеет много общего с другими когнитивными способностями. В языковой структуре когнитивисты видят отображение общих процессов, характерных для познания и мышления человека.  

В курсе дается обзор следующих теорий:

  • Теория языковых универсалий (Дж. Гринберг, У. Крофт)
  • Грамматическая типология и функциональные теории грамматики (Э. Даль, Б. Комри, С. Дик, Р. Диксон, А. Айхенвальд, А. В. Бондарко, А.Е. Кибрик, В.А. Плунгян)
  • Ролевые и референциальные грамматики (Ч. Филлмор, Р. Ван Валин)
  • Теория грамматикализации (К. Лемман, Б. Хайне, Дж. Байби, М. Хаспельмат, П. Хоппер, Э. Траугот)
  • Московская семантическая школа (Ю.Д. Апресян, И.А. Мельчук, А.Д. Шмелев)
  • Логический анализ языка (Н.Д. Арутюнова,  Е.В. Падучева, А. Богуславский)
  • Грамматика конструкций (Ч. Филлмор, А. Голдберг, Л. Микаэлис и др.)
  • Биолингвистика  (Т. Гивон)
  • Когнитивная лингвистика (Р. Лангакер, Дж. Лакофф, Л. Талми, Л. Янда и др.)
  • Естественный семантический метаязык (А. Вежбицка, К. Годдард)
  • Лексическая типология (С. Левинсон, М. Бауэрман, Дж. Ньюман, Е.В. Рахилина, М. Копчевская-Тамм)
  • Теория дискурса (У. Лабов, Х. Вайнрих,  М. Хэллидэй, С. Флейшман, П. Хопер).

Анализ лингвистических данных: квантитативные методы и визуализация / Linguistic data:quantitative analysis and visualisation

Курс должен познакомить слушателей с базовыми понятиями математической статистики. Курс имеет практическую направленность. В его задачи входит научить слушателей обобщать собранный материал, грамотно использовать методы математической обработки результатов экспериментальных, корпусных научно-практических исследований. 

В задачи курса входит: 

  • обеспечить выработку  необходимых  теоретических знаний различных методов математического обобщения результатов лингвистических исследований;
  • выработать навыки использования современных средств обработки лингвистических данных;
  • познакомить студентов и научить использовать основные, наиболее употребительные в лингвистике методы математической обработки результатов исследований;
  • научить слушателей корректно использовать результаты математического обобщения и использовать полученные данные для решения поставленных задач в исследовательских и квалификационных работах;
  • научить студентов создавать визуализации результатов своего анализа.

Вариативная часть

Антропология

В рамках курса магистры получают вводные сведения о лингвистических аспектах антропологии и смежных с языком антропологических проблемах. Главные задачи дисциплины – на примерах конкретных языков продемонстрировать неуниверсальность категорий, сквозь призму которых носитель языка воспринимает мир, дать представление о лингвокультурном многообразии мира человека, ознакомить с антропологическими (этнографическими) методами типологического и исторического анализа человеческих сообществ.

Основные темы курса:
  • универсализм и релятивизм - проблемы исследования языковой категоризации действительности (цветообозначения, термины родства);
  • роль языка в традиционном обществе;
  • этнография речевого поведения;
  • язык и история человеческих сообществ: происхождение человека и происхождение языка; антропогенетический анализ.

Экспериментальная лингвистика

Как правило, за рамками традиционных лингвистических курсов остаётся биологическая суть языка. Магистерский курс по выбору «Экспериментальная лингвистика» на факультете филологии НИУ ВШЭ призван рассказать о языке как психическом феномене и одновременно продукте реальной работы человеческой мозга. Слушатели курса познакомятся с современными экспериментальными подходами к исследованию языка (поведенческими, электрофизиологическими, нейровизуализационными, клинико-патологическими), смогут принять участие в психо- или нейролингвистическом эксперименте, увидеть, как нарушается речь при поражении мозга, и применить свою собственную компетенцию к задачам экспериментальной лингвистики (статистический анализ, распознавание образов, математическое моделирование).  

Компьютерная лингвистика

Фундаментальный курс по компьютерной лингвистике рассчитан на два года обучения и последовательно знакомит студентов со всеми ключевыми понятиями  компьютерной лингвистики, с областью применения компьютерных лингвистических технологий, с основами работы поисковых систем, первичного анализа текста, тестирования лингвистических компонентов, базовых подходов и операций с текстом. Курс закладывает теоретическую и практическую базу для более углубленного изучения круга проблем компьютерной лингвистики на дальнейших курсах.

Основные темы курса:
  • речевые технологии,морфологические и синтаксические парсеры,
  • семантические технологии,
  • генерация естественного языка,
  • машинный перевод,
  • введение в информационный поиск,
  • алгоритмы классификации и кластеризации текста,
  • извлечение данных.
В курсе предусмотрены как лекционные, так и семинарские занятия; существенную часть курса занимают  практические и лабораторные работы.

Математические основания  компьютерной лингвистики

Курс предполагает изучение разделов математики, необходимых для работы в области компьютерной лингвистики. Современная компьютерная лингвистика немыслима без математических методов. Задача курса состоит в том, чтобы сформировать представления об основаниях математических методов, умение свободно использовать их для решения профессиональных задач.

В курсе будут рассмотрены следующие темы:
  • избранные разделы прикладной теории алгоритмов (динамическое программирование, префиксные деревья, и др.);
  • основы теории сложности вычислений;
  • теория формальных грамматик и автоматов;
  • анализ символьных последовательностей, в том числе – поиск сходств
    вероятностные модели текстов, в том числе скрытые марковские цепи (HMM);
  • статистические методы анализа текстов.

Программирование (Python)

Курс построен как серия проектных работ, связанных с обработкой различных видов текстовой информации: письменных текстов на различных естественных языках, структурированных текстовых данных (телефонных баз, каталогов, геоинформации и т.п.), текстов, возникающих при электронной коммуникации, потоков запросов к поисковым системам. Будет рассматриваться и обработка звучащей речи.

Студенты приобретут опыт создания NLP приложений с использованием основных математических методов и базовых программных средств, применяемых в компьютерной лингвистике (вычисление мер сходства между объектами, кластерный анализ, методы визуализации, сокращения размерностей и т.п.). В качестве важного класса NLP приложений будут рассмотрены базы данных и вопросы их разработки.

Студенты получат представление о методике создания программ. Разработки будут вестись с применением следующих языков  программирования: Python, Perl, Java, языки семейства  и использованием пакетов программ и библиотек (R, Qt и др.).

Машинное обучение

Курс предполагает углубленное изучение разнообразных аспектов машинного обучения.

Основные темы курса:
  • основные понятия: объекты и признаки; типы шкал; типы задач: классификация, регрессия, прогнозирование, кластеризация; обучение с учителем и без учителя; функция потерь и функционал качества, принцип минимизации риска, обобщающая способность, скользящий контроль;
  • байесовские алгоритмы классификации, непараметрические методы;
  • параметрические методы, нормальный дискриминантный анализ;
  • метрические алгоритмы классификации;линейные алгоритмы классификации;
  • алгоритмы кластеризации;
  • методы восстановления регрессии;
  • метод опорных векторов (SVM);
  • нейронные сети;
  • решающие списки и деревья;
  • комбинация методов (бустинг, баггинг);
  • выбор оптимальной сложности модели;
  • обобщающая способность; оценивание и выбор моделей;
  • структурная минимизация риска.

Машинный перевод

Цель курса – познакомить студентов с системами машинного перевода, дать представление об истории развития этого направления, о существующих подходах и алгоритмах. В курсе будут рассматриваться архитектуры систем, построенных на правилах, технологии статистического машинного перевода.

Основные темы курса:
  • история машинного перевода,
  • основные методы и подходы к машинному переводу,
  • метод трансфера,
  • метод интерлингвы,
  • статистические машинный перевод,
  • машинный перевод, основанный на правилах,
  • лингвистический анализ в системах машинного перевода,
  • оценка качества работы систем машинного перевода.
Особое внимание будет уделено методике тестирования качества машинного перевода. Предполагается ряд лабораторных работ по тестированию разных автоматических переводчиков. Также  в курсе будут рассмотрены полуавтоматические системы  помощи переводчикам.

Речевые технологии

Курс  дает возможность ознакомиться с современными методами автоматической обработки звучащей речи и главными направлениями и областями применения речевых технологий, изучить краткую историю их развития, получить представление о месте и задачах лингвистического обеспечения в создании и разработке речевых технологий на современном уровне

Основные темы курса включают в себя:  
  • речевое кодирование,
  • анализ звучащей речи,
  • синтез звучащей речи
Онтологии и семантические технологии

Цель дисциплины  – дать представление о современных семантических технологиях, семантическом вебе и месте структурированных семантических данных в актуальном интернет-пространстве с одной стороны и в лингвистических разработках по автоматическому анализу естественного языка с другой.

Тематически курс будет иметь следующие разделы:

  • онтологии разных уровней,
  • объекты, атрибуты, отношения,
  • лексические онтологии,
  • онтологический инжиниринг,
  • задачи извлечения сущностей и фактов,
  • интеграция семантических баз данных,
  • семантические сети и форматы представления данных,
  • язык RDF,
  • онтологии открытого доступа ( Protégé)
Занятия включают в себя лекции, семинары и самостоятельную работу студентов.

Гуманитарные науки в цифровую эпоху


Курс digital humanities, как и вся соответствующая научная дисциплина, объединяет в себе две разнонаправленные с точки зрения научной парадигмы сферы. С одной стороны, в  орбиту этой дисциплины вовлечены гуманитарные науки с их нечеткой логикой и часто  интуитивными методами постановки задач и их решения: литературоведение, социология, культурология, история.
С другой стороны, методологической платформой digital humanities  становится применение инструментария естественных наук, реализованного в электронных  инструментах, подразумевающих точность и вычислимость данных.
Сейчас всё больше наук, в том числе и тех, представители которых до сих пор мыслили  очень традиционно, вынуждены вовлекаться в новые для них цифровые сферы. Перед всеми  – и естественниками, и гуманитариями – сейчас стоит задача создания электронных  научных инструментов для хранения. Для гуманитарных наук это молодая, динамичная и очень  интересная область – область открытий и нахождения решений. 
Курс предназначен для того, чтобы уяснить, «что такое хорошо и что такое плохо» в  области создания электронных инструментов нахождения гуманитарного знания, как  такие инструменты должны выглядеть, какие задачи должны решать. От общих вопросов  о специфике гуманитарного знания учащиеся перейдут к практическим примерам уже  существующих ресурсов, будут сформулированы характерные тенденции изучаемой  области, обсужден круг применяемых методов и перспективные направления развития.

Digital Humanities: instruments, resourses, case studies


The digital humanities is an area of study, research, teaching, and invention concerned with the intersection of computing and the disciplines of the humanities. Sometimes called humanities computing, the field has focused on the digitization and analysis of materials related to the traditional disciplines of the humanities. Digital Humanities currently incorporates both digitized and born-digital materials and combines the methodologies from the traditional humanities disciplines (such as history, philosophy, linguistics, literature, art, archaeology, music, and cultural studies) with tools provided by computing (such as data visualisation, information retrieval, data mining computational analysis) and digital publishing.
This course will include a project-based exercise in creating a digital humanities resource. As we look at the concepts, methods, and theories of digital humanities through the perspective of practice, we will consider how computational methods are being used to further humanities research and teaching. In particular, we will concentrate on the conceptual aspects of digitization and representation by determining possible purposes and audiences for the resource, describing and organizing it, and planning how to present those resources based on user needs. While the ideas we engage and the skills we will learn should be applicable to any digital humanities project, we will focus in this course on creating a specific collection of correspondences that will be freely available online.

Социальные сети

Курс «Социальные сети» знакомит студентов с новой междисциплинарной областью исследований сложных систем, получившей название “network science”.  Возникшая в социологии,  теория социальных сетей  привлекла значительный интерес математиков, физиков, экономистов, специалистов по анализу данных и др. Исследования показали, что несмотря на огромное разнообразие сетей -   экономические, финансовые, транспортные, компьютерные, лингвистические, они  обладают определенными универсальными свойствами и могут быть охарактеризованы однотипными параметрами.  В последние годы появилось значительное число работ по исследованию лингвистических сетей и их применения к анализу структуры языка и текстов.  В данном курсе рассматриваются методы анализа структуры сетей, нахождения кластеров и часто встречающихся фрагментов, а также вычисления метрик центральности узлов и анализ их связей.

Целями освоения дисциплины «Социальные сети» являются  овладение студентами моделями и методами анализа сетевых данных и их применения к лингвистическому анализу, а также приобретение навыков исследователя и разработчика математических моделей, методов, алгоритмов и совершенствование навыков работы по анализу реальных данных.

Научно-исследовательский блок

Концепция научно-исследовательского семинара

В рамках научно-исследовательского семинара магистры знакомятся с практикой научного исследования, разработки лингвистического ресурса или программного продукта и получают возможность не только освоить те или иные теоретические подходы и парадигмы, но, в идеале, добиться собственного значимого научного  или практического результата.

НИС призван сформировать у слушателей:

- опыт постановки и решения научно-исследовательской или практической задачи, индивидуально и в коллективе;
- способность освоить конкретный теоретический аппарат и инстументарий и применить его к решению той или иной конкретной исследовательской или практической задачи;
- навыки академического письма, презентации  и опыт разных форм представления для научных  и практических проектов, навыки подготовки научных докладов;
- навыки академического общения на английском языке, самостоятельной работы с научной литературой на разных языках.
 
НИС проводится в формах проектных мастерских,  приглашенных лекций и мастер-классов, миникурсов по теориям, моделям и конкретным языкам, полевой работы с малыми языками (в форме интервью с носителями или лингвистических экспедиций) и полевых социолингвистических исследований, работы с корпусами русского и иных языков.
В рамках НИСа группы магистров профиля «Теория языка» выполнят коллективные исследования по одному из базовых направлений магистратуры – русистики, типологии или социолингвистики, группы магистров профиля «Компьютерная лингвистика» выполняют проекты, направленные на создание готовых продуктов, связанных с автоматической обработкой естественного языка или же электронным представлением и обработкой гуманитарного наследия.

Мастер-класс

Мастер-класс является обязательным практическим курсом с приглашенными лекторами из самых разных областей, связанных с теорией языка, полевой лингвистикой, преподаванием иностранных языков и русского как иностранного, лингвистическими технологиями в научно-исследовательских сферах и коммерческих приложения. Курс крайне важен для выбора магистрантами будущей профессиональной специализации. Ожидается, что содержание курса будет непосредственно влиять на выбор проектов в научно-исследовательском семинаре. Принципиально, что приглашенные лекторы являются одновременно потенциальными работодателями магистрантов. Содержание курса варьируется в зависимости от состава внешних участников. Литература к занятию предлагается приглашенным лектором.