• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Нейросетевые методы в обработке текстов

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 4-й курс, 1-3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Пономарева Мария Алексеевна, Самсонова Дарья Андреевна, Сериков Олег Алексеевич
Язык: русский
Кредиты: 6
Контактные часы: 82

Программа дисциплины

Аннотация

Курс знакомит студентов с рядом алгоритмов и структур данных для обработки текстов, дает представление о базовых понятиях и алгоритмах машинного обучения, формирует практические навыки применения машинного обучения в задачах обработки текстов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство с рядом алгоритмов и структур данных для автоматической обработки текста (NLP)
  • Знакомство с базовыми понятиями и алгоритмами машинного обучения
  • Формирование практических навыков применения машинного обучения в задачах NLP
Планируемые результаты обучения

Планируемые результаты обучения

  • знает и умеет реализовывать на Python различные методы индексации корпуса
  • знает теоретические основы информационного поиска
  • умеет реализовать поисковой движок на нескольких алгоритмах индексации как production проект
  • умение оценивать качество модели и анализировать ошибки
  • умение подготовить данные для решения задач NLP
  • умение применить модели машинного и глубокого обучения для решения задач NLP: классификации текстов, генерации текста, тегирования последовательности и извлечения информации
  • умение проектировать архитектуру нейронной сети в зависимости от задачи
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Информационный поиск
  • Предобработка данных
  • Базовые понятия машинного обучения, алгоритмы машинного обучения для задач классификации, кластеризации и регрессии
  • Избранные главы математики для машинного обучения
  • FFN, CNN, RNN, LSTM
  • Sequence-to-sequence, Sequence Tagging, Language Modeling
  • Статические эмбеддинги (Word2Vec, FastText)
  • Контекстуальные эмбеддинги (BERT, ELMo)
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания (1 модуль)
  • неблокирующий Экзамен (3 модуль)
    Блок “Компьютерная лингвистика” Оценка за экзамен равна оценке за соответствующий экзаменационный проект.
  • неблокирующий Экзамен (1 модуль)
    Блок “Информационный поиск” Оценка за экзамен равна оценке за соответствующий экзаменационный проект.
  • неблокирующий Тесты (1 модуль)
  • неблокирующий Промежуточный контроль (2 модуль)
    Блок “Компьютерная лингвистика” Оценка за промежуточный контроль равна оценке за соответствующий проект.
  • неблокирующий Тесты (2-3 модуль)
  • неблокирующий Домашние задания (блок "Информационный поиск")
  • неблокирующий Домашние задания (2-3 модуль)
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
  • 2021/2022 учебный год 3 модуль
    0.105 * Домашние задания (блок "Информационный поиск") + 0.09 * Тесты (2-3 модуль) + 0.2 * Экзамен (3 модуль) + 0.045 * Экзамен (1 модуль) + 0.12 * Домашние задания (1 модуль) + 0.21 * Домашние задания (2-3 модуль) + 0.2 * Промежуточный контроль (2 модуль) + 0.03 * Тесты (1 модуль)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
  • Speech and language processing, Jurafsky, D., 2014
  • Прикладная и компьютерная лингвистика, коллективная монография, под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо, 2-е изд., 315 с., , 2017

Рекомендуемая дополнительная литература

  • Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512