Бакалавриат
2021/2022




Информационный поиск и извлечение данных
Статус:
Курс по выбору (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
4-й курс, 1 модуль
Формат изучения:
с онлайн-курсом
Охват аудитории:
для своего кампуса
Преподаватели:
Пономаренко Александр Александрович
Язык:
русский
Кредиты:
4
Контактные часы:
22
Программа дисциплины
Аннотация
Дисциплина предназначена для студентов 4-го курса направления "Фундаментальная и прикладная лингвистика". Рассматриваются различные вопросы работы с большими языковыми моделями: от подготовки данных на основе открытых источников, представленных на платформе HuggingFace, до оценки качества модели на наборе автоматических метрик и тонкой донастройки модели на специфической задаче.
Цель освоения дисциплины
- Уметь подготавливать датасет для оценки качества языковой модели
- Уметь осуществлять инференс языковой модели
- Уметь осуществлять оценку качества языковой модели
- Уметь проводить тонкую настройку языковой модели
- Уметь проводить оптимизацию языковой модели для её инференса
Планируемые результаты обучения
- Знать основные алгоритмы ранжирования
- Знать принципы построения современных поисковых систем
- Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
- Понимать модель Vector Space Model
Элементы контроля
- лабораторная работа "Обучить на корпусе текстов модель word2vec"
- Самостоятельная работа "Посчитать PageRank для небольшой сети"
Промежуточная аттестация
- 2021/2022 учебный год 1 модуль0.5 * лабораторная работа "Обучить на корпусе текстов модель word2vec" + 0.5 * Самостоятельная работа "Посчитать PageRank для небольшой сети"
Список литературы
Рекомендуемая основная литература
- Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017
Рекомендуемая дополнительная литература
- Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
- Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937