Бакалавриат
2024/2025



Информационный поиск и извлечение данных
Статус:
Курс обязательный (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Демидовский Александр Владимирович,
Сальников Игорь Геннадьевич,
Тугарев Артем Михайлович
Язык:
русский
Кредиты:
4
Программа дисциплины
Аннотация
Дисциплина предназначена для студентов 4-го курса направления "Фундаментальная и прикладная лингвистика". Рассматриваются различные вопросы работы с большими языковыми моделями: от подготовки данных на основе открытых источников, представленных на платформе HuggingFace, до оценки качества модели на наборе автоматических метрик и тонкой донастройки модели на специфической задаче.
Цель освоения дисциплины
- Уметь подготавливать датасет для оценки качества языковой модели
- Уметь осуществлять инференс языковой модели
- Уметь осуществлять оценку качества языковой модели
- Уметь проводить тонкую настройку языковой модели
- Уметь проводить оптимизацию языковой модели для её инференса
Планируемые результаты обучения
- Знать основные алгоритмы ранжирования
- Знать принципы построения современных поисковых систем
- Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
- Понимать модель Vector Space Model
Элементы контроля
- Устный экзамен
- Лабораторные работыРассматриваются современные нейросетевые языковые модели и компьютерные инструменты для работы с ними в решении повседневных задач компьютерного лингвиста
Список литературы
Рекомендуемая основная литература
- Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017
Рекомендуемая дополнительная литература
- Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
- Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937