Магистратура
2019/2020
Информационный поиск
Статус:
Курс по выбору (Науки о данных)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра Яндекс
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Мосиенко Константин Викторович
Прогр. обучения:
Науки о данных
Язык:
русский
Кредиты:
4
Контактные часы:
48
Программа дисциплины
Аннотация
"В курсе рассматриваются общие вопросы построения информационно-поисковых систем: задачи информационного поиска и архитектура поисковых систем, машинное обучение в поиске и компьютерная лингвистика, построение поискового индекса и обнаружение дубликатов, поисковый робот и оценка качества. Решение предлагаемых практических заданий связано со знакомством с широким спектром технологий и алгоритмов, применяемых на практике при построении компонентов поисковой системы ."
Цель освоения дисциплины
- Освоение методов информационного поиска и умение применять в решении практических задач.
Планируемые результаты обучения
- Понимать назначение систем информационного поиска
- Иметь представление о базовых компонентах поисковой системы
- Уметь строить и использовать языковые модели
- Уметь строить и использовать глубинные языковые модели
- Уметь написать поискового робота и собрать данные с его помощью
- Уметь эффективно находить дубликаты страниц
- Уметь строить стратегию обхода таким образом, чтобы свежие страницы вовремя попадали в индекс
- Уметь строить и использовать инвертированный индекс
- Уметь обучать модели для решения задачи ранжированию
- Уметь использовать различные эвристики для оптимизации и ускорения индексирования и использования индекса
Содержание учебной дисциплины
- ВведениеПостановка задачи. Что должна уметь поисковая система? Базовые компоненты поисковой системы. Векторные модели документа.
- Query - Text Matching.Языковые модели. Сглаживание. Как учитывать контекст. Тематическое моделирование.
- Глубинные моделиQuery - Text Matching, глубинные модели. Обзор существующих архитектур.
- Поисковый роботАлгоритмы. Взаимодействие с администратором ресурса. Метрики качества обхода. Page Rank.
- Обнаружение дубликатовЗачем это нужно? Виды дублей. Шинглы. Odd Sketch. SimHash.
- Порядок обхода страницОбход свежих страниц. Анализ источников ссылок. Выделение ресурсов. Политики обхода. Использование машинного обучения.
- Инвертированный индексПостроение и использование инвертированного индекса. Сжатие.
- Обучение ранжированиюЗадача обучения ранжированию. Метрики ранжирования. Pointwise, pairwise, listwise подходы.
- ОптимизацияОптимизация индекса. Алгоритмы и эвристики
Элементы контроля
- Домашняя работа
- Домашняя работа
- ЭкзаменОценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.3 * Домашняя работа + 0.3 * Домашняя работа + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Введение в информационный поиск, Маннинг, К. Д., 2014
Рекомендуемая дополнительная литература
- Алексеев В.Е., Таланов В.А. - Графы и алгоритмы - Национальный Открытый Университет "ИНТУИТ" - 2016 - 153с. - ISBN: 5-9556-0066-3 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100593