• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Информационный поиск

Статус: Курс по выбору (Науки о данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Преподаватели: Мосиенко Константин Викторович
Прогр. обучения: Науки о данных
Язык: русский
Кредиты: 4
Контактные часы: 48

Программа дисциплины

Аннотация

"В курсе рассматриваются общие вопросы построения информационно-поисковых систем: задачи информационного поиска и архитектура поисковых систем, машинное обучение в поиске и компьютерная лингвистика, построение поискового индекса и обнаружение дубликатов, поисковый робот и оценка качества. Решение предлагаемых практических заданий связано со знакомством с широким спектром технологий и алгоритмов, применяемых на практике при построении компонентов поисковой системы ."
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение методов информационного поиска и умение применять в решении практических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимать назначение систем информационного поиска
  • Иметь представление о базовых компонентах поисковой системы
  • Уметь строить и использовать языковые модели
  • Уметь строить и использовать глубинные языковые модели
  • Уметь написать поискового робота и собрать данные с его помощью
  • Уметь эффективно находить дубликаты страниц
  • Уметь строить стратегию обхода таким образом, чтобы свежие страницы вовремя попадали в индекс
  • Уметь строить и использовать инвертированный индекс
  • Уметь обучать модели для решения задачи ранжированию
  • Уметь использовать различные эвристики для оптимизации и ускорения индексирования и использования индекса
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    Постановка задачи. Что должна уметь поисковая система? Базовые компоненты поисковой системы. Векторные модели документа.
  • Query - Text Matching.
    Языковые модели. Сглаживание. Как учитывать контекст. Тематическое моделирование.
  • Глубинные модели
    Query - Text Matching, глубинные модели. Обзор существующих архитектур.
  • Поисковый робот
    Алгоритмы. Взаимодействие с администратором ресурса. Метрики качества обхода. Page Rank.
  • Обнаружение дубликатов
    Зачем это нужно? Виды дублей. Шинглы. Odd Sketch. SimHash.
  • Порядок обхода страниц
    Обход свежих страниц. Анализ источников ссылок. Выделение ресурсов. Политики обхода. Использование машинного обучения.
  • Инвертированный индекс
    Построение и использование инвертированного индекса. Сжатие.
  • Обучение ранжированию
    Задача обучения ранжированию. Метрики ранжирования. Pointwise, pairwise, listwise подходы.
  • Оптимизация
    Оптимизация индекса. Алгоритмы и эвристики
Элементы контроля

Элементы контроля

  • неблокирующий Домашняя работа
  • неблокирующий Домашняя работа
  • неблокирующий Экзамен
    Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.3 * Домашняя работа + 0.3 * Домашняя работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в информационный поиск, Маннинг, К. Д., 2014

Рекомендуемая дополнительная литература

  • Алексеев В.Е., Таланов В.А. - Графы и алгоритмы - Национальный Открытый Университет "ИНТУИТ" - 2016 - 153с. - ISBN: 5-9556-0066-3 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100593