Сбор и обработка данных с помощью краудсорсинга

Бакалавриат 2021/2022

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Базовая кафедра Яндекс

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Преподаватели: Байдакова Дарья Дмитриевна, Бирюков Валентин Андреевич

Язык: русский

Кредиты: 5

Контактные часы: 60

Полная версия программы учебной дисциплины

Аннотация

В настоящее время практически любая содержательная задача, связанная с ML/AI, требует размеченных данных. Как правило, они нужны в большом количестве, а их сбор требует привлечения ручного труда. Умение проектировать архитектуру процессов сбора данных – один из востребованных и ключевых навыков для ML-инженеров. Размеченные данные необходимы не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Алиса, Поиск, Переводчик, Драйв, беспилотные автомобили, РСЯ – все эти технологии Яндекса основаны на масштабных процессах сбора и обработки данных. Курс “Сбор и разметка данных для машинного обучения” направлен на овладение навыками работы с данными для машинного обучения. Эти навыки включают в себя дизайн конвейера сбора и обработки данных, его оптимизацию под разнообразные ограничения (бюджет, качество работы модели и проч.), автоматизацию этих процессов, оценку качества работы модели и ее улучшение. Все это – интегральная часть ML/AI-решений и задачи, с которыми инженеры сталкиваются в повседневной работе. По итогам курса слушатели смогут самостоятельно реализовать полный цикл работы с данными – от сбора обучающего набора данных до проверки и поддержания качества работы модели на меняющихся данных. Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.

Цель освоения дисциплины

Сформировать компетенции, позволяющие собирать, обрабатывать и использовать данные для работы с ML-моделями.
Сформировать компетенции, позволяющие собирать, обрабатывать и использовать данные для работы с ML-моделями

Планируемые результаты обучения

студент владеет техниками оптимизации этих процессов
студент может оценить качество работы модели и улучшить ее
студент может спроектировать и реализовать конвейер сбора и обработки данных для обучения ML-алгоритма
студент понимает роль данных в жизненном цикле ML-модели

Содержание учебной дисциплины

Введение. Работа с данными в машинном обучении
Общая концепция краудсорсинга. Декомпозиция задачи
Проектирование интерфейсов и инструкций для краудсорсинговых проектов
Контроль качества. Этапы и инструменты
Автоматизация конвейера по сбору данных
Проектная работа: сбор данных для обучения модели с целевым качеством
Подходы к оптимизации бюджета
Агрегация полученных результатов: категориальная разметка, попарная разметка, агрегация сложных ответов
Human-in-the-loop и другие подходы к оптимизации процессов разметки
Проектная работа: сбор данных для обучения модели с целевым качеством и ограничением по бюджету
Оценка качества работы модели
Сбор данных для дообучения
Проектная работа: сбор данных для обучения и поддержания качества модели в условиях меняющегося мира
Кейс-стади: работа с данными в Поиске, Алисе, Переводчике, Беспилотных технологиях, тестировании и других продуктах

Элементы контроля

Домашнее задание 1
работа с платформой для сбора данных
Домашнее задание 2
ДЗ2 – контроль качества
Домашнее задание 3
ДЗ3 – проект #1
Домашнее задание 4
ДЗ4 – агрегация данных
Домашнее задание 5
ДЗ5 – агрегация данных
Домашнее задание 6
ДЗ6 – проект #2
Домашнее задание 7
ДЗ7 – проект #3

Промежуточная аттестация

2021/2022 учебный год 2 модуль
ДЗ1 + ДЗ2 + ДЗ3 + ДЗ4 + ДЗ5 + ДЗ6 + ДЗ7 / 10

Программа дисциплины