Бакалавриат
2020/2021
Сбор и обработка данных с помощью краудсорсинга
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра Яндекс
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Байдакова Дарья Дмитриевна
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Efficient Data Collection and Labeling via Crowdsoucring: в настоящее время практически любая содержательная задача по анализу данных или ML требует сбора размеченных данных, которые, как правило, нужны в большом количестве и требуют привлечения ручного труда. Работа с "краудом" является одним из востребованных и ключевых навыков, которыми необходимо уметь пользоваться специалистам по анализу данных, если они хотят расти и решать все более крупные и амбициозные задачи. В рамках курса рассматриваются как теоретические, так и практические стороны применения краудсорсинга для эффективного сбора и разметки данных. Мы сфокусируемся на формализации и вычислении разных характеристик краудсорсинговых процессов, а именно, на таких темах как применение различных методов агрегации (при стандартном сборе данных, попарных сравнениях, в аннотировании аудиозаписей итп), автоматическое предсказание и обнаружение спамеров, динамическое перекрытие и динамическое ценообразование. А также данный курс содержит прикладную часть, в ходе которой, студентов обучат созданию эффективных процессов работы с "краудом" на одной из самых известных платформ в мире на примере решения таких задач как определение релевантности поисковой выдачи, распознавание речи, объектов на изображениях и многому другому. Часть домашних заданий предполагает программирование на языке Python, а знания html, js и css на базовом или среднем уровнях будут преимуществом
Цель освоения дисциплины
- Студенты, прошедшие данный образовательный курс, будут обладать глубоким пониманием и систематизированной картиной технологий краудсорсинга, что должно повысить эффективность работы продуктовых процессов.
Планируемые результаты обучения
- Студенты будут знать, как правильно декомпозировать задачу.
- Понимать и применять на практике основные компоненты краудсорсинга (в т.ч. Контроли качества, агрегация ответов).
- Обладать глубоким пониманием, как генерируется разметка данных для беспилотных автомобилей, голосовых помощника, поисковых сервисов, и др.
- Разбираться в разных моделях агрегации результатов.
- Разбираться в динамическом перекрытии и динамическом ценообразовании.
- Разбираться в основах вероятностного моделирования.
- Обладать практическим опытом работы с одной из самых больших краудсорсинговых платформ в мире, Яндекс.Толокой.
Содержание учебной дисциплины
- Введение и общая концепция краудсорсинга 2. Декомпозиция задачи
- Основные компоненты краудосринга : инструкция и интерфейс
- Основные компоненты краудосринга (II): Контроль качества
- Классификация 2. Классификация изображений
- Агрегация
- Динамическое перекрытие и прайсинг
- Краудсорсинг для компьютерного зрения: Беспилотники и Neatsy
- Генерация контента
- Попарное сравнение SbS 2. Классификация упоминаний в соц сетях
- Пешеходные задания 2. Гео-аналитика
- Аннотирование звучащей речи для Голосовых Технологий 2. Агрегация ответов в аннотировании аудиозаписей
- Тестирование 2. Заключение
Элементы контроля
- Домашнее задание 1ДЗ1 — средняя оценка за первые 5 ДЗ
- Домашнее задание 2ДЗ2 — средняя оценка за последние 5 ДЗ
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.5 * Домашнее задание 1 + 0.5 * Домашнее задание 2
Список литературы
Рекомендуемая основная литература
- Foundations of machine learning, Mohri, M., 2012
Рекомендуемая дополнительная литература
- Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705