• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Прикладная математика и информатика»

25
Август

Сбор и обработка данных с помощью краудсорсинга

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс по выбору
Когда читается:
3-й курс, 1, 2 модуль

Преподаватель


Байдакова Дарья Дмитриевна

Программа дисциплины

Аннотация

Efficient Data Collection and Labeling via Crowdsoucring: в настоящее время практически любая содержательная задача по анализу данных или ML требует сбора размеченных данных, которые, как правило, нужны в большом количестве и требуют привлечения ручного труда. Работа с "краудом" является одним из востребованных и ключевых навыков, которыми необходимо уметь пользоваться специалистам по анализу данных, если они хотят расти и решать все более крупные и амбициозные задачи. В рамках курса рассматриваются как теоретические, так и практические стороны применения краудсорсинга для эффективного сбора и разметки данных. Мы сфокусируемся на формализации и вычислении разных характеристик краудсорсинговых процессов, а именно, на таких темах как применение различных методов агрегации (при стандартном сборе данных, попарных сравнениях, в аннотировании аудиозаписей итп), автоматическое предсказание и обнаружение спамеров, динамическое перекрытие и динамическое ценообразование. А также данный курс содержит прикладную часть, в ходе которой, студентов обучат созданию эффективных процессов работы с "краудом" на одной из самых известных платформ в мире на примере решения таких задач как определение релевантности поисковой выдачи, распознавание речи, объектов на изображениях и многому другому. Часть домашних заданий предполагает программирование на языке Python, а знания html, js и css на базовом или среднем уровнях будут преимуществом
Цель освоения дисциплины

Цель освоения дисциплины

  • Студенты, прошедшие данный образовательный курс, будут обладать глубоким пониманием и систематизированной картиной технологий краудсорсинга, что должно повысить эффективность работы продуктовых процессов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студенты будут знать, как правильно декомпозировать задачу.
  • Понимать и применять на практике основные компоненты краудсорсинга (в т.ч. Контроли качества, агрегация ответов).
  • Обладать глубоким пониманием, как генерируется разметка данных для беспилотных автомобилей, голосовых помощника, поисковых сервисов, и др.
  • Разбираться в разных моделях агрегации результатов.
  • Разбираться в динамическом перекрытии и динамическом ценообразовании.
  • Разбираться в основах вероятностного моделирования.
  • Обладать практическим опытом работы с одной из самых больших краудсорсинговых платформ в мире, Яндекс.Толокой.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение и общая концепция краудсорсинга 2. Декомпозиция задачи
  • Основные компоненты краудосринга : инструкция и интерфейс
  • Основные компоненты краудосринга (II): Контроль качества
  • Классификация 2. Классификация изображений
  • Агрегация
  • Динамическое перекрытие и прайсинг
  • Краудсорсинг для компьютерного зрения: Беспилотники и Neatsy
  • Генерация контента
  • Попарное сравнение SbS 2. Классификация упоминаний в соц сетях
  • Пешеходные задания 2. Гео-аналитика
  • Аннотирование звучащей речи для Голосовых Технологий 2. Агрегация ответов в аннотировании аудиозаписей
  • Тестирование 2. Заключение
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    ДЗ1 — средняя оценка за первые 5 ДЗ
  • неблокирующий Домашнее задание 2
    ДЗ2 — средняя оценка за последние 5 ДЗ
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.5 * Домашнее задание 1 + 0.5 * Домашнее задание 2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Foundations of machine learning, Mohri, M., 2012

Рекомендуемая дополнительная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705