дек

2021

Видео индустриального вебинара «Human and ML — collaboration in data labeling»

Canva

Евгений Сорокин, ML-инженер в Яндекс.Толока, провел индустриальный вебинар, посвященный технологиям краудсорсинга в разметке больших данных.

Данные — это один из трех китов, на которых стоит искусственный интеллект (два других —это алгоритмы и оборудование). С одной стороны, данных очень много. Например, посты в социальных сетях или банковские транзакции. Но для обучения моделей нужно эти данные разметить.

Существует несколько решений этой проблемы: разметка данных внутри компании, аутсорсинг разметки, использование синтетических данных и краудсорсинг. Разметка данных внутри компании практически гарантирует качественный результат, но плохо масштабируется занимает много времени и сил дата-инженеров. Аутсорсинг, то есть найм нескольких человек, которые разметят данные, сэкономит время дата-инженеров внутри компании, но может оказаться долгим и дорогим, а результатом могут стать некачественные данные. Синтетические данные удобны тем, что их можно сгенерировать быстро и с необходимыми параметрами, но вопрос в том, насколько они отражают реальность.

Краудсорсинг предлагает масштабируемые решения при сравнительно небольших временных затратах. Тем не менее, результат работы большого количества разметчиков требует контроля качества. Для этой цели используется машинное обучение.

Подробнее смотрите в видео:

Дата

23 декабря 2021

Темы

репортаж о событии

В статье упомянуты

Магистр по наукам о данных

Магистерская программа «Магистр по наукам о данных»

Видео индустриального вебинара «Human and ML — collaboration in data labeling»