• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Национальный исследовательский университет Высшая школа экономикиНовостиНаука«Алгоритм машинного обучения умеет находить закономерности в данных, которые не видит человек»

«Алгоритм машинного обучения умеет находить закономерности в данных, которые не видит человек»

Сотрудники Международной лаборатории глубинного обучения и байесовских методов НИУ ВШЭ

В декабре 2016 года в Вышке были открыты пять новых международных лабораторий, в том числе Международная лаборатория глубинного обучения и байесовских методов. Предмет  ее исследований — комбинированные нейробайесовские модели, объединяющие достоинства двух наиболее успешных в настоящее время парадигм машинного обучения — нейросетевой и байесовской.

Дмитрий Ветров, заведующий лабораторией

Нет ничего невозможного

Я решил заниматься машинным обучением в 2000 году после того, как увидел, что алгоритм машинного обучения умеет находить закономерности в данных, которые не видит человек. Мне показалось, что это очень круто. Имея такой алгоритм, как бы получаешь доступ к скрытому знанию, недоступному другим. Для молодого амбициозного человека, которым я тогда был, этого оказалось достаточным, чтобы связать свою жизнь с этим направлением. В сущности, за 17 лет ничего принципиально не изменилось (разве что задачи стали больше, сложнее и интереснее). Алгоритмы машинного обучения по-прежнему находят закономерности там, где их не видит человек (там, где видит, тоже, разумеется, находят — просто это не так интересно). Еще одним важным для меня обстоятельством являлось и является осознание того, что то, что я делаю, это не сферические кони в вакууме, а технологии, с помощью которых будут решены практически важные задачи (машинный перевод, автопилотируемые автомобили, борьба с мошенниками в банках, уменьшение издержек в добывающих компаниях, оптимизация энергопотребления, уточнение прогнозов погоды и пр.).

Когда я был аспирантом, у меня было четкое понимание, какие задачи можно решить с помощью машинного обучения, а какие нет. Я очень рад, что последующие годы последовательно меня щелкали по носу, показывая, что нет ничего невозможного. Остались последние две задачи из мысленного списка невозможных задач для машинного обучения, который я 14 лет назад составил: общение с компьютером на человеческом языке (почти решена по состоянию на апрель 2017 года) и построение полноценного искусственного интеллекта (ученые сходятся на мнении, и я его разделяю, что, самое позднее, через 10 лет он будет создан). Очень здорово видеть, как наука превосходит самые смелые ожидания. Вот это ощущение, вкупе со своими скромными знаниями и стараюсь передавать студентам и своим аспирантам.

Наша исследовательская группа байесовских методов была создана почти 10 лет назад, после того, как я защитил кандидатскую диссертацию и мне разрешили набирать студентов под свою ответственность. Первый же набор оказался удачным, и один из его выпускников, Антон Осокин, стал известным ученым и сейчас возвращается в Россию в качестве доцента факультета компьютерных наук НИУ ВШЭ. Группа постепенно развивалась. Сначала медленно, потом быстрее.

Научная революция в машинном обучении

За 10 лет в машинном обучении произошла научная революция. Давно известная и неэффективная модель нейронных сетей неожиданно для многих (но не всех) ученых стала сверхэффективной, когда человечество перешло к машинному обучению на больших объемах данных. Причем результаты, которые показывают нейронные сети при решении ряда когнитивных задач, часто превосходят возможности человека. Это технология получила специальное название — глубинное обучение (deep learning). Сейчас методы обучения по малым данным практически не развиваются. В них уже получены основные результаты и известны эффективные методы. Но и достигаемые ими результаты весьма скромные.

Еще 10 лет назад было понятно, что отечественная наука в области машинного обучения, увы, очень сильно отстала от мировых трендов. Но «глубинная революция» предоставила отставшим странам второй шанс. В этом смысле ее можно сравнить в дредноутной революцией начала XX века, когда появление дредноутов в Великобритании обесценило ее собственный военно-морской флот, и другие страны получили возможность догнать «владычицу морей», начав строительство собственных дредноутов. Можно сказать, что Россия этим шансом, в целом, воспользовалась, правда, не сразу и благодаря крупнейшим IT-компаниям, а не университетам и научным организациям.

Именно успехи в глубинном обучении, достигнутые за последние два года, позволяют предположить скорое создание искусственного интеллекта (ИИ).

Байесовские методы: прошлое и будущее

Если первые нейронные сети появились в 1950-е годы, первые байесовские методы датируются XVIII веком, когда преподобный Томас Байес доказал свою знаменитую теорему. Подобно тому, как в XX веке символом научной лаконичности и элегантности стала формула E=mc^2, теорема Байеса имеет все шансы стать таковым для века XXI.

Эта теорема, знакомая сейчас любому студенту, прослушавшему курс по статистике, задает правила преобразования информации о неизвестной величине при наблюдении каких-то ее косвенных характеристик. В XX веке теорема Байеса довольно долго рассматривалась статистиками как забавная безделица, пригодная для использования в быту, но малоприменимая к задачам статистического оценивания, где господствовала классическая математическая статистика, полностью оформившаяся к 1930-м годам. Всплеск интереса к построению сложных вероятностных моделей в машинном обучении  начался с 1992 года, когда вышла замечательная книга блестящего физика Дэвида Мак Кая «Information theory, Inference and Learning Algorithms». В ней он заложил основы байесовского подхода к машинному обучению и смежным дисциплинам.

Оказалось, что следствия из теоремы Байеса позволяют придать вероятностным моделям машинного обучения интересные свойства. Во-первых, мы получаем возможность учитывать специфику конкретной решаемой задачи и адаптировать под нее базовую модель машинного обучения. Во-вторых, байесовские модели обладают модульностью, и сложная модель может быть всегда представлена в виде комбинации большого числа простых вероятностных моделей. В-третьих, работая с такими моделями, мы получаем возможность извлекать максимум информации из неполных, зашумленных, противоречивых данных, то есть модели становятся «всеядными». Способность обучаться по неполным данным интересна еще и тем, что в процессе такого обучения модель способна научиться тому, что в нее изначально не закладывалось. Оборотной стороной байесовских методов явился сравнительно сложный математический аппарат и высокая вычислительная сложность, которая сделала невозможным применение байесовских методов для обработки больших объемов данных.

XXI век — нейробайесовские модели

К началу 2010-х годов сложился своеобразный компромисс. Для работы с большими данными все используют нейронные сети. Для работы с малыми данными плохого качества и/или необходимости построения сложных моделей обработки данных (например, случайных полей, использующихся в задачах компьютерного зрения) используются байесовские методы. Для работы с малыми данными хорошего качества используется весь остальной арсенал методов машинного обучения.

Приблизительно с 2012 года появляется ряд исследований, в которых предложен новый математический аппарат, позволяющий масштабировать байесовские методы на данные большого объема. В основе него лежала интересная идея. Сначала задача байесовского вывода (то есть, процесса применения теоремы Байеса к данным) была сформулирована как задача оптимизации, а затем к ней были применены современные техники стохастической оптимизации, позволяющей приближенно решать сверхбольшие оптимизационные задачи. Это позволило байесовским методам выйти на поле нейронных сетей. Результат не замедлил сказаться. За последние 5 лет разработан целый класс нейробайесовских моделей, которые могут решать более широкий спектр задач, чем обычные глубинные нейросети.

К числу таких моделей можно отнести новые способы построения так называемых представлений (в виде вектора) сложных структур данных, механизмы внимания, модели чатботов и машинного перевода, некоторые алгоритмы глубинного обучения с подкреплением, новые техники регуляризации базовых нейросетевых моделей и пр.

Стоит отметить, что техника нейробайесовского вывода продолжает активно развиваться, и появляются все новые математические инструменты для его уточнения и перенесения на все более сложные модели. Развитием именно такого математического аппарата и разработкой новых нейробайесовских моделей будет заниматься наша международная лаборатория. Одним из первых наших мероприятий станет проведение в августе 2017 года летней школы по нейробайесовским методам, на которой мы поделимся современными достижениями в этой области, своим опытом в разработке и использовании нейробайесовских моделей, а также проведем ряд практических занятий.

О создании ИИ объявят сегодняшние аспиранты

Сейчас исследовательская группа байесовских методов насчитывает более 30 человек, и международная лаборатория является лишь ее небольшой частью. В состав лаборатории, помимо заведующего и научного руководителя, входят два научных сотрудника, два стажера-исследователя и менеджер, которая также ведет активные научные исследования в свободное от администрирования время. Недавно мы приняли еще несколько человек на внебюджетные ставки, которые стали возможным благодаря подписанию контракта с корпорацией Samsung на проведение исследований в области нейробайесовского моделирования. Научные сотрудники Михаил Фигурнов и Александр Новиков являются уже состоявшимися молодыми учеными, чьи имена хорошо известны в ведущих мировых центрах по разработке технологий искусственного интеллекта. Я горжусь тем, что участвовал в их становлении как ученых, и для меня является честью работать с ними бок о бок.

Вообще, мне посчастливилось возглавлять исследовательскую группу, в которой почти все аспиранты умнее своего научного руководителя. Молодые специалисты по машинному обучения эпохи глубинной революции — это люди, использующие блоги, социальные сети и твиттер для поиска и обмена научными статьями. Они узнают о всех последних результатах раньше профессоров и через одного подписаны на рассылку дайжестов arxiv.org. Они в среду устраивают обсуждение (и иногда даже зовут научного руководителя) статьи, которая была выложена в понедельник. На ведущих конференциях по машинному обучению им не очень интересно слушать пленарные доклады, потому что они их еще несколько месяцев назад прочли в виде препринтов. Именно молодые задают сумасшедший темп развития области, благодаря которому за последние 10 лет в машинном обучении сделано в разы больше, чем за предыдущие 50. И именно они через 10 лет объявят о создании ИИ.


Михаил Фигурнов, старший научный сотрудник

Сейчас я занимаюсь задачей ускорения свёрточных нейронных сетей. Свёрточные нейронные сети — один из самых успешных механизмов глубинного обучения и современного компьютерного зрения. Они используются для идентификации людей на фотографиях, преобразования картинки в текст, автономных автомобилей, и сотен других приложений. К сожалению, свёрточные нейронные сети очень вычислительно дороги. Для обработки одного изображения в низком разрешении требуются десятки миллиардов операций, а в высоком разрешении - триллионы операций с плавающей точкой! Это слишком дорого даже для мощных серверов в датацентрах, не говоря уже о мобильных устройствах, где каждый милливатт энергии на счету.

Свёрточные нейронные сети применяют одни и те же вычисления к каждому кусочку изображения. Понятно, что обрабатывать участок картинки с небом столько же времени, сколько и объекты на картинке, избыточно.

Около двух лет назад мне вместе с Дмитрием Ветровым и Пушмитом Коли удалось найти способ эффективно вычислять выходы свёрточного слоя (базового «строительного блока» свёрточных нейронных сетей) только для части картинки. Эти результаты были опубликованы на конференции NIPS 2016 (PerforatedCNNs: Acceleration through Elimination of Redundant Convolutions). Дело оставалось за малым — научиться определять, где вычислять эти выходы. Эта задача оказалась очень трудной математически: тут требуется оптимизация нелинейной функции по сотням тысяч бинарных переменных, такого человечество пока не умеет делать.


Слева: изображение с определёнными на нём объектами; справа: карта вычислений для регионов изображения
Прошлым летом, во время стажировки в Google, я поделился своими идеями со своим руководителем, Ли Жангом. Он отправил мне статью Алекса Грейвса, учёного из Google DeepMind, посвящённого адаптивному времени вычислений для рекуррентных нейронных сетей (другого успешного метода глубинного обучения). Я понял, что этот метод применим с небольшими изменениями к свёрточным нейронным сетям специального вида, так называемым остаточным нейронным сетям (Residual Neural Networks). К нашему общему удивлению, такой модифицированный метод заработал даже на очень больших сетях.

Результатом стала свёрточная нейронная сеть, которая автоматически определяет, сколько вычислений она будет тратить в каждом кусочке изображения. Чтобы это реализовать, потребовался свёрточный слой, вычисляемый только для части картинки, который я придумал за полтора года до этого. Статья про эту работу была принята на ведущую конференцию по компьютерному зрению CVPR 2017 (
Spatially Adaptive Computation Time for Residual Networks).

Александр Новиков, старший научный сотрудник

Я пришел в лабораторию Дмитрия Петровича на втором курсе (5 лет назад).Один из успешных проектов, в котором я участвовал, включал в себя тензорные разложения (в применении к байесовским моделям), и пришлось в процессе как следует в них разобраться.

В данный момент главный проект, которым я занимаюсь, связан с попыткой переложить поиск адекватных преобразований данных с человека на компьютер. Дело в том, что несмотря на прогресс глубинного обучения, который своей главной целью ставит отказ от ручной проработки деталей алгоритма машинного обучения в пользу выучивания этих деталей из данных, до сих пор все успешные модели используют следующий трюк: исследователь вручную смотрит на данные, прикидывает, какие преобразования не должны их «испортить» (например небольшие сдвиги или повороты) и применяет эти преобразования, искусственно увеличивая число доступных данных. Мы же пытаемся построить вероятностную модель, которая будет выучивать, какие преобразования можно применять к имеющейся выборке данных в автоматическом режиме.

Еще один текущий проект — это создание курса по прикладным байесовским методам (с упором на нейробайесовские подходы) для платформы Coursera. Надеюсь, это позволит ещё больше расширить круг людей, работающих в этой области, и тем самым ускорить ее прогресс. 


Кирилл Струминский, стажер-исследователь

В жизни люди опираются на свои органы чувств, в то время как компьютер в своем восприятии ограничен последовательностями нулей и единиц. В результате возникает удивительное несоответствие возможностей человека и вычислительных машин. Например, десятилетия работы лучших инженерных умов Boston Dynamics ушли на то, чтобы сигналы набора камер, гироскопов и акселерометров позволили роботам передвигаться на природе с ловкостью шестилетнего ребенка, который от рождения одарен зрением и вестибулярным аппаратом и без особого труда научился ходить. С другой стороны, ни один ученый-экспериментатор, будь то исследователь элементарных частиц или молекулярный биолог, не смог бы обрабатывать сигналы экспериментальных установок с такой скоростью и точностью, как его компьютер.

В лаборатории я занимаюсь исследованием моделей обучения без учителя, которые помогут решить проблему упомянутого выше несоответствия. Исследуемая мной модель, вариационный автокодировщик, глядя лишь на сырые данные, выучивает что-то вроде двух словарей: первый позволяет переводить данные из понятного нам представления в сжатые и понятные компьютеру представления, и второй для обратного перевода. Сегодня исследователи верят, что простые и лишенные избыточности представления данных позволят значительно повысить эффективность алгоритмов машинного обучения.

Антон Родоманов, стажер-исследователь

Область моих научных интересов — численные методы оптимизации. Большинство сотрудников нашей лаборатории занимаются тем, что придумывают новые (весьма сложные) математические модели, основной целью которых является перевод конкретной реальной практической задачи с человеческого языка на математический. Сформулированную математическую задачу далее можно решать с помощью чисто математических методов. Как правило, в большинстве случаев сформулированная математическая задача оказывается задачей оптимизации, для решения которой нужны новые эффективные методы. Разработкой таких новых методов я и занимаюсь.

На самом деле, разработка математических моделей и разработка соответствующих методов оптимизации тесно связаны. С одной стороны, без эффективного метода оптимизации сформулированная математическая модель была бы практически бесполезной. С другой стороны, новые математические модели, которые нужно оптимизировать, в свою очередь, являются своеобразным «двигателем прогресса» в оптимизации. Новые модели мотивируют исследователей в области оптимизации рассматривать новые постановки задач и придумывать новые методы, которые будут эффективно решать эти новые задачи (или, наоборот, доказывать, что такие методы придумать невозможно).

Надежда Чиркова, менеджер

Все, что мы делаем, это кирпичики в деле создания технологий искусственного интеллекта. Любой значительный прогресс, будь то качественные алгоритмы распознавания изображений или победа машины над человеком в игре Го, складываются из результатов, полученных исследователями по всему миру; каждая следующая статья опирается на стопку предыдущих работ. Например, я сейчас занимаюсь задачей автоматического подбора гиперпараметров при обучении моделей языка. Ее суть в том, чтобы еще больше сократить количество усилий, которые нужно приложить человеку, чтобы построить качественную модель по своему корпусу текстов. Можно сказать, что я скрещиваю две разработки: результат, полученный в нашей научной группе, и подход, предложенный учеными из Кембриджа. Подобные решения, если они успешно проходят тестирование на разных задачах, обычно интегрируют в популярные библиотеки глубинного обучения, чтобы упростить разработчикам и исследователям пользование этими инструментами.

Вам также может быть интересно:

«Зеркальная симметрия была открыта физиками, но очень быстро привлекла внимание математиков»

Среди недавно открытых в Вышке международных лабораторий — Международная лаборатория зеркальной симметрии и автоморфных форм. Научный руководитель лаборатории Людмил Кацарков и кураторы двух научных направлений лаборатории Валерий Гриценко и Виктор Пржиялковский рассказали о том, почему она имеет все шансы стать уникальной междисциплинарной структурой по изучению зеркальной симметрии, автоморфных форм и теории чисел.

В ВШЭ начинают работу новые международные лаборатории

Ученый совет ВШЭ 23 декабря одобрил создание четырех лабораторий: русско-европейского интеллектуального диалога, исследований населения и здоровья, глубинного обучения и байесовских методов, суперкомпьютерного атомистического моделирования и многомасштабного анализа.

Новые международные лаборатории в Санкт-Петербурге займутся исследованиями экономики здоровья и теории игр

26 июня Ученый совет Вышки одобрил открытие двух новых международных лабораторий. В структуре Санкт-Петербургской школы экономики и менеджмента ВШЭ появятся лаборатория экономики, управления и политики в области здоровья, а также лаборатория теории игр и принятия решений. Их научными руководителями станут известные зарубежные ученые.

«Создана большая сеть международного сотрудничества»

В 2014 году 23 международные лаборатории Вышки задействовали в своих изысканиях 520 сотрудников, подготовили 427 статей и 450 докладов для внешних научных конференций. В свежем, 102-м, выпуске информационного бюллетеня ВШЭ «Окна роста» представлены итоги работы этих подразделений в целом, а ведущие ученые самых первых и успешных лабораторий Федор Богомолов и Рональд Инглхарт рассказывают о работе своих коллективов.

Российский сетевой анализ начинается в Вышке

В Высшей школе экономики создана Международная лаборатория прикладного сетевого анализа. О развитии нового научного направления и основных задачах лаборатории рассказывают ее руководители — профессор Университета Индианы Стэнли Вассерман и заместитель декана факультета менеджмента ВШЭ Валентина Кускова.

ВШЭ создает международные лаборатории совместно с РЭШ и «Сколково»

Вместе с коллегами из Российской экономической школы (РЭШ) Вышка займется исследованиями экономической истории России. Проект со «Сколково» предполагает изучение проблем права и социального развития в глобальном мире. В работе обеих лабораторий примут участие зарубежные ученые.

ВШЭ открывает новые международные лаборатории

28 февраля на заседании Ученого совета Высшей школы экономики одобрено создание в университете новых международных лабораторий.

Приглашенный профессор ВШЭ вошел в топ-20 авторитетного рейтинга в США

Научный руководитель Лаборатории доказательного анализа образования ВШЭ, профессор Стенфордского университета Мартин Карной вошел в топ-20 (14-е место) рейтинга наиболее влиятельных интеллектуалов в области образования в Северной Америке. Одна из причин признания — его работы по анализу результатов международных сравнительных исследований качества образования.

Мегагранты: лаборатория количественных финансов

В рамках конкурса по привлечению в российские вузы ведущих ученых в ВШЭ скоро начнет работать Международная лаборатория количественных финансов. Ее возглавит один из ведущих специалистов в сфере стохастического анализа и финансовой математики, профессор Юрий Кабанов.

В ВШЭ появится международная лаборатория математических финансов

Одна из заявок ВШЭ стала победителем третьего конкурса по привлечению в российские вузы ведущих ученых, проводившегося в рамках Постановления Правительства РФ №220. Новую лабораторию математических финансов в Вышке возглавит профессор Университета Франш-Конте (Безансон) Юрий Кабанов.