«Хочется оставить заметный след в науке»

Айбек Аланов

Окончил бакалавриат и магистратуру НИУ ВШЭ по специальности «прикладная математика и информатика». Заведует Центром глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук факультета компьютерных наук НИУ ВШЭ. Работает в этом центре младшим научным сотрудником. Также руководит командой Controllable Generative AI в Институте искусственного интеллекта AIRI.

Айбек Аланов и сам занимается наукой, и руководит двумя командами ученых — в лаборатории НИУ ВШЭ и в Институте искусственного интеллекта AIRI. В интервью проекту «Молодые ученые Вышки» он рассказал о том, что роднит современных исследователей искусственного интеллекта с физиками начала XX века, о генеративных моделях и любви к Чехову и парным танцам бачата.

Как я выбрал научную карьеру

Это произошло достаточно естественно. В начале карьеры я пробовал разное. На третьем курсе бакалавриата попал на стажировку в Yandex Research — подразделение «Яндекса», где работают ученые. Именно тогда я понял, чем занимаются исследователи и что в науке больше свободы выбора задач и нет четких критериев, что и как нужно сделать. Это был мой первый опыт работы, он мне понравился, но тогда я еще до конца не знал, хочу ли я именно этого. 

Через год я стажировался как программист и разработчик в компании WorldQuant — это больше касалось программирования в мире финансов, предсказания цен акций и тому подобного. Ставились определенные задачи, надо было их реализовывать и смотреть, что работает, что не работает. Сильно отклоняться от задач было нельзя. 

Этот опыт оказался полезным, но я понял, что исследования мне ближе — я бы предпочел писать и публиковать научные статьи, выступать на конференциях. Мне бы хотелось, чтобы результатами моей работы могла воспользоваться не только компания, где я работаю, но и все исследователи, которым это может пригодиться. И я начал больше углубляться в науку. 

Также я вступил в научную группу байесовских методов под руководством Дмитрия Петровича Ветрова. На четвертом курсе он стал моим научным руководителем. У него я научился тому, как ставить задачи, проводить научные исследования, выдвигать и проверять гипотезы, писать научные статьи. 

Потом я несколько лет проработал с Дмитрием Петровичем в Samsung AI Center как исследователь. Оттуда перешел в Институт искусственного интеллекта AIRI. Там я руковожу группой Controllable Generative AI. 

В итоге именно этого я и хотел — расширять свою команду, проводить исследования. Все время приходят новые задачи, и меня это мотивирует что-то придумывать, взаимодействовать с коллегами, писать статьи. Если эти статьи принимаются на международные конференции, это лишний раз доказывает, что наша работа ценна и нужна людям. 

Фото: Высшая школа экономики

Что такое байесовские методы 

Это направление в статистике и машинном обучении. Байесовские методы позволяют уменьшать неопределенность. Например, мы хотим предсказать цену акций компании. На эту величину влияет очень много факторов, и байесовские методы позволяют на основе собранной информации (годовой отчет компании, что о ней говорят в СМИ и т.д.) сделать лучший прогноз. Эта информация, если ее агрегировать нужным образом, позволит свести неопределенность к минимальному диапазону так, что это будет отражать действительность.

Томас Байес — британский математик, живший в XVIII веке. Он придумал формулу Байеса, которая позволяет определять вероятность события при условии, что произошло другое связанное с ним событие. Это фундаментальная формула из теории вероятности.

Что я исследую

В нашем центре ведутся разные исследования — как фундаментальные, так и более практические. В основном они связаны с генеративными моделями. Это, например, диффузионные модели, которые позволяют генерировать новые данные. Сейчас на слуху Stable Diffusion и DALL-E — эти модели могут по текстовому описанию генерировать реалистичные картинки. Есть еще отдельный тип моделей, который позволяет генерировать текст. Это, например, всем известный ChatGPT. Со всеми этими классами моделей мы работаем. Разрабатываем методы, которые позволяют их улучшать, исследовать свойства, объяснять, почему они работают или иногда не работают.

Как модели используются на практике

В России есть свои наработки в области генерации картинок по текстовому описанию — Kandinsky у Сбера, «Шедеврум» у «Яндекса». Сейчас их активно используют в разных приложениях. Например, можно автоматически генерировать рекламные баннеры, и «Яндекс» уже использует это в своих сервисах.

Кроме того, используя модели, можно генерировать новые данные, чтобы обучать модели машинного обучения. Чтобы обучить хорошую модель, всегда нужны размеченные данные. Например, чтобы научиться детектировать животных, нужен хороший датасет, где все животные будут представлены. Но собирать их сложно, всегда найдутся животные, фотографий которых мало, и из-за этого модель будет плохо их распознавать. Генеративные модели можно использовать, чтобы догенерировать больше примеров таких объектов. 

Фото: Высшая школа экономики

Мой личный исследовательский фокус

Сам я в основном работаю с генеративными моделями для изображений и использую их для разных манипуляций над изображениями. Например, чтобы с помощью этих моделей редактировать реальное изображение. Мы можем взять фотографию или рисунок и попросить модель изменить часть. Например, если это изображение человека, мы можем изменить прическу, стиль одежды или стиль изображения. 

Также существует персонализированная генерация, она нужна, когда мы хотим генерировать не произвольные объекты, а конкретные сущности. Например, есть конкретная собачка, заданная несколькими входными фотографиями. И можно обучить модель, чтобы она запомнила именно этот объект и генерировала именно его в разных контекстах — на пляже, в лесу, на фоне гор.

Можно сделать это и в «Фотошопе», но тогда понадобится участие профессионала, который будет каждое изображение редактировать вручную. Это очень дорого и долго. А наша модель генерирует фотографию за несколько секунд по обычному текстовому запросу. Но нерешенные задачи в области персонализированной генерации еще есть: нужно сделать так, чтобы это было быстро, эффективно, чтобы не требовалось для каждого нового объекта хранить много данных и чтобы это можно было использовать в тех же смартфонах.

Чем я горжусь

За последние два года у меня вышло несколько важных публикаций. Они не прошли незамеченными: в конце прошлого года я получил Yandex ML Prize за успехи в научной деятельности. Первая публикация в 2022 году прошла на международную конференцию NeurIPS — одну из главных конференций по искусственному интеллекту. Она называлась «Доменная адаптация генеративных моделей».

Речь в ней шла о том, как обучить генеративную модель, если у нас мало данных. Например, если мы хотим генерировать фотореалистичные лица, то мы можем набрать множество изображений фотореалистичных лиц и обучить на них хорошую генеративную модель. 

Фото: Высшая школа экономики

Но если мы захотим генерировать лица в стиле определенного художника, то много данных набрать не получится. Картин не так много, и мы не сможем на таком малом количестве примеров обучить хорошую генеративную модель. Возникает задача: как использовать генеративную модель, которая была обучена на большом количестве фотореалистичных лиц, так, чтобы она начала генерировать лица в стиле определенного художника? 

Эта задача называется «доменная адаптация», то есть мы адаптируем модель к новому домену, где мало изображений. В этой статье мы смогли предложить модель, которая делает это эффективно, использует в несколько тысяч раз меньше параметров, чем существующие подходы, и в то же время позволяет добиваться такого же качества.

Наша следующая статья развивала этот метод и описывала, как сделать его еще более эффективным. Она была принята на другую престижную конференцию — ICCV, посвященную компьютерному зрению и искусственному интеллекту, и опубликована в прошлом году. 

Еще у меня были публикации по генерации звука — там решалась задача улучшения качества звука, убирания шумов.

О чем я мечтаю

Твоя работа может быть прикладной и иметь краткосрочные последствия. А может — фундаментальной и изменить все дальнейшее развитие этой области. Мне кажется, у каждого ученого есть мечта придумать что-то, что изменит область, в которой он работает. Написать статью, которая будет актуальна долго. Придумать новый подход. Оставить заметный след в науке.

Можно считать, что мы создали искусственный интеллект. А можно — что мы его открыли. 

В области искусственного интеллекта сейчас основная проблема в том, что модели, которые мы используем, сложноинтерпретируемые. Пока мы не понимаем до конца, как они работают, почему в некоторых случаях они работают хорошо, а в некоторых случаях — плохо.

В этом смысле мы как физики начала XX века — когда они начали открывать интересные эффекты в физике, но не могли до конца объяснить суть этих явлений. Сейчас в глубинном обучении происходят похожие вещи: мы видим эти свойства этих моделей, они показывают очень впечатляющие результаты, но мы до конца не можем объяснить, за счет чего. 

Нужна модель, которая объяснила бы, почему искусственный интеллект принимает те или иные решения. Почему ChatGPT иногда говорит правду, а иногда что-то выдумывает. Хочется придумать систему, в которой не будет этой неопределенности: либо теорию, которая это все объясняет, либо метод, в котором все прозрачно, все понятно и который дает такие же хорошие результаты. 

Если бы я не был ученым

Думаю, я бы стал режиссером. Наука очень похожа на искусство необходимостью что-то придумывать. Написание статьи — это создание цельного произведения, которым автор хочет что-то сказать. Ты должен придумать мысль, нужным образом ее декомпозировать, выстроить определенную историю так, чтобы читатель понимал, как мы пришли к этой идее и к итоговому методу.

Весь этот процесс очень похож на создание произведения искусства. Поэтому я хорошо понимаю художников, которые что-то создают, и мне это близко. И если бы я не стал ученым, я бы занимался искусством — создавал фильмы или постановки. Я чувствую, что это очень похожие занятия, и если у тебя есть идея и есть понимание, как ее реализовывать, то этим можно заниматься в разных областях. 

С кем из ученых я хотел бы встретиться

Их два. Первый — Исаак Ньютон. Он был родоначальником многих направлений и в математике, и в физике. Он одним из первых смог посмотреть на мир с рациональной точки зрения. Его научный подход позволял выдвигать гениальные гипотезы, которые оказывались верны, и он умел их проверять и описывать продвинутым математическим языком. Мне было бы очень интересно понять, как он мыслит и видит мир. 

Второй ученый — это Алан Тьюринг, родоначальник программирования и компьютерных наук. Он придумал понятие машины Тьюринга, которое является фундаментальным в нашей области. 

Как выглядит мой обычный день

В первой половине дня я стараюсь выделить время, чтобы поработать в одиночестве. Прочитать статьи и их обдумать, поразмышлять над проектами, которые сейчас идут. Если есть проблемы, то проанализировать, что можно сделать. И подумать над новыми идеями.

Вторая половина дня в основном посвящена встречам или созвонам. Я руковожу двумя командами, несколько проектов сейчас в активной работе. На встречах и созвонах мы обсуждаем текущие идеи, результаты экспериментов, планы на будущее. Еще есть иногда административные дела и встречи, где нужно обсуждать гранты, думать над новыми индустриальными проектами. 

Бывает ли у меня выгорание

В последние годы нет, но лет пять назад у меня был период в жизни, когда, мне кажется, я был близок к выгоранию. Тогда я очень много работал и чувствовал себя не очень хорошо. Мне даже переставало нравиться то, чем я занимаюсь. Потом я смог из этого состояния выйти и сейчас стараюсь уделять время не только работе, но и спорту, встречам с друзьями, личной жизни. Я понимаю, что иначе начну быстро уставать и это будет приводить к выгоранию. Чтобы обратно вернуться к работе, придется восстанавливаться очень долго, поэтому я стараюсь вести более сбалансированный образ жизни.

Фото: Высшая школа экономики

Чем еще я увлекаюсь

Три раза в неделю по вечерам хожу в спортзал, очень помогает разгрузить голову. Обычно это силовые тренировки, и иногда я бегаю на беговой дорожке. По выходным много гуляю и вижусь с друзьями. Мы ходим на выставки, в театр или парк, можем посидеть и пообщаться в баре. Некоторое время я занимался парными танцами бачата. Есть площадки, куда могу иногда прийти и потанцевать. Это тоже помогает расслабиться.

Что я читал и смотрел

Я читаю non-fiction — про психологию, эмоциональный интеллект, про то, как лучше относиться к себе и себя принимать. Это помогает и в жизни, и в работе.

Иногда смотрю сериалы. Например, «Ганнибала» — недавний сериал, снят хорошо, и было интересно. Еще я не так давно все-таки решился посмотреть «Игру престолов», потратил на это год. Мне очень понравилось, я понял, почему он считается культовым сериалом.

Мне нравятся спектакли Чехова, очень люблю «Три сестры», «Чайку», смотрел и современные постановки, и более классические. Еще люблю хореографические спектакли — ходил в театр Аллы Духовой TODES. 

Совет молодым ученым

Пробовать разные задачи, чтобы понять, что тебе близко. А еще — найти хорошего научного руководителя, с которым будет комфортно и интересно. Должна быть взаимная заинтересованность: чтобы и научный руководитель был готов вкладываться, и ты был готов хорошо работать. Если получается найти такого руководителя, это очень сильно повышает шансы реализоваться в науке, найти свою тему и писать хорошие статьи.

Если вначале человек чувствует, что с научным руководителем не очень складывается, не нужно бояться его сменить, обращаться к другим людям. Это важно. Человек может разочароваться в науке не из-за самой области, а из-за того, что не повезло с научным руководителем. 

Любимое место в Москве 

Нескучный сад. Там я чувствую себя хорошо и спокойно. Люблю в нем гулять один или с друзьями. Особенно приятно там вечером.