«Я привык продуцировать дистиллированное знание»

Иван Рубачев

Окончил бакалавриат и магистратуру НИУ ВШЭ по специальности «прикладная математика и информатика». Младший научный сотрудник Научно-учебной лаборатории компании «Яндекс» департамента больших данных и информационного поиска факультета компьютерных наук ВШЭ. Преподаватель базовой кафедры «Яндекса» этого же департамента.

Иван Рубачев работает в лаборатории, открытой в Высшей школе экономики совместно с Yandex Research, и занимается машинным обучением на табличных данных. В интервью проекту «Молодые ученые Вышки» он рассказал, почему вайб лучше целеполагания, о нейронной машине Тьюринга и о том, что научное знание лучше ни от кого не скрывать.

Как я начал заниматься наукой

В каком-то смысле случайно, в каком-то нет. Мне никогда не казалось, что я должен стать ученым или программистом, потому что это прибыльно или важно сейчас этим заниматься. Я просто слушал себя.

Еще в школе, готовясь поступать в Вышку на факультет компьютерных наук, я смотрел интервью и слушал подкасты, где люди, например, из «Яндекса» рассказывали про ML (Machine Learning, машинное обучение). Я не знал, что это такое, но мне было интересно. И мне нравился общий вайб факультета, поэтому я и пошел туда.

Потом, уже будучи студентом, я пошел в «Яндекс.Карты» на стажировку — заниматься ML и 3D. А на четвертом курсе устроился туда на работу и занимался разработкой хранилища данных карт. Были возможности для развития в разработке, но внутреннее ощущение мне не понравилось. А в университете было интересно. Внутри эхом отдавалось, что, может, мне нравится наука.

Я ходил на научный семинар, который был организован ребятами из байес-группы, учился читать научные статьи. Мы были глубоко погружены в тему, следили за тем, что происходит на самом фронтире науки. Сейчас AI (Artificial Intelligence, искусственный интеллект) и ML у всех на устах. А мы на этих семинарах обсуждали статьи, которые были знаковыми в 2020 году.

Ближе к концу учебы многие мои однокурсники погружались с головой в работу и закрывали курсы на минимум. А я ходил на все семинары. И формулировал для себя, что мне хочется остаться в университете. Мне очень нравилось быть в этом комьюнити с самого поступления, и это чувство укреплялось.

О чем были мои курсовые

В те золотые времена на исследования ML и Deep Learning (глубокое обучение) еще не нужно было много ресурсов. Еще не был популярен термин «скейлинг» — идея о том, что ресурс надо вкачивать в развитие уже существующих нейросетей, а не в фундаментальные исследования новых направлений.

Мне попалась статья DeepMind об имитации компьютеров нейронными сетями. Звучит странно: нейронные сети вообще-то работают на компьютерах.

Но в теоретической информатике и вообще в Сomputer Science есть, например, машины Тьюринга или просто модели компьютеров с памятью. Ты можешь записать в ячейку что-то, считать из нее и таким образом исполнять любые программы. И можно пытаться имитировать исполнение любых программ внутри нейросети. В статьях это называлось Neural Turing Machine — нейронная машина Тьюринга.

Я с такими машинами экспериментировал и получал от этого большое удовольствие. Читал статьи follow-up Google DeepMind на тему и пытался в своих игрушечных экспериментах научить нейронную сеть переворачивать строку. Практического смысла в этом не было, мной двигал чисто научный интерес. Это было прикольно, это была довольно сложная задача, и я с ней справился и написал на этом материале курсовую на четвертом курсе.

У нас в области сейчас есть нейронная сеть, которая называется «Трансформер». То, что я делал с нейронными машинами Тьюринга, очень близко к «Трансформеру», но тогда я об этом не думал. В ретроспективе забавно понимать, что идейно я был рядом с важными для области идеями, не видел этого, но мне очень нравился сам процесс работы. Возможно, это тоже натолкнуло меня на мысль, что мне в науке будет прикольно. Мне нравится и читать статьи, и ковыряться в методах: пытаться довести до ума и заставить работать идеи, описанные в статьях.

© Высшая школа экономики

Как я попал в Yandex Research

Подал заявку, и меня взяли. Из «Яндекса» я, получается, перешел в лабораторию «Яндекса» в Вышке. Чутье подсказывало, что это правильное решение, вайб казался приятным. Но свое направление я искал примерно год. На третьем курсе я учил нейронные сети играть в «5 в ряд» (как крестики-нолики, но посложнее), на четвертом курсе экспериментировал с нейронными машинами Тьюринга. Окончил бакалавриат и пришел в Yandex Research заниматься глубоким обучением и ML в научном смысле. И какую мне взять тему, как выбрать научника?

В лаборатории работали над разными задачами — генерация картинок, предсказание уровня неопределенности, шеринг вычислительных ресурсов, чтобы запускать огромные нейросети, которые тогда шли на нас. Такие проекты уже были в других науках: волонтеры делали на своих девайсах обсчет генома, анализировали снимки неба на сети домашних компьютеров.

Я выбрал генерацию картинок. Пришел к Артему Бабенко, руководителю лаборатории на ФКН и своему будущему научному руководителю, и мы начали пытаться что-то делать. У Yandex Research тогда выходили классные статьи про редактирование картинок популярными на тот момент генеративными моделями. Логично, что меня тоже привлекли к этому направлению. Но успехами я похвастаться не мог, а тут еще и начался ковид.

Когда я шел в Yandex Research, он казался мне очень крутым. Ожидания оправдались, и от этого мне было страшно. Я переживал за свой уровень. И этот страх давал прокрастинацию, мешал нормально оперировать и действовать, плюс он усугублялся тем, что все общение происходило в зуме. Но когда я вышел в офис и стал заниматься другим, все наладилось. Ушел страх людей, и начало формироваться чувство причастности.

Что я исследую

Табличные данные. Про эту тему рассказывать гораздо сложнее, чем про генерацию картинок. Ее не назовешь «секси», она про чиселки — во всех смыслах. И про ML. Мы все занимаемся глубоким обучением, в том числе я.

Но есть еще ML, которое включает в себя в том числе и глубокое обучение. Это более широкий спектр задач и методов, который меня и завлек в свое время на ФКН. Это про то, как нам делать программы, которые, используя данные, могут становиться лучше. С помощью ML можно, например, классифицировать людей, которые пришли в банк брать кредит, предсказывать, понравится ли пользователю реклама или что будет происходить на фондовых рынках.

При решении задач у нас получаются таблички со множеством чисел. И там есть целевая переменная, которую нам интересно предсказывать. Мой студент сказал, что раньше единственным экономически полезным продуктом ML было классическое решение таких задач, теперь это половина продуктов, вторая — LLM. Главный результат наших исследований — это научные статьи. Но к статьям часто прилагается код, потому что мы практико-ориентированные.

Однако самые любимые мои статьи — те, где есть идея, которую можно использовать универсально. Люди прочитали статью и могут сами себе код написать, и у них заработает. Мы в этом смысле меньше разработчики, мы не делаем библиотеки для машинного обучения, мы исследователи. Наш продукт — это статьи и код, который подтверждает, что то, что мы экспериментально пронаблюдали, действительно работает, и люди его могут использовать где угодно.

© Высшая школа экономики

Что я думаю про коммерциализацию науки

Результаты своих исследований мы публикуем открыто. Мое личное мнение, что нет никакой пользы в сокрытии научного знания и технологических ноу-хау. А это становится нормой в нашей области. Во многом развитие сейчас происходит за счет Китая, который ничего не скрывает. В России тоже много открытых публикаций. А вот фронтир науки, связанной с большими языковыми моделями, намного более закрытый. OpenAI и Google DeepMind — это вам не Alibaba. Фаундер DeepSeek пишет статьи и сам загружает их на arXiv. Мне такой подход гораздо ближе.

Открытая программная библиотека CatBoost от «Яндекса» используется огромным количеством ученых по всему миру и постоянно входит в топ цитируемости в статьях. И она популярна не только в академических кругах: мои студенты с ее помощью предсказывают стоки и движения маркетов в high-frequency-трейдинге и очень ее любят.

В англоязычных кругах любят рассуждать о moat — дословно это значит «ров». Люди пытаются определить, где же этот «ров», который защищает возможности для заработка ученых и бизнесменов. На мой взгляд, moat не в том, что ты скрываешь знания. Можно делать полезные вещи и быть при этом открытым. И то, что я могу в текущей точке, где я нахожусь, оказывать открытостью влияние, радует.

В чем отличие российского и европейского подходов в нашей области

Недавно на конференции в Копенгагене я был на воркшопе “AI for Tabular Data” и много общался с европейскими профессорами. Наша продукция одинакова — это знания в статье и код, который работает. Но, по моим ощущениям, у нас разные способы работы и конечные потребители.

Мы с ними очень долго спорили. Они говорили, что наш аутпут — это статья и кусочек кода. Мы говорили, что их аутпут — это «установите нашу библиотеку, нажмите кнопку, и у вас заработает машинное обучение».

Я читаю их статьи и все время чувствую эту разницу. Я так не привык делать. Я привык продуцировать дистиллированное знание или кусочек чего-то переносимого полезного. В моем мире люди дальше идут и разбираются. А в их мире большое количество ресурса тратится на вещи, которые полезны и важны, но в них гораздо меньше науки.

© Высшая школа экономики

Чем я горжусь

Тем, что за пять лет работы наш коллектив из примерно пяти людей сделал что-то заметное в своей подобласти. Нас заметили, читают наши статьи и узнают на конференциях. Я горжусь тем, что мы совместно с европейскими коллегами построили кусочек научного комьюнити. И табличные данные из практически несуществующего, странного, лишь иногда возникающего на конференциях направления обрели очертания чего-то прикольного.

В нашей области начали появляться стартапы. Я чувствую внимание людей из разных институций. Мне говорят: «У вас хайповая тема». Это удивительно слышать, поскольку, когда мы подаем статьи на конференции, в поле «Область исследований» по-прежнему нет табличных данных. Мы выбираем “Other” или просто “General Machine Learning”.

Я все собираюсь написать об этом пост, но не доходят руки. Это вопрос времени, и надо продолжать привлекать внимание к нашей теме. Уже есть чем гордиться. Но, по моим ощущениям, это далеко не конец, а только начало.

О чем моя диссертация

Кто-то из ученых выдвигает смелые и сверхнеожиданные теории. Кто-то, опираясь на теорию, делает сверхкрутую техническую реализацию. А кто-то занимается чисткой леса. Проделывает в интересах области скрупулезную работу правильного сравнения одного метода с другими, систематизацию.

Это далеко не всех вдохновляет, но меня — да. Конечно, мне бы хотелось породить что-то, что мы в среде русских эмэлщиков называем «сота» — от словосочетания “state of the art”. И написать об этом статью, которая срывает покровы и громит все, что мы знали до этого. Но в итоге часто моя работа сводится к аккуратному раскладыванию кубиков по коробочкам. Это приносит новые знания, это приносит пользу, но это другое.

Моя диссертация в основном строится вокруг одной из последних статей, принятых на конференцию, где мы предлагаем нашей области новый бенчмарк и говорим о том, что мы, люди, которые занимаются табличными данными в академическом сеттинге и пишут статьи, очень сильно недосматриваем много где.

Работа с данными монотонная, дурацкая, ненужная, но так сложилось, что из-за ее непривлекательности мы в 2025 году пишем статьи по данным американского цензус-опроса 1998 года про доходы населения на тот момент, потому что это самое лучшее, что у нас есть в открытом доступе.

Приятно, но грустно было слышать на конференции в Копенгагене, что, когда людям нужен большой датасет, они находят только наш бенчмарк. У нас есть такая классная возможность из-за большого количества бигтехов, которые могут взять свой домен с полезным приложением ML и выложить там датасет. Недавно огромный датасет с миллиардами анонимных интеракций между пользователями и треками выложили ребята из «Яндекс.Музыки». И ученые со всего мира могут благодаря этому улучшать алгоритмы рекомендаций.

© Высшая школа экономики

О чем я мечтаю

Жить счастливо.

Наверное, то, что я делаю, — наука, но я редко задаюсь этим вопросом. В чем-то, наверное, это помогает счастливо жить.

Я против лейблов. Я мог бы назваться в текущем понимании и ученым, и неученым. Границы размыты, особенно в нашей прикладной технической области.

Если пытаться дать определение ученому, то это человек, который пытается породить и систематизировать новые знания.

Быть ученым — это еще и участвовать в публичной полемике, иногда даже высказывать идеи, которые могут быть пока ничем не доказаны, но задавать направление движения. Куда-то же надо всем нам идти.

С кем бы я хотел встретиться

Сначала я подумал, что круто было бы встретиться с кем-то вроде Эйнштейна в нашей области, например с Дэвидом Хаффманом или Джоном фон Нейманом. Но потом я понял, что я их буду бояться и ничего умного не спрошу. Недавно мы с женой прочитали две автобиографии: я — Сахарова, она — Капицы. С этими двумя людьми я очень хотел бы встретиться, если бы они приняли мои вопросы и разговоры о жизни.

Как выглядит мой обычный день

Зависит от периода года. Если близится дедлайн конференции, то мой обычный день — это запуск экспериментов и попытки собрать до конца историю. Напоминает предсессионный раж.

Если конференция только прошла, то это эксплоративный режим: я могу читать статьи, думать, созваниваться, обсуждать идеи. Утром я могу сходить провести пару, потом пописать несколько часов код, к вечеру в идеале запустить эксперимент, пойти спать, чтобы проснуться и посмотреть на его результаты. Где-то между этими тремя процессами я и существую.

Бывает ли у меня выгорание

Я это называю подгоранием. Я немножко приунываю. И начинаются поиски смыслов: а действительно ли табличные данные с нами навсегда или скоро все это закончится? Тогда надо немного расслабиться и не пытаться эти мысли контролировать. Пожить с ними. В конце концов, эти мысли помогли мне лучше сформулировать то, чем мы занимаемся, и более правильно и уверенно думать о будущем. Мое хобби — сидеть в интернете. Не скроллить тиктоки, а ходить по ссылкам. Я задаю себе тему и изучаю. Это мне помогает с моим подгоранием бороться.

© Высшая школа экономики

Чем я увлекаюсь, кроме науки

Музыкой и интернетом. В ковид я начал играть на гитаре. Но еще я люблю слушать музыку в огромных количествах. Что-то мне нравится, что-то пока нет, но если это достаточно изучить, рано или поздно оно мне понравится. Например, я не любитель тяжелой музыки, какого-нибудь death metal, где солисты кричат нечеловеческим голосом (это называется «гроулинг»). Я вообще не мог этого воспринять, но у меня была теория, что, значит, я недостаточно погрузился в тему.

И death metal мне поддался, когда я зашел в него со стороны, которая мне была понятна: через экспериментальный рок и джаз. В 2025 году критики очень высоко оценили альбом “Lonely People with Power” группы Deafheaven. Он мне зашел, я его переслушивал несколько раз.

А из российских музыкантов в последнее время мне очень понравилась Рушана. Она участвовала в шоу «Голос», потом выпустила сингл и пропала. А недавно она выступала на квартирнике ФКН, и вообще у нее ренессанс как инди-музыкантки. У нее теперь менее коммерциализированно-эстрадный формат, и это мне нравится. Мне вообще хочется больше видеть в нашей музыке чего-то интересного со всех точек зрения — текста, музыки, артистизма.

Что последнее я читал

Перечитывал классную книжку, которая, мне кажется, опасна для меня, но полезна очень многим. Она близка мне по духу. Книжка называется “Why Greatness Cannot Be Planned: The Myth of the Objective” — «Почему величие невозможно запланировать. Миф целей». Ее написали Джоэл Леман и Кеннет Стэнли, компьютер-сайентисты, но она в широком смысле о жизни.

В нашем мире очень многое построено на целях. Ученому надо опубликовать много статей, защитить PhD, потом стать профессором — успех подается как измеримая вещь, к которой надо идти. Но что делать, если ваша цель — быть счастливым, или встретить любовь всей жизни, или открыть что-то новое в науке?

Авторы пишут, что любые целеполагания по жизни скорее мешают, потому что мы никогда не знаем, какие ступени будут правильными и куда надо идти. И искать нужно на каком-то вайбе — как я искал факультет, пошел в Yandex Research и так далее. Люди любят говорить, что надо определить образ результата и тогда делать или не делать. А мне кажется, что делать надо иногда просто потому, что кажется, что тут что-то есть.

Совет молодым ученым

Если кто-то очень сильно сейчас переживает по каким-то поводам — статья не идет, идея не рождается, отечественная наука в опасности, — почитайте эту книжку, расслабьтесь и чуть-чуть проплывите по течению, но с веслом.

Любимое место в Москве

«Дизенгоф» на Покровском бульваре двух-трехлетней давности — я в него часто ходил и студентом, после пар, и когда уже вел пары, преподавателем. Там всегда было людно, шумно и оживленно. «Дизенгоф» появился в нашей жизни вместо кафе «У Лары», когда ФКН переехал на Покровку с Кочновского проезда. То здание при всей его неказистости я очень любил и до сих пор по нему ностальгирую