«Между математикой, биологией и машинным обучением — место, где я нашел себя»
Алексей Шмелёв
Окончил в НИУ ВШЭ бакалавриат по специальности «прикладная математика» и магистратуру по специальности «анализ данных в биологии и медицине». Стажер-исследователь Международной лаборатории статистической и вычислительной геномики Института искусственного интеллекта и цифровых наук ФКН ВШЭ. Аспирант школы по техническим наукам по направлению «Математическое моделирование, численные методы и комплексы программ» НИУ ВШЭ.
Алексей Шмелёв занимается геномикой и применяет машинное обучение для того, чтобы изучать историю человеческой популяции. В интервью проекту «Молодые ученые Вышки» он рассказал об адаптивной интрогрессии тибетцев и денисовцев, использовании IBD-графов в предсказании популяционной принадлежности человека.
Как я начал заниматься наукой
В старших классах я больше всего внимания уделял трем предметам: физике, математике и биологии. Все они были для меня одинаково интересны, по всем дисциплинам участвовал в олимпиадах, занимал призовые места. При этом, выбирая направление для поступления в университет, я решил остановиться на математике: перспектива препарировать лягушек на биологических факультетах меня совсем не привлекала, а математика, как мне казалось, присутствует повсюду и открывает более широкие возможности для развития. Но я верил, что знания по биологии когда-нибудь обязательно мне пригодятся, просто в другом контексте.
На первом курсе бакалавриата всем студентам требовалось выбрать себе научного руководителя для выполнения небольшой научно-исследовательской работы. Помню, как на одном из занятий Владимир Львович Щур, который вел у нас семинары по математическому анализу, сказал, что открывает новую международную лабораторию статистической и вычислительной геномики, как раз на стыке математики и биологии. Меня это заинтересовало, и я решил попробовать свои силы.
Первой задачей, которой я занимался, была разработка метода максимального правдоподобия для датировки событий в фиксированной топологии предковых графов рекомбинаций. Она оказалась непростой, но к концу первого курса у меня был выбор: продолжать двигаться в сторону алгоритмов для развития этого метода или попробовать новое направление — машинное обучение. Мне и раньше было интересно, как можно научить машину «думать» и какая математика за этим стоит. Для меня это казалось перспективным направлением, которое в лаборатории к тому же можно было применять в такой междисциплинарной области, как геномика, близкой мне по интересам. Поэтому я решил, что, пока есть время учиться, стоит попробовать решать задачи именно в сфере machine learning, и даже не подозревал, что до сих пор буду этим заниматься.
О денисовцах и тибетцах
Моя первая серьезная задача касалась исследования адаптивной интрогрессии — ситуации, когда ген попадает в популяцию извне и со временем начинает играть ключевую роль в выживании. У тибетцев таким оказался ген EPAS1, который помогает жить в условиях разреженного воздуха. Известно, что этот ген пришел к ним от денисовского человека. Нас интересовал вопрос, сколько поколений прошло от момента, когда денисовский человек смешался с предками современных тибетцев, до того, как у последних начался естественный отбор в пользу этого гена. Сейчас уже существуют методы, которые позволяют оценивать длительность такого периода, но все они еще остаются очень неточными.
У нас был всего один геном денисовского человека и несколько десятков геномов современных тибетцев. Обучить модель на таком объеме данных невозможно — слишком мало, поэтому мы симулировали разные сценарии длительности периода нейтральности и считали по окрестности гена EPAS1 различные статистики. Для их анализа мы применяли contrastive learning — подход, когда модель учится переводить данные каждой симуляции в компактное векторное представление (embedding), группируя похожие сценарии и разделяя отличающиеся. Когда мы проверили обученную модель на реальных данных, оказалось, что они попадают в кластеры, соответствующие сгенерированным сценариям. Так мы смогли точнее оценить период нейтральности и подтвердить, что реальные данные согласуются с моделируемыми.
О прорыве в исследовании близкородственных популяций
Другая задача родилась в сотрудничестве с компанией Genotek. Ей важно было повысить точность предсказания популяционной принадлежности человека по данным микрочипового генотипирования современных людей. Мы предложили использовать для этого графовую модель на основе данных IBD-сегментов — участков ДНК, унаследованных от общих предков. Иными словами, если два человека имеют длинный общий участок генома, это значит, что у них сравнительно недавно был общий предок.
Мы строили так называемый IBD-граф, где вершина соответствовала отдельному человеку, а вес ребра между двумя вершинами отражал меру их сходства, рассчитанную как сумма длин общих IBD-сегментов. Такой граф необязательно был полным: ребро проводилось только там, где сходство было выше заданного порога. На этом графе мы обучали графовые нейросети (GNN), которые учились предсказывать популяционную принадлежность для каждой вершины. Для нового клиента сначала вычислялись общие сегменты ДНК между всеми людьми из базы данных, затем человек добавлялся в граф в виде новой вершины, а потом модель уже на основе этого обновленного графа выдавала распределение вероятностей по популяциям для клиента. Такой подход оказался точнее существующих и лучше справлялся с классификацией близкородственных популяций. По результатам этой работы компания Genotek приобрела лицензию на наш метод.
Чем я горжусь
Я бы не сказал, что горжусь какими-то отдельными результатами. В наших задачах очень часто приходится заимствовать идеи из разных направлений машинного обучения — от обработки изображений (CV) и текстов (NLP) до предсказания временных рядов — и адаптировать их к нашим специфическим генетическим данным. Непродуманное применение методов из других областей, без учета специфики биологических данных, обычно дает низкую точность или приводит к результатам, которые трудно применять на практике. Поэтому приходится глубоко разбираться, какие особенности метода можно корректно перенести на наши данные, а для чего потребуется разработка собственных подходов. И хотя геномика пока не так популярна среди специалистов по машинному обучению, с накоплением все большего объема данных и совершенствованием методов, мне кажется, здесь можно ожидать значимого прогресса в исследовании эволюции живых организмов. Я надеюсь, что наши текущие наработки окажутся полезными в будущем и станут частью этого движения вперед. В этом смысле я рад тому, что могу работать в коллективе, где мы вместе движемся к этой цели.
О чем я мечтаю
Я рад, что у меня есть возможность заниматься тем, что вызывает у меня интерес, вместе с людьми, которые тоже его разделяют. Надеюсь, что таких людей со временем будет только больше.
Думаю, любая деятельность со временем становится наукой, если в ней накапливается опыт, формируются сообщество, правила и методы. Но чтобы создавать там что-то новое, нужно сначала освоить существующие правила и понимать, какие задачи действительно актуальны. Это и отличает студента от профессора. Примером может служить большой теннис. Многие умеют просто попадать ракеткой по мячу, но играть на уровне Роджера Федерера способны единицы. За этим стоят собственные техники, новые удары и постоянные тренировки. Похожим образом и киноиндустрия, и многие другие сферы, на мой взгляд, давно превратились в науки. Думаю, для меня научная деятельность — это еще и возможность не только изучать и развивать выбранную область, но и обсуждать ее с людьми, которые разбираются глубже и могут подсказать, на что действительно стоит обратить внимание.
Если бы я не стал ученым
Я бы выбрал одну из трех профессий в киноиндустрии: оператор-постановщик, специалист по компьютерной графике или монтажер. Съемкой я увлекся еще в школе. Мы с друзьями делали небольшие репортажи про достопримечательности нашей страны и мира, сами приезжали на локации и работали в стиле популярной тогда программы «Орел и решка». Но это не стало очень популярно в интернете, и тогда мы попробовали переключиться на велосипедную тематику, которой увлекался один из моих друзей. Так постепенно появился наш канал French Rider про велоспорт — обзоры велосипедов и комплектующих, клипы и репортажи с выставок. В конце одного из наших видео даже есть небольшой бэкстейдж, где меня можно увидеть за работой.
Мне всегда было интересно, как в голливудских фильмах создаются такие качественные спецэффекты. Иногда смотришь разбор съемок, и оказывается, что значительная часть сцены была CGI, хотя при первом просмотре фильма данный фрагмент казался абсолютно естественным. Особенно меня интересовало то, какие программы используют для таких натуральных эффектов и симуляций. На первом курсе бакалавриата я решил попробовать себя в 3D-моделировании в Blender, и меня это захватило. Дело дошло до того, что в рамках научно-исследовательского проекта мы дополнительно сделали анимацию, которая объясняла идею разрабатываемого в нашей команде метода. И до сих пор, когда для научных задач требуется сделать визуализацию, я иногда обращаюсь к своим небольшим навыкам в 3D-моделировании.
Я предпочитаю оставаться за кадром: продумывать композицию, управлять светом и оборудованием, а потом собирать все это на монтаже. За годы у меня накопилось уже несколько объективов и сменилось не одно поколение камер. Мне интересна и фотография, и видеосъемка, но работа с видео привлекает больше, потому что оно объединяет картинку, движение и звук в единое целое и дает больше свободы для экспериментов. Свой блог я пока не завел — не хватает времени, но хотелось бы.
С кем бы я хотел встретиться
Когда я работал над своим бакалаврским дипломом, одна из его частей как раз была посвящена исследованию адаптивной интрогрессии. Наш метод на основе contrastive learning хорошо показывал себя на симуляциях, но отсутствие валидации на реальных данных снижало ценность моей работы. Я нашел статью “The history and evolution of the Denisovan-EPAS1 haplotype in Tibetans” (PNAS, 2021), авторы которой решали классическими методами практически идентичную задачу, использовав нужные мне геномы денисовцев и тибетцев, которых не было в открытом доступе. Первым автором статьи была Xinjun Zhang (Department of Ecology and Evolutionary Biology, University of California, Los Angeles, USA). Я несколько раз связывался с ней по электронной почте, а потом мы все вместе с Владимиром Львовичем общались онлайн, обсуждая нашу работу. В итоге данные были получены, и я смог успешно протестировать свой метод в реальных условиях.
Для меня это был очень важный опыт. Человек, которого я раньше совсем не знал, вник в нашу задачу и помог с получением данных, без которых моей работе было бы трудно придать научную ценность. Мне кажется, именно так и должно работать научное сообщество — когда исследователи со всего мира готовы поддерживать друг друга. Эта работа пока не доведена до конца, но я надеюсь, что в ближайшем будущем нам удастся продолжить ее вместе, объединяя усилия нашей лаборатории и коллег из других стран.
Как выглядит мой обычный день
Большинство задач в области машинного обучения так или иначе связаны с проведением большого количества экспериментов. Теоретическое обоснование, конечно, тоже важно, но, чтобы убедить рецензентов будущей статьи в том, что метод действительно работает, обычно требуется обширное сравнение с похожими подходами и валидация на уже известных бенчмарках. Поэтому все начинается с плана: нужно продумать, какие именно эксперименты провести, в какой последовательности и на какие вопросы они должны ответить. Если такой план мы в лаборатории уже обсудили, я начинаю его реализовывать.
Обычно мой день начинается с того, что я включаю компьютер и смотрю, что модель успела посчитать за ночь: какие получились метрики и насколько все идет в правильном направлении. Пока завтракаю, думаю о том, какие новые эксперименты можно поставить, что стоит изменить, а если что-то пошло не так — как это исправить. Днем работаю над кодом и анализирую промежуточные результаты. К вечеру стараюсь подготовить новые задачи для обучения, чтобы на ночь GPU не остались без работы.
Бывает ли у меня выгорание
Я бы не сказал, что у меня бывает выгорание в том смысле, в котором его обычно понимают. У меня не пропадает интерес к задаче, наоборот, я стараюсь доводить ее до конца, если вижу перспективу. Скорее бывают моменты, когда дедлайны требуют срочно запускать новые эксперименты, а сил на написание кода уже почти не остается. Еще в машинном обучении приходится писать много вспомогательных скриптов для проверки гипотез: построить распределения, посчитать метрики, визуализировать предсказания модели. Раньше все это занимало много времени и часто код оказывался одноразовым, подходящим только для конкретной конфигурации эксперимента. Сейчас такие задачи сильно упростились: я могу вайбкодить — объяснять большой языковой модели голосом или текстом, что именно нужно сделать, и получать готовый рабочий код, параллельно тренируя иностранный язык. Конечно, сгенерированную программу все равно нужно проверять, но для быстрого тестирования несложных гипотез это отлично работает и заметно ускоряет процесс.
Также, если чувствую усталость, могу просто выйти прогуляться, чтобы переключить внимание, а вернувшись, уже берусь за более сложные задачи, в которых важно учитывать специфику данных и продумывать детали самому.
Чем я увлекаюсь, помимо науки
Я часто играю с друзьями в настольный теннис и баскетбол в теплое время года, а раньше в школе достаточно долго занимался большим теннисом. Еще я окончил музыкальную школу по классу фортепиано. С некоторыми друзьями оттуда я до сих пор поддерживаю отношения, в частности вместе ведем канал про велоспорт. К сожалению, сейчас у меня не хватает времени заниматься музыкой, поэтому за инструмент я сажусь очень редко.
Что я недавно читал
Как-то давно друг посоветовал мне прочитать биографию Илона Маска. Недавно выдалось время, чтобы начать. Я выбрал вариант, написанный американским писателем и журналистом Walter Isaacson.
На мой взгляд, бизнес Илона Маска не просто разносторонний, охватывающий сферы космоса, автомобилестроения, биологии и искусственного интеллекта, но и очень наукоемкий, потому что под его руководством действительно создаются новые технологии. Мне интересно, как он, сталкиваясь с трудностями и сомнениями в своих идеях, все равно продолжает идти вперед и какие ключевые решения он для этого принимает. Не знаю, ответит ли книга на все мои вопросы, но думаю, что у него однозначно можно поучиться стратегическому мышлению, умению не останавливаться из-за преград и доводить задуманное до конца.
Что я недавно смотрел
Мне нравятся фильмы режиссеров Люка Бессона и Гая Ричи. Стиль, в котором они работают, наверное, по большей части совпадал бы с моим, если бы я сам был режиссером. Люблю иногда пересматривать некоторые их работы, в частности «Шерлока Холмса».
Совет молодым ученым
Старайтесь найти ту область исследований, которая будет вам действительно интересна. Не бойтесь пробовать новое и не сдавайтесь, если что-то не получается с первого раза. Используйте любые возможности для роста: участвуйте в стажировках, школах, воркшопах и конференциях. Пока есть время и силы, вкладывайте их в свое развитие.
Любимое место в Москве
Дом культуры «ГЭС-2». Мне нравится, когда исторические здания не бросают, а восстанавливают и приводят в порядок. Это позволяет сохранить разнообразие в городской архитектуре, одновременно давая зданиям новую жизнь.
Интервью подготовила Полина Сурнина