«Спрос на биоинформатиков в мире и в России не удовлетворен»
В Высшей школе экономики на факультете компьютерных наук открывается магистерская программа «Анализ данных в биологии и медицине». О программе рассказывает ее руководитель, заместитель директора Института проблем передачи информации РАН Михаил Гельфанд.
В чем особенность медико-биологического анализа данных
Современная молекулярная биология, связанная с анализом большого объема данных, в значительной степени мотивируется медицинскими задачами. Это не традиционный анализ медицинских данных, когда собираются истории болезни или производится анализ клинических испытаний, но что-то близкое.
Сейчас врачи используют геном человека как еще один вид анализа, который может дать довольно много всякой информации. Это то, что по-модному называется «персонализированной медициной». Генетический анализ может быть очень важен при постановке диагноза, например, если это рак.
Мое глубокое убеждение: не бывает анализа данных вообще, как нет науки микроскопии. Зато есть задачи, которые решаются с помощью определенных методов — экспериментальных или вычислительных. И для того, чтобы эти методы разумно применять, нужно хорошо знать предметную область. Я сам переучившийся математик и все это проходил, только я никаких курсов не слушал, но пять раз сдавал кандидатский минимум по молекулярной биологии — пока не выучил то, что надо.
Поскольку к нам на программу будут приходить люди, которые будут иметь опыт в компьютерных науках или математике, им нужны такие курсы, чтобы они понимали, чем будут заниматься. Чтобы решать поставленные задачи, им надо понимать биолога, который эти задачи формулирует, а это далеко не всегда тривиально. Поэтому и обучение на программе для них начнется с ликвидации биологической безграмотности.
Как математику и биологу понять друг друга
У меня есть очень хороший пример — пример Института проблем передачи информации, в котором я работаю. Когда его только создавали, в него перешло несколько лабораторий из Института высшей нервной деятельности. И это было мудро, потому что техническое зрение и физиология зрения — это вещи, которые всю жизнь делались не параллельно, а вместе. У нас есть и лингвистическая лаборатория, и это оказалось очень кстати: когда появился интернет, стало ясно, что лингвистика — это наука, богатая данными.
Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали
Наша программа создается не на пустом месте. Есть Московская школа биоинформатики, которая начиналась как отделение Школы анализа данных Яндекса. Это довольно хороший опыт, потому что туда приходят и математики, и биологи, и самые интересные выпуски получаются, когда там есть и те, и другие. И я рассчитываю именно на такую интеграцию.
Мое личное наблюдение показывает, что среди успешных биоинформатиков примерно пополам математиков и биологов. Когда приходят математики и компьютерщики, для них это скорее новая область, в которую они хотят войти. Биологи приходят потому, что понимают, что без знания биоинформатики, без умения работать с современными методами они не могут дальше продвигаться в тех биологических областях, которыми они занимаются.
Почему нужно копать глубже
Биоинформатика — это область, в которой действительно есть шанс сделать что-то безумно интересное. Просто потому что прогресс в науке — и технологический, и в понимании — происходит с невероятной скоростью. Причем прогресс в понимании отстает от прогресса технологического. Мы очень сильно недорабатываем с данными, которые есть, не вынимаем оттуда все, что можно было бы использовать.
Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали. Потому что сейчас ситуация такая: несколько разных лабораторий получают новые данные, и все хотят опубликоваться в Nature. При этом они понимают, что в Nature возьмут только одну статью на эту тему — значит, нужно опередить других. Поэтому люди очень спешат с публикациями и снимают только самый верхний слой с массива новых данных. Чтобы залезть глубже этого слоя, нужно больше думать, а на это нет времени. В этом опасность пребывания на передовом фронте исследований: часто это превращается в тараканьи бега. А вот если хорошо подумать, можно придумать совершенно замечательные вещи.
Биоинформатика хороша еще тем, что ей можно заниматься в России — в отличие от прочей биологии, которой заниматься в России достаточно тяжело».
Кого ждут на программе
Конечно, мы ждем абитуриентов с определенным уровнем математической подготовки. Но в то же время важно, чтобы у них не было математического снобизма. Еще одно мое наблюдение, возможно, неправильное: среди успешных биоинформатиков довольно мало физиков. В значительной степени потому, что физики, особенно теоретические, склонны полагать, что они одни придут и сами все сделают — а так не получится.
Я убежден, что биология не есть место для применения общих соображений, в ней много специфики конкретных задач, и нужно умение и желание в этой специфике разбираться. Понятно, что сразу это не получится, но именно поэтому у студента должны быть «открытые» мозги.
Само собой разумеющимся является владение английским языком. Если студенту дают статью, то предполагается, что он в состоянии ее прочитать и понять. Следующая стадия будет, когда преподаватель не будет задумываться, может ли студент написать статью по-английски. Но не хочу пугать: это случится не сразу.
Что можно успеть сделать в магистратуре
Двух лет, чтобы чему-то научиться, хватит — все-таки к нам придут подготовленные люди. Да и вообще биоинформатика эластична по усилиям. Можно добиться большого прогресса, просто много работая. Двух лет достаточно, чтобы почувствовать вкус к этой исследовательской области и чтобы сделать приличную работу. Если правильно поставлена задача (а почти все наши преподаватели — люди, активно работающие в современной биоинформатике), то хорошую работу можно сделать и за полгода и опубликовать ее в пристойном журнале из верхнего квартиля. Кстати, молекулярная биология и биоинформатика — одни из самых «цитатогенерирующих» областей».
Чем займутся выпускники программы
Спрос на биоинформатиков в мире и в России сильно недоудовлетворен. Можно сделать независимую биоинформатическую карьеру, можно работать в экспериментальной лаборатории. Можно пойти в компании, которые занимаются персональной медициной, или в фармацевтику. Мои коллеги поддерживают сайт, своеобразную биржу труда для биоинформатиков, где размещаются объявления о постоянных позициях и временных коллаборациях.
Еще раз скажу: данных в нашей области больше, чем людей, которые могут с ними работать. В нашем случае один секвенатор прочитает столько фрагментов ДНК, что работы с ними хватит многим и многим исследователям. Технология секвенирования лежит в глубине самых разных биологических задач. Вы можете смотреть геномы, можете смотреть интенсивность работы генов — в разных тканях, или на разных стадиях развития, или при разных условиях, можете смотреть, как белки связываются с ДНК и регулируют работу этих генов и прочее. Это все разные задачи содержательно и по способу обработки.
То, как данные будут обрабатываться, важно уже на стадии планирования эксперимента. Если вы биоинформатик, который работает с биологами, это не значит. что биологи все для вас сделают, принесут на блюдечке несколько сотен гигабайт, а вы с этим будете работать. Нет, вы должны вмешиваться в процесс еще на нулевых стадиях, стадиях планирования эксперимента. Потому что иначе случаются истории, когда очень тяжелые и дорогие эксперименты ушли в никуда, потому что в самом начале не были предусмотрены необходимые контроли (например, чтобы обеспечить достаточную статистическую значимость) — и все надо было делать заново. У нас вы поймете, как таких ошибок избегать.
Познакомиться с Михаилом Гельфандом и узнать больше о программе «Анализ данных в биологии и медицине» можно будет на зимней школе факультета компьютерных наук, которая пройдет в феврале в Подмосковье. Регистрация на нее открыта до 20 декабря.
Гельфанд Михаил Сергеевич
Руководитель магистерской программы «Анализ данных в биологии и медицине»
Вам также может быть интересно:
ФКН, «Самолет», магистратура: как в Вышке будут готовить дата-аналитиков для сферы девелопмента
1 июня в 18:00 в онлайн-формате состоится день открытых дверей магистерской программы НИУ ВШЭ «Анализ данных в девелопменте», набор на которую впервые будет проведен в этом году. Программа реализуется факультетом компьютерных наук совместно с индустриальным партнером — одной из крупнейших российских девелоперских компаний «Самолет», которая профинансирует обучение 30 лучших студентов. Об особенностях программы рассказала ее академический руководитель Мария Горденко.
НИУ ВШЭ и «Самолет» подготовят специалистов анализа данных в девелопменте
Факультет компьютерных наук НИУ ВШЭ и одна из крупнейших российских девелоперских компаний «Самолет» открывают новую магистерскую программу «Анализ данных в девелопменте». «Самолет» профинансирует обучение 30 лучших абитуриентов, поступивших на программу.
Более 7 тысяч человек приняли участие в Национальной олимпиаде по анализу данных DANO
К состязанию присоединились любители анализа данных из разных регионов России и 13 зарубежных стран. Итоги этапа будут опубликованы 20 октября. По результатам тестирования определятся участники второго (отборочного) этапа.
ВШЭ и «Тинькофф» провели первый в сезоне хакатон Национальной олимпиады по анализу данных DANO
Хакатон в Уральском федеральном университете открыл серию мероприятий для школьников, которые пройдут в четырех городах России. 17–18 сентября хакатон пройдет в Майкопе, в следующие выходные — в Санкт-Петербурге, в первые субботу и воскресенье октября — в Нижнем Новгороде. Подробное расписание и программа мероприятий опубликованы на сайте олимпиады.
НИУ ВШЭ и «Тинькофф» открыли регистрацию на Национальную олимпиаду по анализу данных DANO
Высшая школа экономики совместно с «Тинькофф» проведет Национальную олимпиаду по анализу данных DANO для школьников 9–11-х классов. Зарегистрироваться на олимпиаду и стать участником можно не позднее 30 сентября 2022 года на официальном сайте олимпиады.
На ФКН Вышки состоялся первый выпуск программы «Прикладной анализ данных»
В начале июля на образовательной программе «Прикладной анализ данных» (ПАД) факультета компьютерных наук НИУ ВШЭ прошел первый выпускной. Большинство выпускников уже нашли работу в разных сферах: Data Science, разработка, продуктовый менеджмент, системный анализ. Многие планируют продолжить обучение в лучших иностранных и российских вузах, но не собираются прощаться: «Мы были одной большой командой, так ею и останемся».
Бакалавриат «Прикладной анализ данных» прошел аккредитацию Альянса в сфере искусственного интеллекта
Образовательная программа факультета компьютерных наук ВШЭ «Прикладной анализ данных » получила профессионально-общественную аккредитацию Альянса в сфере искусственного интеллекта (Альянс ИИ). Это третья аккредитация альянса на ФКН — ранее ее уже получили программы бакалавриата «Прикладная математика и информатика» и магистратуры — «Финансовые технологии и анализ данных».
ВШЭ и SAS: как подготовить лучших специалистов в области данных
Базовая кафедра компании SAS, мирового лидера в области аналитики, открылась на факультете компьютерных наук НИУ ВШЭ в августе 2018 года. Цель создания кафедры — повысить качество подготовки специалистов в области анализа данных. Какие идеи удалось здесь реализовать и как сочетается преподавание академической базы и освоение практических навыков — в материале новостной службы портала.
IDAO 2022: для решения задачи первого этапа нужны знания в области графовых нейронных сетей
1 февраля был дан старт олимпиаде IDAO 2022. ФКН, Яндекс и платиновый партнер — банк «Открытие» проводят ее в юбилейный, пятый раз. Первый этап олимпиады пройдет в онлайн-формате на Яндекс.Контесте — онлайн-платформе для организации соревнований по программированию.
Подведены итоги первой Национальной олимпиады по анализу данных DANO
Три команды-победителя получили возможность учиться в бакалавриате Вышки за счет средств университета на программах по анализу данных, экономическим наукам и информационным технологиям. Всего в финальном этапе олимпиады приняли участие 32 команды с участниками из разных регионов России.