• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Спрос на биоинформатиков в мире и в России не удовлетворен»

«Спрос на биоинформатиков в мире и в России не удовлетворен»

В Высшей школе экономики на факультете компьютерных наук открывается магистерская программа «Анализ данных в биологии и медицине». О программе рассказывает ее руководитель, заместитель директора Института проблем передачи информации РАН Михаил Гельфанд.

В чем особенность медико-биологического анализа данных

Современная молекулярная биология, связанная с анализом большого объема данных, в значительной степени мотивируется медицинскими задачами. Это не традиционный анализ медицинских данных, когда собираются истории болезни или производится анализ клинических испытаний, но что-то близкое.

Сейчас врачи используют геном человека как еще один вид анализа, который может дать довольно много всякой информации. Это то, что по-модному называется «персонализированной медициной». Генетический анализ может быть очень важен при постановке диагноза, например, если это рак.

Мое глубокое убеждение: не бывает анализа данных вообще, как нет науки микроскопии. Зато есть задачи, которые решаются с помощью определенных методов — экспериментальных или вычислительных. И для того, чтобы эти методы разумно применять, нужно хорошо знать предметную область. Я сам переучившийся математик и все это проходил, только я никаких курсов не слушал, но пять раз сдавал кандидатский минимум по молекулярной биологии — пока не выучил то, что надо.

Поскольку к нам на программу будут приходить люди, которые будут иметь опыт в компьютерных науках или математике, им нужны такие курсы, чтобы они понимали, чем будут заниматься. Чтобы решать поставленные задачи, им надо понимать биолога, который эти задачи формулирует, а это далеко не всегда тривиально. Поэтому и обучение на программе для них начнется с ликвидации биологической безграмотности.

Как математику и биологу понять друг друга

У меня есть очень хороший пример — пример Института проблем передачи информации, в котором я работаю. Когда его только создавали, в него перешло несколько лабораторий из Института высшей нервной деятельности. И это было мудро, потому что техническое зрение и физиология зрения — это вещи, которые всю жизнь делались не параллельно, а вместе. У нас есть и лингвистическая лаборатория, и это оказалось очень кстати: когда появился интернет, стало ясно, что лингвистика — это наука, богатая данными.

Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали

Наша программа создается не на пустом месте. Есть Московская школа биоинформатики, которая начиналась как отделение Школы анализа данных Яндекса. Это довольно хороший опыт, потому что туда приходят и математики, и биологи, и самые интересные выпуски получаются, когда там есть и те, и другие. И я рассчитываю именно на такую интеграцию.

Мое личное наблюдение показывает, что среди успешных биоинформатиков примерно пополам математиков и биологов. Когда приходят математики и компьютерщики, для них это скорее новая область, в которую они хотят войти. Биологи приходят потому, что понимают, что без знания биоинформатики, без умения работать с современными методами они не могут дальше продвигаться в тех биологических областях, которыми они занимаются.

Почему нужно копать глубже

Биоинформатика — это область, в которой действительно есть шанс сделать что-то безумно интересное. Просто потому что прогресс в науке — и технологический, и в понимании — происходит с невероятной скоростью. Причем прогресс в понимании отстает от прогресса технологического. Мы очень сильно недорабатываем с данными, которые есть, не вынимаем оттуда все, что можно было бы использовать.

Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали. Потому что сейчас ситуация такая: несколько разных лабораторий получают новые данные, и все хотят опубликоваться в Nature. При этом они понимают, что в Nature возьмут только одну статью на эту тему — значит, нужно опередить других. Поэтому люди очень спешат с публикациями и снимают только самый верхний слой с массива новых данных. Чтобы залезть глубже этого слоя, нужно больше думать, а на это нет времени. В этом опасность пребывания на передовом фронте исследований: часто это превращается в тараканьи бега. А вот если хорошо подумать, можно придумать совершенно замечательные вещи.

Биоинформатика хороша еще тем, что ей можно заниматься в России — в отличие от прочей биологии, которой заниматься в России достаточно тяжело».

Кого ждут на программе

Конечно, мы ждем абитуриентов с определенным уровнем математической подготовки. Но в то же время важно, чтобы у них не было математического снобизма. Еще одно мое наблюдение, возможно, неправильное: среди успешных биоинформатиков довольно мало физиков. В значительной степени потому, что физики, особенно теоретические, склонны полагать, что они одни придут и сами все сделают — а так не получится.

Я убежден, что биология не есть место для применения общих соображений, в ней много специфики конкретных задач, и нужно умение и желание в этой специфике разбираться. Понятно, что сразу это не получится, но именно поэтому у студента должны быть «открытые» мозги.

Само собой разумеющимся является владение английским языком. Если студенту дают статью, то предполагается, что он в состоянии ее прочитать и понять. Следующая стадия будет, когда преподаватель не будет задумываться, может ли студент написать статью по-английски. Но не хочу пугать: это случится не сразу.

Что можно успеть сделать в магистратуре

Двух лет, чтобы чему-то научиться, хватит — все-таки к нам придут подготовленные люди. Да и вообще биоинформатика эластична по усилиям. Можно добиться большого прогресса, просто много работая. Двух лет достаточно, чтобы почувствовать вкус к этой исследовательской области и чтобы сделать приличную работу. Если правильно поставлена задача (а почти все наши преподаватели — люди, активно работающие в современной биоинформатике), то хорошую работу можно сделать и за полгода и опубликовать ее в пристойном журнале из верхнего квартиля. Кстати, молекулярная биология и биоинформатика — одни из самых «цитатогенерирующих» областей».

Чем займутся выпускники программы

Спрос на биоинформатиков в мире и в России сильно недоудовлетворен. Можно сделать независимую биоинформатическую карьеру, можно работать в экспериментальной лаборатории. Можно пойти в компании, которые занимаются персональной медициной, или в фармацевтику. Мои коллеги поддерживают сайт, своеобразную биржу труда для биоинформатиков, где размещаются объявления о постоянных позициях и временных коллаборациях.

Еще раз скажу: данных в нашей области больше, чем людей, которые могут с ними работать. В нашем случае один секвенатор прочитает столько фрагментов ДНК, что работы с ними хватит многим и многим исследователям. Технология секвенирования лежит в глубине самых разных биологических задач. Вы можете смотреть геномы, можете смотреть интенсивность работы генов — в разных тканях, или на разных стадиях развития, или при разных условиях, можете смотреть, как белки связываются с ДНК и регулируют работу этих генов и прочее. Это все разные задачи содержательно и по способу обработки.

То, как данные будут обрабатываться, важно уже на стадии планирования эксперимента. Если вы биоинформатик, который работает с биологами, это не значит. что биологи все для вас сделают, принесут на блюдечке несколько сотен гигабайт, а вы с этим будете работать. Нет, вы должны вмешиваться в процесс еще на нулевых стадиях, стадиях планирования эксперимента. Потому что иначе случаются истории, когда очень тяжелые и дорогие эксперименты ушли в никуда, потому что в самом начале не были предусмотрены необходимые контроли (например, чтобы обеспечить достаточную статистическую значимость) — и все надо было делать заново. У нас вы поймете, как таких ошибок избегать.

Познакомиться с Михаилом Гельфандом и узнать больше о программе «Анализ данных в биологии и медицине» можно будет на зимней школе факультета компьютерных наук, которая пройдет в феврале в Подмосковье. Регистрация на нее открыта до 20 декабря.

Вам также может быть интересно:

ВШЭ и SAS: как подготовить лучших специалистов в области данных

Базовая кафедра компании SAS, мирового лидера в области аналитики, открылась на факультете компьютерных наук НИУ ВШЭ в августе 2018 года. Цель создания кафедры — повысить качество подготовки специалистов в области анализа данных. Какие идеи удалось здесь реализовать и как сочетается преподавание академической базы и освоение практических навыков — в материале новостной службы портала.

IDAO 2022: для решения задачи первого этапа нужны знания в области графовых нейронных сетей

1 февраля был дан старт олимпиаде IDAO 2022. ФКН, Яндекс и платиновый партнер — банк «Открытие» проводят ее в юбилейный, пятый раз. Первый этап олимпиады пройдет в онлайн-формате на Яндекс.Контесте — онлайн-платформе для организации соревнований по программированию.

Подведены итоги первой Национальной олимпиады по анализу данных DANO

Три команды-победителя получили возможность учиться в бакалавриате Вышки за счет средств университета на программах по анализу данных, экономическим наукам и информационным технологиям. Всего в финальном этапе олимпиады приняли участие 32 команды с участниками из разных регионов России.

Открывается регистрация на международную олимпиаду по анализу данных IDAO

Факультет компьютерных наук НИУ ВШЭ, «Яндекс» и платиновый партнер банк «Открытие» проведут международную олимпиаду по анализу данных IDAO. Олимпиада, регистрация на которую уже открыта, пройдет в два этапа: отборочный продлится с 1 по 28 февраля 2022 года, а финальный состоится 16–17 апреля.

Вышка стала организатором Национальной олимпиады по анализу данных

К участию в новом интеллектуальном состязании приглашаются российские школьники 9-11-х классов. Победители получат дополнительные баллы при поступлении в НИУ ВШЭ и подарки от партнеров олимпиады. Регистрация открыта до 30 сентября.

Названы победители международной олимпиады по анализу данных IDAO

Факультет компьютерных наук НИУ ВШЭ, Яндекс и платиновый партнер этого года банк «Открытие» в четвертый раз провели международную олимпиаду по анализу данных IDAO. Победителем стала команда random team – Илья Корнаков, Кирилл Бороздин – из Швейцарии. Второе и третье места заняли российские команды Mylene Farmer (Василий Рубцов, Анвар Курмуков) и Shizika ( Дмитрий Симаков, Никита Чуркин).

Завершился отборочный этап олимпиады IDAO 2021

В финал Международной олимпиады по анализу данных IDAO 2021 прошли 30 команд. Они успешно справились с отборочным туром, который был посвящен поиску темной материи.

Стартовала международная олимпиада по анализу данных IDAO-2021

До 12 марта продолжается регистрация на международную олимпиаду по анализу данных (IDAO-2021). В этом году факультет компьютерных наук ВШЭ и Яндекс проводят олимпиаду в четвертый раз. Платиновым партнером этого года стал банк «Открытие». Олимпиаду организуют ведущие специалисты в области анализа данных для своих будущих коллег, начинающих аналитиков и ученых.

В первом data science–хакатоне Вышки приняли участие 8 команд

В Культурном центре на Покровке прошел хакатон по анализу данных SAS Data Hack Platypus. Команды соревновались в решении кейса онлайн-гипермаркета «Утконос». Топ-5 финалистов получили в подарок гаджеты от партнеров.

На что вы способны в Data Science: Вышка приглашает на IDAO 2020

До 15 января открыта регистрация на совместную олимпиаду факультета компьютерных наук НИУ ВШЭ и компании Яндекс — International Data Analysis Olympiad. Одна из целей международной олимпиады по анализу данных — заинтересовать молодых разработчиков и аналитиков актуальными проблемами в Data Science.