• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Спрос на биоинформатиков в мире и в России не удовлетворен»

В Высшей школе экономики на факультете компьютерных наук открывается магистерская программа «Анализ данных в биологии и медицине». О программе рассказывает ее руководитель, заместитель директора Института проблем передачи информации РАН Михаил Гельфанд.

В чем особенность медико-биологического анализа данных

Современная молекулярная биология, связанная с анализом большого объема данных, в значительной степени мотивируется медицинскими задачами. Это не традиционный анализ медицинских данных, когда собираются истории болезни или производится анализ клинических испытаний, но что-то близкое.

Сейчас врачи используют геном человека как еще один вид анализа, который может дать довольно много всякой информации. Это то, что по-модному называется «персонализированной медициной». Генетический анализ может быть очень важен при постановке диагноза, например, если это рак.

Мое глубокое убеждение: не бывает анализа данных вообще, как нет науки микроскопии. Зато есть задачи, которые решаются с помощью определенных методов — экспериментальных или вычислительных. И для того, чтобы эти методы разумно применять, нужно хорошо знать предметную область. Я сам переучившийся математик и все это проходил, только я никаких курсов не слушал, но пять раз сдавал кандидатский минимум по молекулярной биологии — пока не выучил то, что надо.

Поскольку к нам на программу будут приходить люди, которые будут иметь опыт в компьютерных науках или математике, им нужны такие курсы, чтобы они понимали, чем будут заниматься. Чтобы решать поставленные задачи, им надо понимать биолога, который эти задачи формулирует, а это далеко не всегда тривиально. Поэтому и обучение на программе для них начнется с ликвидации биологической безграмотности.

Как математику и биологу понять друг друга

У меня есть очень хороший пример — пример Института проблем передачи информации, в котором я работаю. Когда его только создавали, в него перешло несколько лабораторий из Института высшей нервной деятельности. И это было мудро, потому что техническое зрение и физиология зрения — это вещи, которые всю жизнь делались не параллельно, а вместе. У нас есть и лингвистическая лаборатория, и это оказалось очень кстати: когда появился интернет, стало ясно, что лингвистика — это наука, богатая данными.

Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали

Наша программа создается не на пустом месте. Есть Московская школа биоинформатики, которая начиналась как отделение Школы анализа данных Яндекса. Это довольно хороший опыт, потому что туда приходят и математики, и биологи, и самые интересные выпуски получаются, когда там есть и те, и другие. И я рассчитываю именно на такую интеграцию.

Мое личное наблюдение показывает, что среди успешных биоинформатиков примерно пополам математиков и биологов. Когда приходят математики и компьютерщики, для них это скорее новая область, в которую они хотят войти. Биологи приходят потому, что понимают, что без знания биоинформатики, без умения работать с современными методами они не могут дальше продвигаться в тех биологических областях, которыми они занимаются.

Почему нужно копать глубже

Биоинформатика — это область, в которой действительно есть шанс сделать что-то безумно интересное. Просто потому что прогресс в науке — и технологический, и в понимании — происходит с невероятной скоростью. Причем прогресс в понимании отстает от прогресса технологического. Мы очень сильно недорабатываем с данными, которые есть, не вынимаем оттуда все, что можно было бы использовать.

Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали. Потому что сейчас ситуация такая: несколько разных лабораторий получают новые данные, и все хотят опубликоваться в Nature. При этом они понимают, что в Nature возьмут только одну статью на эту тему — значит, нужно опередить других. Поэтому люди очень спешат с публикациями и снимают только самый верхний слой с массива новых данных. Чтобы залезть глубже этого слоя, нужно больше думать, а на это нет времени. В этом опасность пребывания на передовом фронте исследований: часто это превращается в тараканьи бега. А вот если хорошо подумать, можно придумать совершенно замечательные вещи.

Биоинформатика хороша еще тем, что ей можно заниматься в России — в отличие от прочей биологии, которой заниматься в России достаточно тяжело».

Кого ждут на программе

Конечно, мы ждем абитуриентов с определенным уровнем математической подготовки. Но в то же время важно, чтобы у них не было математического снобизма. Еще одно мое наблюдение, возможно, неправильное: среди успешных биоинформатиков довольно мало физиков. В значительной степени потому, что физики, особенно теоретические, склонны полагать, что они одни придут и сами все сделают — а так не получится.

Я убежден, что биология не есть место для применения общих соображений, в ней много специфики конкретных задач, и нужно умение и желание в этой специфике разбираться. Понятно, что сразу это не получится, но именно поэтому у студента должны быть «открытые» мозги.

Само собой разумеющимся является владение английским языком. Если студенту дают статью, то предполагается, что он в состоянии ее прочитать и понять. Следующая стадия будет, когда преподаватель не будет задумываться, может ли студент написать статью по-английски. Но не хочу пугать: это случится не сразу.

Что можно успеть сделать в магистратуре

Двух лет, чтобы чему-то научиться, хватит — все-таки к нам придут подготовленные люди. Да и вообще биоинформатика эластична по усилиям. Можно добиться большого прогресса, просто много работая. Двух лет достаточно, чтобы почувствовать вкус к этой исследовательской области и чтобы сделать приличную работу. Если правильно поставлена задача (а почти все наши преподаватели — люди, активно работающие в современной биоинформатике), то хорошую работу можно сделать и за полгода и опубликовать ее в пристойном журнале из верхнего квартиля. Кстати, молекулярная биология и биоинформатика — одни из самых «цитатогенерирующих» областей».

Чем займутся выпускники программы

Спрос на биоинформатиков в мире и в России сильно недоудовлетворен. Можно сделать независимую биоинформатическую карьеру, можно работать в экспериментальной лаборатории. Можно пойти в компании, которые занимаются персональной медициной, или в фармацевтику. Мои коллеги поддерживают сайт, своеобразную биржу труда для биоинформатиков, где размещаются объявления о постоянных позициях и временных коллаборациях.

Еще раз скажу: данных в нашей области больше, чем людей, которые могут с ними работать. В нашем случае один секвенатор прочитает столько фрагментов ДНК, что работы с ними хватит многим и многим исследователям. Технология секвенирования лежит в глубине самых разных биологических задач. Вы можете смотреть геномы, можете смотреть интенсивность работы генов — в разных тканях, или на разных стадиях развития, или при разных условиях, можете смотреть, как белки связываются с ДНК и регулируют работу этих генов и прочее. Это все разные задачи содержательно и по способу обработки.

То, как данные будут обрабатываться, важно уже на стадии планирования эксперимента. Если вы биоинформатик, который работает с биологами, это не значит. что биологи все для вас сделают, принесут на блюдечке несколько сотен гигабайт, а вы с этим будете работать. Нет, вы должны вмешиваться в процесс еще на нулевых стадиях, стадиях планирования эксперимента. Потому что иначе случаются истории, когда очень тяжелые и дорогие эксперименты ушли в никуда, потому что в самом начале не были предусмотрены необходимые контроли (например, чтобы обеспечить достаточную статистическую значимость) — и все надо было делать заново. У нас вы поймете, как таких ошибок избегать.

Познакомиться с Михаилом Гельфандом и узнать больше о программе «Анализ данных в биологии и медицине» можно будет на зимней школе факультета компьютерных наук, которая пройдет в феврале в Подмосковье. Регистрация на нее открыта до 20 декабря.

Вам также может быть интересно:

«Коммуникации, основанные на данных — это крайне востребованное сейчас направление»

В 2018 году Вышка открывает новую магистерскую программу «Коммуникации, основанные на данных». Программа будет готовить специалистов, обладающих междисциплинарными компетенциями в области рекламы и связей с общественностью, а также прикладной информатики и науки о данных. О том, как сегодня интеллектуальный анализ данных находит практическое применение в коммуникационной индустрии, какие курсы будут изучать студенты и где смогут работать, рассказывает академический руководитель программы Елена Грызунова.

Как отметить Новый год, если вы программист или математик

С 8 на 9 декабря в Высшей школе экономики пройдет Ночь решения задач, которую проводит Центр непрерывного образования факультета компьютерных наук. Начнем заранее праздновать Новый год плюшками, сложными задачами и знакомством с работодателями — словом, всем, что мы любим.

Вышка запускает курс по машинному обучению на Coursera

Анализ данных на наших глазах превращается из малоизвестной и не вполне чётко очерченной области науки в очень востребованную профессию. Поэтому факультет компьютерных наук НИУ ВШЭ и «Школа анализа данных» Яндекса запускают на Coursera курс «Машинное обучение». Он посвящён методам, которые делают возможным решение различных задач анализа данных. Записаться на него можно уже сейчас, занятия начнутся 26 января.