• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Спрос на биоинформатиков в мире и в России не удовлетворен»

«Спрос на биоинформатиков в мире и в России не удовлетворен»

В Высшей школе экономики на факультете компьютерных наук открывается магистерская программа «Анализ данных в биологии и медицине». О программе рассказывает ее руководитель, заместитель директора Института проблем передачи информации РАН Михаил Гельфанд.

В чем особенность медико-биологического анализа данных

Современная молекулярная биология, связанная с анализом большого объема данных, в значительной степени мотивируется медицинскими задачами. Это не традиционный анализ медицинских данных, когда собираются истории болезни или производится анализ клинических испытаний, но что-то близкое.

Сейчас врачи используют геном человека как еще один вид анализа, который может дать довольно много всякой информации. Это то, что по-модному называется «персонализированной медициной». Генетический анализ может быть очень важен при постановке диагноза, например, если это рак.

Мое глубокое убеждение: не бывает анализа данных вообще, как нет науки микроскопии. Зато есть задачи, которые решаются с помощью определенных методов — экспериментальных или вычислительных. И для того, чтобы эти методы разумно применять, нужно хорошо знать предметную область. Я сам переучившийся математик и все это проходил, только я никаких курсов не слушал, но пять раз сдавал кандидатский минимум по молекулярной биологии — пока не выучил то, что надо.

Поскольку к нам на программу будут приходить люди, которые будут иметь опыт в компьютерных науках или математике, им нужны такие курсы, чтобы они понимали, чем будут заниматься. Чтобы решать поставленные задачи, им надо понимать биолога, который эти задачи формулирует, а это далеко не всегда тривиально. Поэтому и обучение на программе для них начнется с ликвидации биологической безграмотности.

Как математику и биологу понять друг друга

У меня есть очень хороший пример — пример Института проблем передачи информации, в котором я работаю. Когда его только создавали, в него перешло несколько лабораторий из Института высшей нервной деятельности. И это было мудро, потому что техническое зрение и физиология зрения — это вещи, которые всю жизнь делались не параллельно, а вместе. У нас есть и лингвистическая лаборатория, и это оказалось очень кстати: когда появился интернет, стало ясно, что лингвистика — это наука, богатая данными.

Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали

Наша программа создается не на пустом месте. Есть Московская школа биоинформатики, которая начиналась как отделение Школы анализа данных Яндекса. Это довольно хороший опыт, потому что туда приходят и математики, и биологи, и самые интересные выпуски получаются, когда там есть и те, и другие. И я рассчитываю именно на такую интеграцию.

Мое личное наблюдение показывает, что среди успешных биоинформатиков примерно пополам математиков и биологов. Когда приходят математики и компьютерщики, для них это скорее новая область, в которую они хотят войти. Биологи приходят потому, что понимают, что без знания биоинформатики, без умения работать с современными методами они не могут дальше продвигаться в тех биологических областях, которыми они занимаются.

Почему нужно копать глубже

Биоинформатика — это область, в которой действительно есть шанс сделать что-то безумно интересное. Просто потому что прогресс в науке — и технологический, и в понимании — происходит с невероятной скоростью. Причем прогресс в понимании отстает от прогресса технологического. Мы очень сильно недорабатываем с данными, которые есть, не вынимаем оттуда все, что можно было бы использовать.

Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали. Потому что сейчас ситуация такая: несколько разных лабораторий получают новые данные, и все хотят опубликоваться в Nature. При этом они понимают, что в Nature возьмут только одну статью на эту тему — значит, нужно опередить других. Поэтому люди очень спешат с публикациями и снимают только самый верхний слой с массива новых данных. Чтобы залезть глубже этого слоя, нужно больше думать, а на это нет времени. В этом опасность пребывания на передовом фронте исследований: часто это превращается в тараканьи бега. А вот если хорошо подумать, можно придумать совершенно замечательные вещи.

Биоинформатика хороша еще тем, что ей можно заниматься в России — в отличие от прочей биологии, которой заниматься в России достаточно тяжело».

Кого ждут на программе

Конечно, мы ждем абитуриентов с определенным уровнем математической подготовки. Но в то же время важно, чтобы у них не было математического снобизма. Еще одно мое наблюдение, возможно, неправильное: среди успешных биоинформатиков довольно мало физиков. В значительной степени потому, что физики, особенно теоретические, склонны полагать, что они одни придут и сами все сделают — а так не получится.

Я убежден, что биология не есть место для применения общих соображений, в ней много специфики конкретных задач, и нужно умение и желание в этой специфике разбираться. Понятно, что сразу это не получится, но именно поэтому у студента должны быть «открытые» мозги.

Само собой разумеющимся является владение английским языком. Если студенту дают статью, то предполагается, что он в состоянии ее прочитать и понять. Следующая стадия будет, когда преподаватель не будет задумываться, может ли студент написать статью по-английски. Но не хочу пугать: это случится не сразу.

Что можно успеть сделать в магистратуре

Двух лет, чтобы чему-то научиться, хватит — все-таки к нам придут подготовленные люди. Да и вообще биоинформатика эластична по усилиям. Можно добиться большого прогресса, просто много работая. Двух лет достаточно, чтобы почувствовать вкус к этой исследовательской области и чтобы сделать приличную работу. Если правильно поставлена задача (а почти все наши преподаватели — люди, активно работающие в современной биоинформатике), то хорошую работу можно сделать и за полгода и опубликовать ее в пристойном журнале из верхнего квартиля. Кстати, молекулярная биология и биоинформатика — одни из самых «цитатогенерирующих» областей».

Чем займутся выпускники программы

Спрос на биоинформатиков в мире и в России сильно недоудовлетворен. Можно сделать независимую биоинформатическую карьеру, можно работать в экспериментальной лаборатории. Можно пойти в компании, которые занимаются персональной медициной, или в фармацевтику. Мои коллеги поддерживают сайт, своеобразную биржу труда для биоинформатиков, где размещаются объявления о постоянных позициях и временных коллаборациях.

Еще раз скажу: данных в нашей области больше, чем людей, которые могут с ними работать. В нашем случае один секвенатор прочитает столько фрагментов ДНК, что работы с ними хватит многим и многим исследователям. Технология секвенирования лежит в глубине самых разных биологических задач. Вы можете смотреть геномы, можете смотреть интенсивность работы генов — в разных тканях, или на разных стадиях развития, или при разных условиях, можете смотреть, как белки связываются с ДНК и регулируют работу этих генов и прочее. Это все разные задачи содержательно и по способу обработки.

То, как данные будут обрабатываться, важно уже на стадии планирования эксперимента. Если вы биоинформатик, который работает с биологами, это не значит. что биологи все для вас сделают, принесут на блюдечке несколько сотен гигабайт, а вы с этим будете работать. Нет, вы должны вмешиваться в процесс еще на нулевых стадиях, стадиях планирования эксперимента. Потому что иначе случаются истории, когда очень тяжелые и дорогие эксперименты ушли в никуда, потому что в самом начале не были предусмотрены необходимые контроли (например, чтобы обеспечить достаточную статистическую значимость) — и все надо было делать заново. У нас вы поймете, как таких ошибок избегать.

Познакомиться с Михаилом Гельфандом и узнать больше о программе «Анализ данных в биологии и медицине» можно будет на зимней школе факультета компьютерных наук, которая пройдет в феврале в Подмосковье. Регистрация на нее открыта до 20 декабря.

Вам также может быть интересно:

ВШЭ и Индийский технологический институт Дели договорились о совместных исследовательских проектах

НИУ ВШЭ — Санкт Петербург и один из ведущих индийских вузов — Индийский технологический институт Дели (IIT Delhi) — договорились о запуске совместных исследовательских проектов в области социальных, политических и гуманитарных исследований и анализа данных для студентов магистратуры. С российской стороны работу будет координировать Санкт-Петербургская школа социальных наук НИУ ВШЭ.

Магистерская программа «Науки о данных» аккредитована Альянсом в сфере искусственного интеллекта

По итогам экспертизы ее сильными сторонами были признаны широкий набор образовательных дисциплин, глубокий уровень изучения теоретической части в областях машинного обучения, кадровый состав и вовлеченность работодателей. Это уже пятая образовательная программа факультета компьютерных наук НИУ ВШЭ, получившая столь престижную профессионально-общественную аккредитацию.

«Непростая задача — рассказать, как применяется Data Science в девелопменте»

В 2023 году факультет компьютерных наук ВШЭ и компания «Самолет» запустили магистерскую программу«Анализ данных в девелопменте». Это первая в России программа подготовки специалистов в области науки о данных, способных разрабатывать и применять вычислительные методы для решения задач девелопмента. В первый набор на программу было подано более 150 заявлений, на первый курс зачислены 35 человек, которые уже приступили к занятиям.

В НИУ ВШЭ в Нижнем Новгороде состоялся хакатон олимпиады по анализу данных DANO

В соревнованиях участвовали более 90 школьников 9–11 классов из Москвы, Нижнего Новгорода и области, Санкт-Петербурга, Самары, Чебоксар, Уфы — всего из 15 регионов России. «Все большую часть рынка занимают позиции, требующие работы с большими данными, поэтому еще в школе нужно учиться их обрабатывать, анализировать, получать правильные выводы», — отметил Дмитрий Покровский, сопредседатель методической комиссии Национальной олимпиады по анализу данных DANO.

В технопарке «Саров» сотрудники ФКН Вышки рассказали о применении ИИ для анализа данных в физике

Научно-учебная лаборатория методов анализа больших данных факультета компьютерных наук ВШЭ совместно с Всероссийским научно-исследовательским институтом экспериментальной физики (РФЯЦ-ВНИИЭФ, Саров) и Национальным центром физики и математики провели II Всероссийскую школу-семинар по физике высоких энергий и ускорительной технике.

ФКН проведет для старшеклассников летние школы по анализу данных и программной инженерии

Факультет компьютерных наук Высшей школы экономики организует летние школы для учащихся 8–11-х классов на бесплатной основе. Первая — по анализу данных — состоится с 26 по 30 июня. Вторая — по программной инженерии — пройдет с 3 по 14 июля. Для участия необходимо зарегистрироваться и пройти отбор.

ФКН, «Самолет», магистратура: как в Вышке будут готовить дата-аналитиков для сферы девелопмента

1 июня в 18:00 в онлайн-формате состоится день открытых дверей магистерской программы НИУ ВШЭ «Анализ данных в девелопменте», набор на которую впервые будет проведен в этом году. Программа реализуется факультетом компьютерных наук совместно с индустриальным партнером — одной из крупнейших российских девелоперских компаний «Самолет», которая профинансирует обучение 30 лучших студентов. Об особенностях программы рассказала ее академический руководитель Мария Горденко.

НИУ ВШЭ и «Самолет» подготовят специалистов анализа данных в девелопменте

Факультет компьютерных наук НИУ ВШЭ и одна из крупнейших российских девелоперских компаний «Самолет» открывают новую магистерскую программу «Анализ данных в девелопменте». «Самолет» профинансирует обучение 30 лучших абитуриентов, поступивших на программу.

Более 7 тысяч человек приняли участие в Национальной олимпиаде по анализу данных DANO

К состязанию присоединились любители анализа данных из разных регионов России и 13 зарубежных стран. Итоги этапа будут опубликованы 20 октября. По результатам тестирования определятся участники второго (отборочного) этапа.

ВШЭ и «Тинькофф» провели первый в сезоне хакатон Национальной олимпиады по анализу данных DANO

Хакатон в Уральском федеральном университете открыл серию мероприятий для школьников, которые пройдут в четырех городах России. 17–18 сентября хакатон пройдет в Майкопе, в следующие выходные — в Санкт-Петербурге, в первые субботу и воскресенье октября — в Нижнем Новгороде. Подробное расписание и программа мероприятий опубликованы на сайте олимпиады.