• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Первый выпуск магистратуры ФКН и Самолет «Анализ данных в девелопменте» успешно защитил свои дипломы

В 2023 году факультет компьютерных наук НИУ ВШЭ и группа Самолет запустили первую в России магистерскую программу «Анализ данных в девелопменте». Ее цель — подготовка специалистов в области науки о данных, способных разрабатывать и применять вычислительные методы для решения задач девелопмента. В первый набор поступило более 150 заявлений, из которых было отобрано 35 студентов.

© freepik

© freepik

В начале июня состоялась защита выпускных квалификационных работ первого выпуска магистратуры «Анализ данных в девелопменте». Выпускники рассказали о своих дипломных работах и поделились впечатлениями от обучения.

Максим Курагин
На сегодняшний день большие языковые модели могут корректно отвечать практически на любой вопрос, если ответ содержался в обучающем массиве данных. Но что делать, если нужной информации там не было? Таких данных много во внутренних базах знаний крупных компаний. В рамках дипломной работы я должен был обеспечить сотрудников блока проектирования компании инструментом быстрого доступа к большому массиву информации. Я создал диалоговую систему, в которой проектировщик может задать вопрос в свободной форме и получить развернутый ответ на основе внутренней базы знаний организации. Для этого анализировались текстовые массивы информации о том, как правильно проектировать, какие требования нужно соблюдать и как пользоваться инструментами автоматизации. В архитектуре решения использовались векторный поиск и генеративная LLM-модель. Самым трудоемким этапом в этой работе была обработка данных: было сложно собрать и привести информацию из разных источников к единому формату хранения. Я выбрал эту тему для диплома потому, что у меня есть опыт работы инженером, и я знаю не понаслышке, как сложно искать информацию в нормативной документации. Будь у меня такой инструмент раньше, он значительно упростил бы мне работу и сократил время проектирования. За время обучения на программе «Анализ данных в девелопменте» я бы отметил не только полученные навыки, но и общение с преподавателями и одногруппниками. Два года обучения — это постоянный поток новых знаний и обмен опытом. Это бесценно, и такой атмосферы не найти больше нигде. Советую выбрать эту программу, потому что она сочетает современный прикладной подход, развивает навыки в области машинного обучения и погружает в увлекательный мир девелопмента. Как аналитик данных из этой сферы могу уверенно сказать: работы много, без дела не останетесь.
Екатерина Сталева
Темой моей магистерской диссертации стала разработка системы автоматического распознавания нарушений правил парковки и детекции автомобильных номеров на основе анализа изображений. В рамках проекта был создан сервис приема жалоб, охватывающий весь путь от фотографирования пользователем нарушения до разбора инцидента сотрудниками соответствующих служб. Система включает в себя множество ступеней, поэтому для обучения моделей использовались различные датасеты: для детектирования автомобилей, номерных знаков, нарушений парковки, а также специализированный размеченный датасет с российскими номерами для задач оптического распознавания текста. Идея проекта возникла из личного опыта. Прошлым летом около моего дома открыли новую набережную, и в выходные дни автомобили стали массово парковаться на газонах, тротуарах и поверх пожарной разметки. Кроме того, при посещении друзей в крупных жилых комплексах с закрытыми дворами я увидела, насколько масштабна эта проблема. В условиях чрезвычайных ситуаций доступ для экстренных служб часто оказывается заблокированным. Поэтому я решила найти технологическое решение для автоматизации сбора и обработки жалоб. В качестве модели детектирования была выбрана классическая архитектура YOLO. Для задачи распознавания текста сравнивались подходы на основе трансформеров и сверточно-рекуррентных нейросетей (CRNN). Развертывание решений производилось с использованием Triton Inference Server, Docker и «Яндекс Облака». Для взаимодействия с пользователем был создан Telegram-бот, через который можно отправить фотографию предполагаемого нарушения. Наибольшую сложность в ходе реализации проекта представила работа с данными. Открытых датасетов по данной теме крайне мало, а сбор собственного только в зимний период невозможен. К тому же из-за плотного рабочего графика собирать данные удавалось в основном ночью. Учебная программа магистратуры дала нам комплексные знания по различным направлениям, включая машинное обучение, MLOps и проектирование баз данных. Эти дисциплины оказались особенно полезными в процессе разработки и внедрения проекта. Также запомнились интересные курсовые работы и тематические экскурсии. Сразу вспоминается четырехчасовая контрольная работа, которую почти никто не успел выполнить полностью.
Никита Куров
Темой моей ВКР был автоматизированный подбор планировки квартиры на основе предпочтений клиента. Ее суть заключалась в создании рекомендательной системы для различных планировок квартир. В качестве данных брались все действия пользователей на сайте Самолет. В качестве самой архитектуры рекомендательной системы я выбрал несколько многослойных перцептронов (MLP), сравнил их и выбрал лучший. Самая большая трудность, на мой взгляд, заключалась в логике формирования признаков для обучения, то есть в том, чтобы придумать логику для каждой фичи, которая была бы полезна для обучения нейронной сети. Такую тему я выбрал, так как работаю аналитиком рекомендательных систем, и мне было интересно поработать в этой области. Машинное обучение, на мой взгляд, — это самый важный навык, который я приобрел во время обучения. Это основа основ, без которой тяжело погрузиться в другие области науки о данных. Больше всего запомнились крутые преподаватели и мероприятия от Самолет. Абитуриентам программы я бы посоветовал меньше нагружать себя на работе и больше учиться, пока есть возможность. Я в один момент слишком много на себя взял, из-за этого качество моего обучения ухудшилось. Сейчас понимаю, что те драгоценные пары уже позади, а самому лень изучать то, что пропустил мимо ушей.
Артём Мантуров
Моя работа посвящена задаче 3D-детекции объектов, преимущественно зданий, на фотографиях и последующей реконструкции городских сцен. Основная сложность исследования заключалась в полном отсутствии подходящих датасетов и готовых архитектур. Для ее решения я создал синтетический датасет, реалистично имитирующий фотографии городской застройки. В дальнейшем я использовал сверточные нейронные сети для анализа изображений, оптимизационные методы — для построения корректных облаков точек, а трансформеры — для согласования различных видов представления сцены. Тема заинтересовала меня своей прикладной значимостью: с аналогичными задачами я сталкивался в работе с несколькими организациями. Особенно привлекательным показалось сочетание высокой актуальности, отсутствия готовых решений и необходимость анализа пространственных геометрических структур. Последнее, на мой взгляд, представляет особый исследовательский интерес. Одним из профессиональных вызовов стало обучение нейросетей с переменной размерностью целевой переменной — ранее я с этим не сталкивался, и это потребовало значительных усилий и времени на понимание и адаптацию архитектур. Наибольшую ценность в обучении для меня представляло глубокое, математически обоснованное объяснение механизмов машинного и глубинного обучения, а также практическая работа с ними. Эти знания быстро нашли применение в моей профессиональной деятельности. Я ожидал, что в магистратуре все будет незнакомо, непонятно и непостижимо сложно. В реальности вся новая информация доносилась интересно, доходчиво и прекрасно воспринималась мной. Удивило количество возможностей для получения разнонаправленных знаний, в том числе факультативы и МагоЛего. Самые запомнившиеся моменты обучения — это напряженные недели перед сессиями. Но в целом последние два года для меня — это спокойные, вдохновляющие вечера после работы, когда я с радостью спешил на пары, чтобы узнать что-то новое и пообщаться с интересными и близкими по духу людьми. Будущим студентам хочу пожелать не упускать возможности: использовать все, что может дать программа, и стремиться получить максимум знаний и навыков, которые обязательно пригодятся в будущем.
Дмитрий Сатаев
Тема моей выпускной квалификационной работы — распознавание текста из таблиц документов. Основная идея проекта — сделать систему, которая сможет находить таблицы на изображениях и извлекать из них структурированные данные, чтобы с ними можно было удобно работать. Для решения этих задач я использовал методы компьютерного зрения и распознавания текста. Таблицы находила модель YOLO, которую я обучил на датасете TableBank — в нем более 400 тысяч изображений. А чтобы получить текст и понять структуру таблицы, я применил оптическое распознавание текста в связке с моделью ruT5-ASR, которая также помогала исправлять ошибки распознавания. Я выбрал эту тему, поскольку она объединяет сразу несколько направлений, которые мне интересны: компьютерное зрение, глубинное обучение и обработку естественного языка. Важно, что у проекта есть практическое применение: такие решения могут использоваться в бизнесе, автоматизации документооборота и во многих других задачах. Хотелось, чтобы диплом был полезным на практике и вызывал интерес продолжать работу даже после защиты. Из сложностей — было непросто работать с изображениями плохого качества, часто таблицы были перекошены, с шумами или слабым контрастом. Также пришлось разобраться с тем, чтобы правильно группировать ячейки и собирать из них строки и столбцы. Распознавание текста тоже не всегда справлялось, особенно с необычными шрифтами или плохо читаемым текстом. Наконец, интеграция всех компонентов в одну работающую систему потребовала много доработок. Больше всего мне запомнился курс «Глубинное обучение» — материал был подан очень понятно и интересно, а четкие и продуманные домашние задания помогли по-настоящему разобраться в теме. Отдельно хочется отметить курс по MLOps: там я получил практический опыт работы с Docker и развертыванием моделей, что очень пригодилось в дипломном проекте. Также очень запомнились занятия по инструментам анализа данных с Яном Пиле — на них мы детально разобрали множество алгоритмов и их сложность. Было не только полезно, но и действительно интересно. Наша программа включает в себя широкий спектр дисциплин, связанных с машинным обучением, анализом данных и искусственным интеллектом. Она разработана таким образом, чтобы быть понятной и доступной как для новичков без опыта в этой области, так и для тех, кто уже имеет техническую базу и стремится углубить свои знания. Первый выпуск совместной магистерской программы «Анализ данных в девелопменте» успешно завершил обучение. Защита дипломных работ показала, что выпускники приобрели все необходимые компетенции для работы, а представленные проекты продемонстрировали практическую ценность полученных знаний и их применимость для решения актуальных задач.