Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данныхAlgorithms development for building machine learning pipelines using data–driven natural language processing methods
Соискатель:
Руководитель:
Устюжанин Андрей Евгеньевич (др. работы под рук-вом)
Члены комитета:
Ильвовский Дмитрий Алексеевич (НИУ ВШЭ, к.т.н., председатель комитета), Брыксин Тимофей Александрович (Constructor University Bremen gGmbH, к.т.н., член комитета), Игнатов Дмитрий Игоревич (НИУ ВШЭ, к.т.н., член комитета), Нозик Александр Аркадьевич (МФТИ, к.ф.-м.н, член комитета), Ямщиков Иван Павлович (Высшая Техническая Школа города Вюрцбург (Германия), PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
11/28/2024
Диссертация принята к защите:
2/27/2025
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
5/13/2025
В диссертации рассматривается задача автоматического синтеза конвейеров машинного обучения (МО) из текстовых описаний задач на естественном языке, что является важным шагом в демократизации МО. Представлен фреймворк Linguacodus, который с использованием больших языковых моделей (БЯМ) генерирует компилируемый код из описаний задач, превосходя существующие решения по ключевым метрикам. Создан крупномасштабный корпус Code4ML, включающий 2,5 млн фрагментов кода, который в версии 2.0 дополнен методами планирования задач с использованием БЯМ, что позволило увеличить объем данных на 1,5 раза и улучшить их релевантность. Разработаны методы семантической классификации кода с применением предложенного дерева таксономии и автоматической генерации текстовых описаний задач на основе кода. Работа имеет значительную практическую ценность для автоматизации МО, предоставляя инструменты для снижения барьеров входа как для специалистов, так и для неспециалистов, и открывая перспективы для исследований и промышленного внедрения.
Диссертация [*.pdf, 10.79 Мб] (дата размещения 3/11/2025)
Резюме [*.pdf, 423.64 Кб] (дата размещения 3/11/2025)
Summary [*.pdf, 402.02 Кб] (дата размещения 3/11/2025)
Публикации, в которых излагаются основные результаты диссертации
Berezovskiy V., Gorodilova A., Trofimova E., Ustyuzhanin A. Machine learning code snippets semantic classification (смотреть на сайте журнала)
Drozdova A., Trofimova E., Guseva P., Scherbakova A., Ustyuzhanin A. Code4ML: a large-scale dataset of annotated Machine Learning code (смотреть на сайте журнала)
Trofimova E., Sataev E., Ustyuzhanin A. Linguacodus: a synergistic framework for transformative code generation in machine learning pipelines (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Устюжанин Андрей Евгеньевич (дата размещения 1/14/2025)
Отзыв члена Комитета
- Игнатов Дмитрий Игоревич (дата размещения 4/28/2025)
- Нозик Александр Аркадьевич (дата размещения 4/28/2025)
- Ямщиков Иван Павлович (дата размещения 4/28/2025)
- Брыксин Тимофей Александрович (дата размещения 4/28/2025)
- Ильвовский Дмитрий Алексеевич (дата размещения 4/28/2025)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 13.05.2025). Решением диссертационного совета (протокол № 5 от 29.05.2025) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему
Методы переноса обучения в задачах автоматической обработки текстаКандидатская диссертация
Соискатель: Пугачев Александр Вадимович
Руководитель: Артемова Екатерина Леонидовна
Непредвзятость и оценки неопределённости в задачах анализа текстаКандидатская диссертация
Соискатель: Кузьмин Глеб Юрьевич
Руководитель: Смирнов Иван Валентинович
Методы и алгоритмы ускорения проектирования цифровых схем с использованием машинного обученияКандидатская диссертация
Соискатель: Зунин Владимир Викторович
Руководитель: Романов Александр Юрьевич