• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Диссертации, представленные на защиту и подготовленные в НИУ ВШЭ

Сортировка:по дате защитыпо имени научного руководителяпо имени соискателя

Показаны работы: 1 - 10 из 17

Влияние структурных и функциональных связей на асимметрию языковых процессов и их нейрональную реорганизациюКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Карпычев Виктор Викторович
Дисс. совет:
Совет по когнитивным наукам
Диссертация посвящена исследованию различных форм нейрональной организации языковой сети – структур серого и белого вещества, участвующих в языковой обработке. В ней рассматриваются влияние связей белого вещества на вовлеченность регионов языковой сети левого полушария и их гомологов в языковую обработку у здоровых испытуемых, и височной фокальной эпилепсии на функциональное взаимодействие регионов языковой сети. В опубликованных работах было показано, что больший объем мозолистого тела, структуры белого вещества, соединяющего оба полушария, приводит к более выраженной вовлеченности регионов височной и теменной долей доминантного полушария для языковой обработки по сравнению с их гомологами. У людей с височной эпилепсией была показана реорганизация всей языковой сети, которая проявлялась в виде изменения структуры локальных модулей сети и нарушения баланса интеграции во всей сети и внутри ее модулей. Это приводило к снижению точности выполнения языкового задания и компенсаторной вовлеченности в языковую обработку областей в недоминантном полушарии. Наконец, учитывая, что развитие височной эпилепсии сопровождается формированием эпилептической сети, участвующей в генерации приступов, в работе было показано повышение точности локализации фокуса этой сети по сравнению с существующими методами локализации. Данный результат позволят точнее проводить оценку пространственного расположения эпилептического фокуса и сопоставлять его с регионами, участвующими в языковых процессах, с учетом их реорганизации.

Модели и методы автоматической обработки неструктурированных данных в биомедицинской областиДокторская диссертацияУченая степень НИУ ВШЭ

Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
11/7/2023
Диссертационная работа представляет собой комплексное исследование, направленное на улучшение эффективности моделей и методов автоматической обработки текстов в биомедицинской области на основе современных языковых моделей архитектуры Трансформер. Разработаны новые модели и методы классификации и извлечения информации, в том числе модель связывания именованных сущностей, оптимизирующая сходство представлений сущностей и концептов, многоязычные модели для распознавания именованных сущностей, мультимодальные методы для обнаружения побочных реакций на лекарственные препараты. Впервые предложены и созданы аннотированные корпуса текстов на английском и русском языках из различных биомедицинских источников: научные абстракты (корпус NEREL-BIO), пользовательские отзывы о лекарствах (RuDReC), электронные медицинские карты (RuCCoN) и клинические испытания. Предложены новые подходы к оценке моделей связывания именованных сущностей. Эффективность предложенных моделей и методов подтверждена в рамках большого числа вычислительных экспериментов и открытых тестирований CLEF eHealth 2017 Task 1, #SMM4H Shared Tasks 2019-2021 годов. Предложенные корпуса, кодовая база и другие материалы находятся в открытом доступе.
Диссертация [*.pdf, 10.78 Мб] (дата размещения 7/27/2023)
Резюме [*.pdf, 1.89 Мб] (дата размещения 7/27/2023)
Summary [*.pdf, 1.81 Мб] (дата размещения 7/27/2023)

Подходы машинного обучения для анализа разрывов раковых геномовКандидатская диссертация

Соискатель:
Челошкина Ксения Сергеевна
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
6/28/2023
Обнаружение и лечение рака являются первостепенными задачами науки и медицины 21 века. Сложность решения этих задач обусловлена сложностью процессов развития рака и гетерогенностью раковых мутаций в геноме. Для изучения мутационных процессов в раковых геномах, определения биомаркеров и генов-драйверов были собраны большие массивы данных раковых геномов и их различных характеристик. Однако несмотря на большое количество доступных данных, мутагенез раковых разрывов еще не был достаточно изучен и качество предсказания раковых разрывов моделями машинного обучения было намного ниже, чем для точечных раковых мутаций. Данная диссертационная работа посвящена комплексному изучению раковых разрывов с помощью методов машинного обучения. В диссертации предлагается подход по предсказанию областей повышенной плотности раковых разрывов на основе омиксных данных с помощью моделей машинного обучения. Предложенный подход был протестирован на реальных данных и превзошел другие известные на тот момент модели машинного обучения. Помимо этого, был изучен вклад различных геномных признаков в формирование областей повышенной плотности разрывов. Также было обнаружено, что области более высокой плотности разрывов более отличимы от остальных участков раковых геномов, чем участки с меньшей плотностью разрывов.
Диссертация [*.pdf, 38.28 Мб] (дата размещения 4/13/2023)
Резюме [*.pdf, 34.12 Мб] (дата размещения 4/13/2023)
Summary [*.pdf, 25.16 Мб] (дата размещения 4/13/2023)

Конструкции глагола как маркер литературных формулКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Буйлова Надежда Николаевна
Дисс. совет:
Совет по филологии
Дата защиты:
4/25/2023
Предлагаемая диссертация посвящена исследованию глагольных конструкций в некоторых жанрах массовой литературы.  Сюжетная и языковая клишированность и стандартизированность такой литературы позволяет описывать ее при помощи так называемых литературных формул, воплощающих культурные темы и стереотипы социума. Литературные формулы изучаются в основном культурологами и литературоведами, но не лингвистами.  В работе мы рассматриваем четыре микрожанра (любовный роман, детектив, научно-фантастический роман и фэнтези), примерно соответствующие литературным формулам «романтическая история», «тайна», «чуждые сущности и состояния» и «приключения», и используем машинное обучение в качестве инструмента их классификации. Так как низкоуровневые признаки (длина текста, длина слова, частеречные характеристики) недостаточно различаются от корпуса к корпусу и не позволяют однозначно отнести текст к той или языковой литературной формуле, в работе на материале корпуса текстов массовой литературы анализируются глагольные конструкции (комплексы вида «глагол + зависимые»), характеризующие один или несколько микрожанров. Методами машинного обучения из текстов выделялись глагольные конструкции. Наиболее значимые для определения микрожанра комплексы мы называем  маркерными, т. е. характерными для определенного микрожанра. Конструкции рассматриваются с точки зрения заполненности глагольных валентностей. В исследовании выделяются полные (словарные), неполные (с опущением субъекта, прямого или косвенного объекта) и расширенные (сирконстантные) глагольные конструкции. Проанализированы и описаны конкретные примеры реализации конструкций в каждом микрожанре. На основе схожести конструкционного профиля сделаны выводы о преобладании в любовных романах и детективах глаголов и конструкций, сопутствующих прямой речи, и полных конструкций в научно-фантастических романах и фэнтези. Предложены также внетекстовые объяснения подобного предпочтения.
Диссертация [*.pdf, 1.15 Мб] (дата размещения 1/30/2023)
Резюме [*.pdf, 377.53 Кб] (дата размещения 1/30/2023)
Summary [*.pdf, 328.58 Кб] (дата размещения 1/30/2023)

Модели связывания именованных сущностей в биомедицинском доменеКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Мифтахутдинов Зульфат Шайхинурович
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/23/2022
Огромный объем текстовых данных в различных источниках представ­ляет широкие возможности для их использования в качестве ресурса, например, в системе здравоохранения. Источниками данных могут вы­ступать социальные сети, базы научных статей, патентов и клинических испытаний. Однако, большая часть этих данных хранится в неструктурированном виде и требует применения методов извлечения информации к ним. Одним из важнейших этапов извлечения информации является связывание именованных сущностей. Данная диссертационная работа посвящена разработке моделей связывания именованных сущностей в биомедицинском домене. В работе предложены модели на основе классификационного подхода, которые успешно применены к решению задачи связывания именованных сущностей. Также разработаны модели, основанные на классификационном подходе, с использованием векторов семантической близости в качестве дополнительных признаков. Другая предложенная модель связывания именованных сущностей - DILBERT, которая разработана с помощью обучения метрике (metric learning) и негативного сэмплирования (negative sampling). Данная модель позволяет построить единое векторное пространство для сущностей и концептов. В едином пространстве связывание именованных сущностей осуществляется на основе мер сходства. Оценка всех моделей проведена на 10 корпусах. Также эффективность предлагаемых моделей подтверждена в рамках открытых тестирований  CLEF eHealth 2017 Task 1, Social Media Mining for Health Applications (#SMM4H) Shared Tasks 2019-го, 2020-го и 2021-го годов, где модели показали наилучшие результаты среди остальных команд участников.
Диссертация [*.pdf, 2.29 Мб] (дата размещения 10/18/2022)
Резюме [*.pdf, 950.07 Кб] (дата размещения 10/18/2022)
Summary [*.pdf, 909.49 Кб] (дата размещения 10/18/2022)

Анализ тональности текстов из социальных сетей на основе методов машинного обучения для мониторинга общественных настроенийКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Сметанин Сергей Игоревич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/15/2022
Данная работа посвящена разработка моделей, методов и программных комплексов, предназначенных для мониторинга общественных настроений путем анализа тональности текстовых постов из социальных сетей, написанных на русском языке. Предлагаемые модели и методы открывают путь к дальнейшему развитию мониторинга общественных настроений на основе контента из социальных сетей и позволяют заинтересованным сторонам измерять общественные настроения не только автоматически, но и за прошлые периоды времени. Для анализа настроений были выявлены наиболее эффективные подходы с точки зрения качества классификации русскоязычных текстов. Для решения проблемы отсутствия 100% точности классификационных алгоритмов была предложена новая модель и метод моделирования, позволяющий оценить влияние погрешности ошибочной классификации на вычисляемые индексы общественного настроения. Для расчета индексов настроений была предложена новая модель и метод расчета индекса настроений на основе цифровых следов, учитывающий демографические характеристики пользователей. Предложенные модели и методы были применены к данным социальной сети «Одноклассники» и был рассчитан индекс общественного настроения на основе текстовых постов. Полученный индекс продемонстрировал высокую корреляцию с традиционным опросным Индексом счастья ВЦИОМ.
Диссертация [*.pdf, 12.22 Мб] (дата размещения 10/14/2022)
Резюме [*.pdf, 4.11 Мб] (дата размещения 10/14/2022)
Summary [*.pdf, 4.02 Мб] (дата размещения 10/14/2022)

Неасимптотический анализ случайных объектов в пространствах высокой размерности и приложения к задачам машинного обученияДокторская диссертацияУченая степень НИУ ВШЭ

Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
9/9/2022
В диссертационной работе изучаются неасимптотические неравенства для случайных объектов в пространствах высокой размерности: неравенства сравнения для гауссовских мер, неравенства концентрации для квадратичных форм от марковских цепей, моментные и вероятностные оценки для произведений случайных матриц. Термин неасимптотические здесь означает, что мы имеет дело не с предельными теоремами, а с явными оценками, которые могут быть или безразмерными, или явным образом содержать в себе зависимость от параметра размерности. Полученные неравенства могут представлять, как независимый интерес, так и применяться для теоретического анализа алгоритмов машинного обучения. В частности, в диссертации рассматриваются приложения к задаче снижения дисперсии в алгоритмах МСМС, сходимости алгоритмов линейной стохастической аппроксимации и временной разницы в обучении с подкреплением, а также бутстреп методу и байесовскому оцениванию.
Диссертация [*.pdf, 8.32 Мб] (дата размещения 6/27/2022)
Резюме [*.pdf, 2.02 Мб] (дата размещения 6/27/2022)
Summary [*.pdf, 1.95 Мб] (дата размещения 6/27/2022)

ИК-спектрография и томография тканей человека и их анализ методами машинного обученияКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Коэн Янив
Дисс. совет:
Совет по инженерным наукам и прикладной математике
Дата защиты:
6/2/2022
Диссертация посвящена изучению ИК-спектрографии и томографии тканей человека в реальном времени, на месте, неинвазивно, а также раннему обнаружению и идентификации опухолей с использованием методов машинного обучения.Были проведены экспериментальные расчеты и доклинические (на мышах) исследования, чтобы доказать возможность использования тепловизионного изображения с нагревом или охлаждением для ранней диагностики рака и использования ИК-спектроскопии на человеческих тканях для различения типов тканей.На основе этих работ был представлен инженерный прототип под названием Medical IROS, медицинское устройство для диагностики тканей в реальном времени, которое использует FTIR-спектроскопию и принцип ослабленного полного отражения (ATR) для точной диагностики ткани. Информация полученная и проанализированная в соответствии с этим методом дает точные сведения о биохимическом составе и патологическом состоянии ткани.
Диссертация [*.pdf, 3.56 Мб] (дата размещения 3/30/2022)
Резюме [*.pdf, 371.25 Кб] (дата размещения 3/30/2022)
Summary [*.pdf, 293.27 Кб] (дата размещения 3/30/2022)

Тензорные методы в задачах машинного обученияКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Новиков Александр Витальевич
Руководители
Оселедец Иван Валерьевич, Ветров Дмитрий Петрович
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/16/2021
Машинное обучение позволяет решить все новые и новые задачи, но одновременно с этим растут требования к вычислительным ресурсам как для обучения моделей, так и для применения обученных моделей на практике. Данная диссертация посвящена использованию тензорных разложений (обобщения матричных низкоранговых разложений на многомерные массивы) для ускорения и сжатия нейронных сетей и марковских случайных полей. В работе показано, что при помощи параметризации линейных слоев сверточных нейронных сетей низкоранговыми тензорами можно достичь существенного сжатия моделей без потери качества; предложена модель машинного обучения, позволяющая эффективно учитывать полиномиальные взаимодействия признаков высоких порядков; и получен метод оценки нормировочной константы марковского случайного поля существенно опережающий аналоги по точности работы. Также в работе предложен метод автоматического риманова дифференцирования для многообразия тензоров и матриц низкого ранга и реализована библиотека для работы с разложением в тензорный поезд поддерживающая автоматическое риманово дифференцирование, которая позволит упростить дальнейшие разработки на стыке машинного обучения и тензорных методов.
Диссертация [*.pdf, 2.93 Мб] (дата размещения 9/21/2021)
Резюме [*.pdf, 289.29 Кб] (дата размещения 9/21/2021)
Summary [*.pdf, 238.82 Кб] (дата размещения 9/21/2021)

Оценка вклада онтологической информации в распознавание кореферентных связей на материале русского языкаКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Азеркович Илья Леонидович
Дисс. совет:
Совет по филологии
Дата защиты:
9/17/2021
Диссертационная работа посвящена оценке того, какой вклад вносит информация, не включенная непосредственно в высказывание, в успешное распознавание кореферентных связей, на материале русского языка. Несмотря на то, что важность информации такого рода, как правило, подразумевается исследователями в своих работах, полноценной оценки роли семантической информации для процесса разрешения кореферентности для русского языка ранее не проводилось. В работе описана семантически мотивированная классификации кореферентных отношений и проведено корпусное исследование частоты их встречаемости, а также проанализирована встречаемость различных классов отношений в зависимости от жанра текста. Также в работе описано несколько этапов экспериментов, опирающихся на разработанную классификацию, с использованием различных способов представления информации и алгоритмов анализа. Результаты экспериментов позволяют сделать вывод о важности семантической информации для задач разрешения кореферентности. Полученные данные представляют как теоретический интерес, так и практическую ценность для разработки систем автоматического анализа.
Диссертация [*.pdf, 1.64 Мб] (дата размещения 7/16/2021)
Резюме [*.pdf, 311.50 Кб] (дата размещения 7/16/2021)
Summary [*.pdf, 143.03 Кб] (дата размещения 7/16/2021)