• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы статистического понижения размерности

ФИО студента: Тагарова Бэлла Александровна

Руководитель: Панов Владимир Александрович

Кампус/факультет: Отделение статистики, анализа данных и демографии

Программа: Бакалавриат

Год защиты: 2014

<p style="text-align: center;"><strong>Методы статистического понижения размерности</strong></p><p>&nbsp;</p><p align="right"><strong><em>Тагарова Б. А.</em></strong></p><p align="right"><strong><em>Москва, НИУ ВШЭ</em></strong></p><p align="right"><strong><em>&nbsp;Научный руководитель<br />к.т.н., доц. Панов Владимир Александрович.</em></strong></p><p><br />На сегодняшний день человечество генерирует более 1000 эксабайт&nbsp; данных каждый год.&nbsp; Данное обстоятельство приводит нас к резкому развитию технологий по сбору данных, а также к возможности анализировать имеющуюся информацию. Поэтому сегодня изучение различных явлений подразумевает работу с данными высокой размерности, что приводит нас к двум основным проблемам: во-первых, для получения достоверной оценки модели с данными высокой размерности необходима большая выборка, для сбора которой требуются большие затраты времени и средств, во-вторых, нецелесообразно затратным является проведение анализа больших массивов данных. На данный момент технологии, которые вводятся в России и за рубежом (такие как BIG DATA), позволяют решить эту проблему. Поиск оптимального решения первой проблемы до сих пор остается открытым вопросом.</p><p>Существует множество областей, где анализ данных высокой размерности является актуальным на данный момент&nbsp; - геномика, науки об окружающей среде, бизнес-аналитика, а также аналитика социальных медиа.</p><p>Как пример, рассмотрим одну из указанных выше областей - геномику. Геномика &mdash; раздел молекулярной генетики, посвящённый изучению генома и генов живых организмов. Количество информации, содержащееся во всех молекулах ДНК одного человека, более чем в 100 раз больше информации, которую генерирует все человечество за&nbsp; один год. Поэтому перед генетиками встает важный вопрос о максимальном сокращении размерности данных перед непосредственным анализом изучаемой проблемы.</p><p>Все указанное выше обуславливает актуальность и практическую значимость&nbsp; изучения техник понижения размерности данных.</p><p>Объектом исследования является задача понижения размерности данных.</p><p>Предметом исследования являются три техники понижения размерности данных:</p><ul><li>Minimum average variance estimation method (MAVE-метод),</li><li>Outer product of gradients estimation method (OPG-метод),</li><li>Inversed minimum average variance estimation method (iMAVE-метод)</li></ul><p>Целью работы является проведение сравнительного анализа статистических методов понижения размерности данных.</p><p>В соответствии с целью поставлены следующие задачи исследования:</p><ul><li>Изучить современные техники снижения размерности данных и ограничений, которые накладываются на модель для доказательства эффективности предложенных подходов.</li><li>Провести сравнительный анализ методов, используя сопоставление скоростей сходимости методов.</li><li>Провести симуляции для сравнения эффективности методов.</li></ul><p>В первой главе данной работы задается вид регрессионных моделей и приведено теоретическое обоснование выбранных техник понижения размерности. Вторая глава посвящена описанию алгоритмов техник понижения размерности данных. В третьей главе описаны результаты проведенных симуляций для всех рассматриваемых моделей в данном исследовании.</p>

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ