• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анонимизация конфиденциальной информации с использованием алгоритмов машинного обучения в системах больших данных

ФИО студента: Пивницкий Идель Сергеевич

Руководитель: Баранов Петр Александрович

Кампус/факультет: Высшая школа бизнеса

Программа: Системы больших данных (Магистратура)

Год защиты: 2018

В настоящее время многие компании внедряют интеллектуальные системы с алгоритмами машинного обучения и искусственным интеллектом для улучшения своих бизнес-процессов и сокращения расходов. Однако сложно, и часто невозможно, предоставить данные с наличием конфиденциальной информации сторонней аутсорсинговой компании или даже другому отделу этой же компании. В большинстве случаев отдел безопасности не одобряет передачу или обмен данными. Данная работа посвящена разработке и внедрению алгоритма анонимизации данных для их дальнейшего экспорта третьим лицам без раскрытия конфиденциальной информации. Исследовательская часть проекта направлена на определение подходящего алгоритма машинного обучения в области распознавания именнованных сущностей в тексте для обнаружения конфиденциальной информации в полуструктурированных и неструктурированных наборах данных. В разработанном решении используется искусственная нейронная сеть на основе двунаправленных блоков LSTM в сочетании с алгоритмом классификации условных случайных полей для обнаружения конфиденциальной информации в неструктурированных данных. Алгоритм разработан на базе платформы для распределенных вычислений Apache Spark, с использование фреймворка для глубинного обучения TensorFlow для обеспечения возможности масштабирования и анонимизации данных компаний любого размера, а также интеграции с популярными системами обработки и трансформации данных. Полученный анонимизированный набор данных сохраняет все зависимости исходной версии, предоставляя возможность дальнейшего анализа и исследования данного набора специалистами, избегая утечки конфиденциальной информации клиента.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ