• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Пивницкий Идель Сергеевич
Anonymization of Sensitive Information using Machine Learning Algorithms in Big Data Systems
Системы больших данных
(Магистратура)
2018
Most companies nowadays desire to have intelligent systems with Machine Learning and Artificial Intelligent algorithms to improve their business operations and reduce expenses. However, it is hard and often impossible for the company to provide data with sensitive customers’ information to another outsourcing company or even to another department of the same company. In most cases, security department will not approve data transfer or data sharing.

This project documents development and implementation of a solution for data anonymization before exporting datasets from the original storage. The research part of the project aims to identify a suitable Machine Learning algorithm in the named entity recognition domain for detection of sensitive information in semi-structured and unstructured data. The developed solution uses Artificial Neural Network based on Bidirectional LSTM units in conjunction with Conditional Random Fields classification algorithm for detection of sensitive information in semi-structured and unstructured datasets. The final solution utilizes Apache Spark and TensorFlow frameworks for scalable distributed computing to satisfy needs of organizations of any size and integration with standard big data processing and ETL pipelines. Anonymized dataset keeps patterns and dependencies of the original version to be suitable for future analysis and investigation by Data Scientists, without leaking customer sensitive information.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР