Улучшение доступности медицинских данных с использованием дифференциальной приватности

ФИО студента: Дорноступ Ольга Сергеевна

Руководитель: Лисицын Сергей Олегович

Программа: Системы больших данных (Магистратура)

Год защиты: 2020

В современном мире огромные объемы данных непрерывно собираются, где-то хранятся и анализируются. Часть этих данных содержит персональные данные людей и их личную информацию, из-за чего считаются конфиденциальными и крайне уязвимыми (sensitive). В процессе интеллектуального анализа данных, последующей публикации результатов, агрегированных данных, статистики по ним, или при передаче данных между источниками, постоянно возникают «утечки данных», что в конечном счете может привести к раскрытию персональной информации. Ярким примером такого типа данных являются электронные медицинские карты, истории болезней, и другие коллекции данных о пациентах, собираемые в секторе здравоохранения. С одной стороны, анализ медицинских данных или публикация статистики по заболеваемости расширяет общие знания о здоровье населения, позволяет предсказывать возможные заболевания и предотвращать их на ранних стадиях, проводить исследования по созданию новых лекарств и т.д. Но с другой стороны, доступ с таким данным крайне ограничен, а самих данных не так уж и много, потому что люди неохотно деляться любой информацией, связанной с их здоровьем. Это происходит, главным образом, из-за недоверия к возможным пользователям их личных данных и к потенциальному способу их использования. К сожалению, классические подходы к защите персональных данных, основанные на концепции анонимизации данных, не способны противостоять атакам на пользовательские данные при которых хакеру известна какая-то дополнительная информация об индивидах, чья информация содержится в атакуемой базе (background knowledge attack). В данной работе я рассматриваю популярный, на текущий момент, математический подход, обеспечивающий надежную защиту данных против такого рода атак и называемый дифференциальной приватностью. Целью моего исследования было эмпирически поверить возможность обеспечить конфиденциальным данным необходимый уровень защиты и одновременно сохранить их ценность в использовании при анализе. В частности, моим фокусом была практическая реализация некоторых алгоритмов машинного обучения способных обеспечить дифференциальную приватность данных, используемых в этих моделях. В результате было показано, что для конкретных задач качество статистических алгоритмов остается на приемлемом уровне, в то время как конфиденциальность индивидов (пациентов), на чьих данных происходило обучение моделей, сохраняется.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ