Кто использует ваши данные? Новая технология для отслеживания использования ваших личных данных в Интернете

По мере того как все больше наших данных перемещается в Интернет, более серьезной проблемой может быть их непреднамеренное неправильное использование людьми, имеющими к ним доступ. Кажется, что каждый месяц приносит новую историю частной информации, случайно просочившейся правительственными агентствами или поставщиками цифровых продуктов или услуг.В то же время более жесткие ограничения доступа могут подорвать весь смысл совместного использования данных.

Координация между агентствами и поставщиками может быть ключом к качественной медицинской помощи; вы можете захотеть, чтобы ваша семья могла делиться фотографиями, которые вы публикуете в социальной сети.Исследователи из группы децентрализованной информации (DIG) Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) считают, что решение может заключаться в прозрачности, а не в неизвестности.

С этой целью они разрабатывают протокол, который они называют «HTTP с подотчетностью» или HTTPA, который будет автоматически отслеживать передачу личных данных и позволяет владельцу данных проверять, как они используются.На июльской конференции IEEE по конфиденциальности, безопасности и доверию Ошани Сеневиратне, аспирант Массачусетского технологического института в области электротехники и информатики, и Лалана Кагал, главный научный сотрудник CSAIL, представят доклад, который дает обзор HTTPA и представляет пример приложения, включающего систему медицинских записей, которую Сеневиратн реализовал в экспериментальной сети PlanetLab.DIG возглавляет Тим ​​Бернерс-Ли, изобретатель Интернета и основатель 3Com, профессор инженерии в Массачусетском технологическом институте, и он делит офисные помещения с Консорциумом всемирной паутины (W3C), организацией, также возглавляемой Бернерсом-Ли, которая курирует разработку веб-протоколов, таких как HTTP, XML и CSS.

Роль DIG заключается в разработке новых технологий, использующих эти протоколы.С HTTPA каждому элементу частных данных будет назначен свой собственный унифицированный идентификатор ресурса (URI), ключевой компонент семантической паутины, нового набора технологий, отстаиваемых W3C, которые преобразовали бы Интернет, по сути, из набора текстовые файлы с возможностью поиска в гигантскую базу данных.

Удаленный доступ к веб-серверу будет контролироваться так же, как и сейчас, с помощью паролей и шифрования. Но каждый раз, когда сервер передавал часть конфиденциальных данных, он также отправлял описание ограничений на использование данных. И он будет регистрировать транзакцию, используя только URI, где-нибудь в сети зашифрованных серверов специального назначения.HTTPA будет добровольным: разработчики программного обеспечения должны будут придерживаться его спецификаций при проектировании своих систем.

Но соответствие HTTPA может стать аргументом в пользу компаний, предлагающих услуги по обработке личных данных.«Превратить существующий веб-сайт в веб-сайт с поддержкой HTTPA не так уж сложно, — говорит Сеневиратне. «На каждый HTTP-запрос сервер должен сказать:« Хорошо, вот ограничения на использование этого ресурса »и зарегистрировать транзакцию в сети специализированных серверов».HTTPA-совместимая программа также несет определенные обязанности, если она повторно использует данные, предоставленные другим HTTPA-совместимым источником. Предположим, например, что специалист-консультант в сети врачей желает получить доступ к данным, созданным лечащим врачом пациента, и предположим, что он желает дополнить данные своими собственными записями.

Затем ее система создаст свою собственную запись со своим собственным URI. Но, используя стандартные методы семантической паутины, он пометил бы эту запись как «производную» от записи PCP и пометил бы ее теми же ограничениями использования.

Сеть серверов — это то место, где происходит тяжелая работа. Когда владелец данных запрашивает аудит, серверы работают по цепочке производных, идентифицируя всех людей, получивших доступ к данным, и то, что они с ними сделали.Seneviratne использует технологию, известную как распределенные хеш-таблицы — технологию, лежащую в основе одноранговых сетей, таких как BitTorrent, — для распределения журналов транзакций между серверами. Резервное хранение одних и тех же данных на нескольких серверах служит двум целям: во-первых, оно гарантирует, что в случае отказа некоторых серверов данные останутся доступными.

Во-вторых, он позволяет определить, пытался ли кто-нибудь вмешаться в журналы транзакций для определенного элемента данных — например, удалить запись о незаконном использовании. Сервер, чьи журналы отличаются от журналов его коллег, будет легко найти.

Чтобы протестировать систему, Сеневиратне построил элементарную систему медицинских записей с нуля и заполнил ее данными, предоставленными 25 добровольцами. Затем она смоделировала набор транзакций — посещение аптек, направление к специалистам, использование анонимных данных в исследовательских целях и тому подобное, — которые, по словам добровольцев, произошли в течение года.Сеневиратне использовал 300 серверов на PlanetLab для хранения журналов транзакций; в экспериментах система эффективно отслеживала данные, хранящиеся в сети, и обрабатывала цепочки вывода, необходимые для аудита распространения данных между несколькими поставщиками.

На практике серверы аудита могут поддерживаться в простой сети, как и серверы, на которых размещаются файлы BitTorrent или регистрируются транзакции Биткойн.