Yahoo! публично делиться статистикой частоты паролей примерно для 70 миллионов пользователей.«Это первый раз, когда крупная компания обнародовала частотную информацию о паролях пользователей», — сказал Анупам Датта, доцент кафедры информатики, электротехники и вычислительной техники в CMU. «Это та информация, которую законные исследователи могут использовать для оценки воздействия нарушения безопасности и принятия обоснованных решений о защите паролем.
Это чрезвычайно ценно, поэтому мы надеемся, что другие организации последуют примеру Yahoo».Исследователи представят свой метод в среду на симпозиуме по безопасности сетей и распределенных систем в Сан-Диего. Их метод искажает числа в наборе данных, поэтому список является «дифференциально частным», точное математическое определение, которое гарантирует, что опубликованная статистика не покажет, включен ли пароль какого-либо конкретного человека в набор данных.
Речь идет не о реальных паролях или идентификаторах пользователей, а о списках частоты паролей — количестве раз, когда пароли выбираются группой пользователей. В упрощенном случае с 10 пользователями, если восемь пользователей выбирают «123456» в качестве пароля, а два пользователя выбирают «abc123», список частот будет (8,2).Списки частотных паролей для больших групп пользователей могут быть проанализированы, чтобы помочь организациям установить политики аутентификации, которые уравновешивают безопасность и удобство использования, или предсказать, какие учетные записи пользователей наиболее уязвимы, сказал Джеремия Блоки, постдокторант в Microsoft Research, который начал это исследование в то время как пост-доктор в Карнеги-Меллон.
Но получить доступ к спискам частот сложно из-за возможности неправильного использования. По словам Блоки, списки частот сами по себе не помогают хакерам идентифицировать отдельные пароли, но потенциально могут предоставить важные подсказки, если будут ссылаться на другие базы данных. Например, в предыдущем примере, если злоумышленник знал пароли для девяти из 10 пользователей, было бы детской забавой вычислить 10-й пароль, зная, что частота равна (8,2).
Большинство компаний неохотно предоставляют доступ к своим спискам частот, поэтому исследователи довольствуются данными, которые были обнародованы непреднамеренно, такими как 32 миллиона учетных записей пользователей несуществующего сайта социальных приложений RockYou, данные которого были нарушены в 2009 году.Несколько лет назад Джозеф Бонно, научный сотрудник Стэнфордского университета и научный сотрудник Electronic Frontier Foundation, получил образцы частоты паролей от Yahoo. Он смог опубликовать некоторую агрегированную статистику, но Yahoo не разрешила ему публично делиться необработанными данными из-за возможных проблем с конфиденциальностью.«Вот эти данные, которые были невероятно полезны для таких людей, как я, но мы не могли получить к ним доступ», — сказал Блоки.
Таким образом, Блоки, Датта и Бонно создали новый алгоритм, который добавляет достаточно искажений в списки частот, чтобы сделать их бесполезными для хакеров, но при этом позволяет исследователям видеть высокоуровневые шаблоны, которые они ищут в данных.Их алгоритм основан на мощном дифференциально закрытом инструменте, называемом экспоненциальным механизмом, который вносит минимальные искажения, но в целом не является эффективным с вычислительной точки зрения.
Используя математическую структуру, присущую списку частотных паролей, исследователи смогли разработать эффективную с точки зрения вычислений версию экспоненциального механизма, адаптированную к этим спискам.«Благодаря нашему новому подходу мы можем предоставить точные гарантии конфиденциальности», — сказал Бонно. «Я надеюсь, что это убедит больше организаций публично обмениваться данными о паролях и потенциально других данных, которые могут быть полезны для безопасности».Блоки сказал, что если дополнительные организации выпустят списки частотных паролей, это позволит исследователям изучить влияние различных политик паролей.
Этот метод также можно распространить на социальные сети, что позволит изучать списки распределения степеней, которые отслеживают количество друзей пользователей, и на более сложные структуры данных.Это исследование было поддержано Национальным научным фондом, Управлением научных исследований ВВС США, Институтом теории вычислений Саймонса и Фондом открытых технологий.

