
Метод, получивший название FRAUDAR, знаменует собой последнюю эскалацию игры в кошки-мышки, в которую играют онлайн-мошенники и платформы социальных сетей, которые пытаются их обмануть. В частности, новый алгоритм позволяет увидеть сквозь маскировку, которую мошенники используют, чтобы выглядеть законно, сказал Христос Фалаутсос, профессор машинного обучения и информатики.
В реальных экспериментах с использованием данных Twitter для 41 человека.7 миллионов пользователей и 1.47 миллиардов подписчиков, FRAUDAR обнаружил более 4000 учетных записей, ранее не идентифицированных как мошеннические, в том числе многие из них использовали известные сервисы подписки, такие как TweepMe и TweeterGetter.
«Мы не обнаруживаем здесь ничего криминального, но такого рода мошенничество может подорвать веру людей в онлайн-обзоры и поведение», — сказал Фалаутсос. Он отметил, что большинство платформ социальных сетей пытаются избавиться от таких подделок, и подход FRAUDAR может быть полезен для того, чтобы идти в ногу с последними практиками мошенников.
Алгоритм CMU доступен в виде открытого исходного кода по адресу http: // www.Эндрю.КМУ.edu / user / bhooi / camo.застегивать.
В прошлом месяце на конференции Ассоциации вычислительной техники по открытию знаний и интеллектуальному анализу данных (KDD2016) в Сан-Франциско исследовательская статья с описанием алгоритма была удостоена награды за лучшую работу.
Фалаутсос и его команда по анализу данных специализируются на интеллектуальном анализе графиков, методе поиска закономерностей в данных. В этом случае взаимодействия в социальных сетях отображаются в виде графика, где каждый пользователь представлен в виде точки или узла, а транзакции между пользователями представлены в виде линий или ребер.
Самым современным средством обнаружения мошенников с помощью таких инструментов, как NetProbe от Faloutsos, является обнаружение паттерна, известного как «двусоставное ядро»."Это группы пользователей, у которых есть много транзакций с членами второй группы, но нет транзакций друг с другом. Это предполагает наличие группы мошенников, единственная цель которых — завышать репутацию других, следуя за ними, ложно взаимодействуя с ними или публикуя лестные или нелестные обзоры продуктов и предприятий.
Но мошенники научились маскироваться, сказал Фалаутсос. Они связывают свои мошеннические учетные записи с популярными сайтами или знаменитостями или используют законные учетные записи пользователей, которые они взломали. В любом случае они стараются выглядеть "нормально"."FRAUDAR может избавиться от этого камуфляжа.
По сути, алгоритм начинается с поиска учетных записей, которые он может с уверенностью идентифицировать как законные — учетные записи, которые могут подписываться на нескольких случайных людей, те, которые публикуют только случайные обзоры, и те, которые в остальном имеют нормальное поведение. Эта обрезка происходит многократно и быстро. По мере того, как эти законные аккаунты удаляются, мошенники полагаются на маскировку.
Это упрощает обнаружение двудольных ядер.
Чтобы протестировать алгоритм, Фалаутсос и его ученики использовали огромную базу данных Twitter, извлеченную из платформы социальных сетей в 2009 году для исследовательских целей. FRAUDAR обнаружил более 4000 учетных записей, которые выглядели очень подозрительными, хотя большинство твитов не были удалены, и учетные записи не были приостановлены в течение семи лет с момента сбора данных. Исследователи случайным образом выбрали 125 подписчиков и 125 подписчиков из подозрительной группы, а также две контрольные группы из 100 пользователей, которые не были выбраны алгоритмом.
Они проверили каждую на наличие ссылок, связанных с вредоносным ПО или мошенничеством, и на предмет явного поведения роботов, например, ответы на большое количество твитов с идентичными сообщениями. Они обнаружили, что 57 процентов подписчиков и 40 процентов подписчиков в подозрительной группе были отмечены как мошенники, по сравнению с 12 процентами и 25 процентами в контрольных группах.
Среди подозрительных учетных записей исследователи обнаружили 41 процент подписчиков, а 26 процентов подписчиков включали рекламу услуг подписки — 62 процента и 42 процента соответственно, если удаленные или приостановленные учетные записи игнорируются.
В контрольных группах таких упоминаний немного.
«Алгоритм очень быстрый и не требует от нас никого нацеливаться», — сказал Фалаутсос. «Мы надеемся, что, сделав этот код доступным в виде открытого исходного кода, платформы социальных сетей смогут найти ему хорошее применение."
