Нейросети раскрыли личные данные пользователей соцсетей

arXiv: языковые модели использовали для раскрытия данных людей в интернете

Фото: Ilya Pavlov / Unsplash

Швейцарские ученые выяснили, что языковые модели можно использовать для получения данных о посетителях интернета. Результаты исследования были опубликованы на сервере препринтов arXiv.

Специалисты Федерального института технологий (ETH Zurich) из Швейцарии Робин Стааб и Марк Веро подтвердили, что большие языковые модели (LLM) могут собирать и раскрывать личные данные пользователей. В качестве примера ученые взяли 1,5 тысячи случайных профилей с площадки Reddit и проанализировали их активность с помощью LLM.

В материале говорится, что нейросети проверили аккаунты в соцсетях и сообщения 1,5 тысячи пользователей, а затем сузили их число до 520 человек. Авторы отметили, что LLM смогли уверенно определить место рождения и жительства, а также уровень дохода людей, которые владели этими аккаунтами.

Так, языковая модель GPT-4 смогла идентифицировать многие атрибуты с высокой степенью точности — 85 процентов, LlaMA-2-7b, — 51 процент.

«Это говорит нам о том, что мы выдаем много личной информации в интернете, не задумываясь об этом», — заявил Робин Стааб. По его словам, например, данные о доходах люди сообщали в соответствующих тредах на Reddit, не подозревая, что их могут раскрыть.

В середине октября швейцарские ученые заявили, что чат-боты с искусственным интеллектом могут раскрывать и собирать персональную информацию от пользователя. По словам специалистов, полученными данными могут пользоваться мошенники.

Лента добра деактивирована.
Добро пожаловать в реальный мир.
Бонусы за ваши реакции на Lenta.ru
Как это работает?
Читайте
Погружайтесь в увлекательные статьи, новости и материалы на Lenta.ru
Оценивайте
Выражайте свои эмоции к материалам с помощью реакций
Получайте бонусы
Накапливайте их и обменивайте на скидки до 99%
Узнать больше