«За тобой наблюдают» Изобретен механизм, который избавит интернет от зла. Как он работает?: Coцсети: Интернет и СМИ: Lenta.ru

Разрушить человеку жизнь, заставить уехать из страны или довести до самоубийства — люди, которые занимаются травлей в интернете, нередко добиваются таких результатов. Попытки бороться с хейтом в интернете с помощью закона принимают многие страны (например, Великобритания и Германия), однако решить проблему это не помогает. Им на помощь пришли технологии: стремясь побороть зло в интернете, австралийские ученые разработали алгоритм, умеющий находить в сообщениях сексизм и женоненавистничество. Во время работы над алгоритмом их ждало неожиданное открытие. Об этом и о многом другом «Ленте.ру» рассказала профессор Ричи Наяк, феминистка и специалистка по машинному обучению из Квинслендского технологического университета.

«Лента.ру»: Откуда у вас интерес к разработке алгоритмов для борьбы с мизогинией, или женоненавистничеством, в интернете? Вы феминистка?

Наяк: Я сама не занимаюсь гендерными исследованиями. Я инженер и программистка, моя сфера интересов — это создание алгоритмов по распознаванию текста. Ранее я работала над алгоритмами, которые помогали организациям обрабатывать большие массивы текстов для решения каких-либо управленческих задач. Когда я презентовала результаты очередной разработки в моем университете, это привлекло внимание коллег, занимающихся социальными науками. Они подумали, что можно было бы использовать те же алгоритмы, чтобы находить и распознавать в интернете женоненавистнические комментарии. Так получился этот проект.

1/1Фото: страница Richi Nayak в Facebook

С какими трудностями вы столкнулись при разработке антихейтерского алгоритма?

Одна из трудностей заключалась в том, что алгоритмы, которые мы разрабатывали раньше, в основном базировались на распознавании отдельных слов. Но в случае с мизогинными комментариями ситуация несколько иная: дело в том, что одни и те же слова могут быть как оскорбительными, так и безобидными — все зависит от контекста. Некоторые термины, которые мы можем определить как маячки абьюзивных сообщений, могут оказаться просто элементом неформальной речи — их, например, могут использовать в дружеской переписке подростки, которые так шутят. Именно поэтому оказывается так сложно определить, какой контент является мизогинным, а какой — нет.

Как вы отбирали твиты, которые послужили основой для обучения модели? Искали и классифицировали их вручную?

Здесь мне очень помогли мои коллеги с факультета социальных наук — они, основываясь на своем опыте, определяли, какой контент является оскорбительным для женщин. Нам повезло, что удалось получить на наше исследование грант — благодаря ему мы наняли ассистента. Задачей ассистента было вручную прошерстить Twitter.

Однако мы столкнулись с неожиданной проблемой: нужно было отсмотреть тысячи твитов, чтобы найти один, удовлетворяющий нашим критериям. Тогда мы решили сузить выборку за счет слов-маркеров — как я уже говорила, это не идеальный способ, но он хотя бы позволяет первично отфильтровать весь контент и найти подозрительные сообщения. Мы использовали для поиска твитов такие слова, как «шлюха», «шкура» и другие оскорбления в адрес женщин.

Так нам удалось собрать около пяти тысяч твитов. Из них 40 процентов оказались действительно мизогинными — их мы и использовали в дальнейшем для обучения модели. 60 процентов сообщений были безобидными. Мы понимаем, что при таком отборе данных мы могли упустить немало твитов, которые были агрессивны по отношению к женщинам, но при этом не содержали прямых оскорблений, но, к сожалению, мы не смогли отобрать их вручную, поэтому таково ограничение нашего исследования.

Если полагаться на наличие оскорбительных слов нельзя, то как определять, какой контент является мизогинным, а какой — нет?

Это хороший вопрос. Как я уже сказала, 60 процентов отобранных по ключевым словам твитов в итоге оказались безобидными, то есть при таком подходе у нас был слишком большой процент ложноположительных результатов. Поэтому мы начали разрабатывать куда более изощренный и умный алгоритм.

Мы строили модель для распознавания твитов на хинди. Для начала мы обучили нашу систему формальному языку. Для этого мы использовали «Википедию» — там более четырех миллионов статей, которые написаны достаточно энциклопедичным языком, без жаргона и без оскорблений. Этот этап помог алгоритму понять общие правила и логику языка, то, как в нем строятся предложения, и так далее. Потом мы перешли к обучению неформальному языку, для этого использовали различные отзывы и обзоры в интернете — в них уже встречаются и оскорбительные, и жаргонные слова, но их все еще не так много.

После того как алгоритм научился и формальному, и неформальному языку, мы представили ему «язык Twitter» на хинди и хинглише (смешанный язык на основе английского языка и различных языков Индии — прим. «Ленты.ру»). Система получила для обучения примерно полмиллиона твитов: так она смогла понять, как общаются люди в Twitter, какой стиль там принят, научилась распознавать популярные аббревиатуры и хештеги. И уже после всего этого мы внедрили наш алгоритм, призванный распознать мизогинные комментарии.

Так система, с учетом общих знаний о языке, понимания языка соцсетей и контекста, определяет, является ли сказанное в конкретном твите шуткой или настоящим оскорблением для женщин.

Вы сказали, что до этого проекта не особенно вовлекались в гендерные исследования. Было ли что-то, что вас поразило в процессе разработки алгоритма — например, какой-то особо шокирующий контент, направленный против женщин?

Должна сказать, что и в процессе этого исследования я не углублялась в изучение самих твитов — я все-таки занималась больше инженерной и программистской частью. Но я все же могу отметить несколько интересных вещей.

1/1Фото: David Gray / Reuters

Во-первых, меня приятно удивило, что нужно было приложить немалые усилия, чтобы найти мизогинные твиты — то есть они встречаются не так часто, как могло бы показаться. Это хорошая новость. Во-вторых, меня поразило то, насколько умным может быть наш алгоритм. Были определенные посты, про которые я думала: ну уж этот твит система никак не сможет распознать, слишком он зависит от контекста! Но нашему алгоритму удавалось превзойти мои ожидания. Нам удалось так хорошо обучить его, что он распознавал как мизогинные и весьма неочевидные сообщения.

Наконец, именно в ходе нашего исследования я особенно четко поняла, насколько это субъективный момент — считать ли определенные комментарии и посты женоненавистническими. После того как модель выдавала нам свой результат, нужно было проверить, сколько твитов она определила правильно, а сколько нет. Так как мы все субъективны, и нет четкой шкалы мизогинности, оценивали твиты группы из нечетного количества человек: цифра 1 означала наличие оскорбительного смысла, 0 — его отсутствие. Каких оценок было больше, тот ответ и считался правильным. И меня поразило, насколько сильно различались показания у разных людей! Тогда стало ясно, что мы вряд ли в обозримой перспективе сможем создать алгоритм, который будет на 100 процентов точным — если даже люди, анализируя это все вручную, не могут однозначно сказать, является ли текст оскорбительным.

Но сейчас ваш алгоритм правильно определяет мизогинные твиты примерно в 80 процентах случаев — есть ли возможность эту точность повысить?

Мы будем продолжать работу над алгоритмом. Один из способов сделать его более точным — по возможности передать и изначальную классификацию твитов машине. Ведь в тот момент, когда человек классифицирует сообщения вручную, он уже создает некое искажение — как мы выяснили, каждый субъективно определяет, что является оскорбительным. В дальнейшем система как бы наследует это искажение — и, соответственно, она становится не такой уж непредвзятой, при том что наша цель — создать максимально объективный инструмент для борьбы с хейтом. Есть способы исправить эту ситуацию: например, если мы создадим некие условия, по которым алгоритм научится сам классифицировать твиты, то человеческий фактор будет устранен, и система будет выступать как некий коллективный интеллект. И если мы и не уберем полностью предвзятость, то сможем ее уменьшить.

1/1Фото: Shannon Stapleton / Reuters

Вторая важная вещь, над которой мы работаем, — это разнообразие данных, на которых обучается модель. Они должны быть репрезентативными, представлять в том числе разные меньшинства, тогда получится повысить точность алгоритма. Уже сейчас мы работаем с неидеальными исходными данными — ведь это посты только из австралийского Twitter, а значит, они уже несут в себе искажения. Twitter в Австралии — достаточно непосредственный, ироничный, даже сатирический. Возможно, он отличается от индийского, хотя язык вроде тот же — а мы строим свою модель только на австралийских данных, и уже здесь проявляется определенная предвзятость. Мы будем с этим бороться — постараемся вносить разнообразие, включать твиты и из других стран и сообществ.

Как вы считаете, может ли использование машинного обучения сделать мир — и особенно интернет — более инклюзивным, более добрым и справедливым местом? Как этого добиться?

Я уже упоминала, что у нас как у разработчиков действительно есть свои искажения и что наши алгоритмы наследуют ту предвзятость, которая есть у разработчиков. Соответственно, если мы сейчас видим, что в крупных компаниях — таких как Google, Facebook, Linkedin и Twitter — мало женщин-разработчиков (в некоторых компаниях их число составляет всего 20-30 процентов), это, безусловно, будет влиять на предвзятость их сервисов. Нужно стремиться к гендерному равенству в среде разработчиков, в том числе и на управленческом уровне, чтобы создаваемые ими продукты были справедливы и к мужчинам, и к женщинам.

Вообще, слабая представленность разных дискриминируемых групп ведет к различным казусам при разработке алгоритмов. Например, в Великобритании запустили систему проверки паспортных фото, которая ошибалась в распознавании черт лица у чернокожих британцев. А корпорации Google в 2015 году пришлось извиняться за то, что ее приложение распознало фото темнокожей пары как горилл. Соответственно, мы понимаем, что средний разработчик в таких компаниях — это, скорее всего, белый гетеросексуальный мужчина: он не очень в курсе особенностей дискриминируемых групп, и при создании алгоритма их проблемы будут либо проигнорированы, либо решены с учетом всех предубеждений, какие есть у разработчика. И поэтому, если мы хотим сделать мир и интернет более инклюзивными и справедливыми, нам нужно, чтобы среди разработчиков были представители самых разных групп населения.

Вы являетесь амбассадором сообщества Queensland Women in Technology (WiT, «Женщины Квинсленда в сфере технологий»). Расскажите подробнее, что это за комьюнити и чем оно занимается?

Я состою в организации, которая объединяет женщин в сфере IT в штате Квинсленд в Австралии. У нас достаточно большое и активное сообщество — одно из самых крупных женских IT-комьюнити в стране: около пяти тысяч участниц, практически каждую неделю что-то происходит: семинары, встречи и так далее.

Сообщество нужно в первую очередь для нетворкинга. Мы знаем, что в «мужском» мире многие важные решения принимаются, когда мужчины ходят вместе в бар или сауну, а женщины как будто исключаются из этого диалога и, соответственно, из процесса принятия решений. Мы понимаем, что знакомства и связи в IT — это важная часть успеха, поэтому мы решили создать собственную организацию, где мы будем обрастать связями и обсуждать проблемы, касающиеся именно женщин в IT. Благодаря этой программе многие узнали об институте менторства и нашли для себя наставника или, наоборот, младшую коллегу, с которой можно поделиться опытом.

Есть ли в вашем сообществе какие-то значимые социальные проекты помимо вашего? Как вы вообще оцениваете перспективы применения data science в социальных науках?

У машинного обучения и data science практически нет ограничений. Можно применять эти технологии в любой сфере, где собрано достаточно данных. В этом смысле социальные науки и какие-то социальные инициативы — не исключение: если у вас достаточно информации, мы можем использовать наши алгоритмы, чтобы решать социальные проблемы.

Другое дело — вопрос финансирования. Сейчас, когда вы задали этот вопрос, я задумалась и поняла, что большая часть проектов, в которых я когда-либо участвовала, финансировалась конкретными организациями. Целью этих проектов была помощь компаниям — например, в процессе принятия решений или автоматизации каких-то их задач, чтобы в конечном итоге они могли работать эффективнее и зарабатывать больше.

На работы, связанные с машинным обучением в социальной сфере, у нас, исследователей, просто мало денег. Мы могли бы попытаться обращаться к благотворительным организациям, но у них самих не хватает средств. Университет требует от нас постоянно приносить гранты, публиковаться в научных журналах — и поэтому, к сожалению, на социальные исследования зачастую попросту нет времени.

Где и как ваш алгоритм может применяться на практике?

Конкретно наша исследовательская группа планирует дальше работать над технической стороной вопроса, чтобы повысить точность распознавания оскорбительных твитов. Мы также будем заниматься инклюзивностью, включая больше данных от разных сообществ и групп людей.

1/1Фото: Ivan Alvarado / Reuters

В целом же, хотя мы изучали только мизогинные сообщения, подобный алгоритм можно распространять на разные формы хейтспича (враждебных высказываний — прим. «Ленты.ру»). Можно использовать его, чтобы отфильтровывать потенциально негативные посты и комментарии в соцсетях, таких как Facebook и Twitter. Или, например, тестировать рекламные слоганы на сексизм и другой оскорбительный контент. Можно также использовать эти алгоритмы, чтобы пресекать оскорбительные выражения при общении с голосовыми помощниками — даже если ты разговариваешь с роботом, агрессия не должна поощряться. Ну и так далее — в общем, потенциальных применений много.

Можно ли использовать алгоритмы, чтобы банить посты или пользователей, если «ручной» режим модерации не всегда работает?

Вы поднимаете очень важную тему — свободы слова и самовыражения. И я полагаю, что технические решения тут нужно использовать с осторожностью. Не думаю, что стоит банить людей только по той причине, что алгоритм нашел в их словах что-то потенциально оскорбительное, однако можно использовать технологии для мониторинга.

Понятно, что сейчас просто физически невозможно тщательно анализировать все те миллионы постов, на которые жалуются пользователи, и поэтому возникают ошибки. А вот если взять алгоритм и с его помощью фильтровать посты и комментарии, находить среди них подозрительные, а затем, например, раз в месяц составлять отчеты, то можно будет выявить страницы и аккаунты с наибольшим количеством хейтспича. И их уже можно рассматривать вручную, анализировать, при необходимости — банить.

Верите ли вы, что таким образом технологии могут сделать нас лучше?

Я думаю, что сама мысль о том, что за тобой наблюдают, сделает людей сдержаннее. Если ты знаешь, что алгоритм может внести тебя в «черный список» за хейт в комментариях, ты будешь тщательнее выбирать выражения. Я верю, что благодаря этому в интернете станет меньше сексизма, расизма, гомофобии и других форм ненависти. Конечно, такие перемены не случатся по щелчку пальцев, но со временем, надеюсь, они произойдут.

< Назад в рубрику