Новый алгоритм для распознавания спама изобретен биологами исследовательского центра TJ Watson в Нью-Йорке, принадлежащего компании IBM. Он основан на методе, который используется учеными для анализа генетических последовательностей, сообщает BBC News.
Работа над алгоритмом, названным "Чунг-Квей" (Chung-Kwei), начались около года назад. Ученые взяли за основу алгоритм "Терезиас" (Teiresias), который был создан для поиска отличающихся ДНК и аминокислот в повторяющихся образцах. Разработчики полагают, что алгоритм может использоваться в различных областях, не только в биологии.
Письма электронной почты воспринимаются алгоритмом "Чунг-Квей" как молекулы ДНК, состоящие из множества символов. Перебирая письмо за письмом, программа накапливает собственную базу последовательностей символов, встречающихся в двух и более письмах. К примеру, слово "Виагра", найденное в нескольких тысячах писем, было внесено в базу шаблонов спама, и в дальнейшем сообщения, содержащие данное слово, будут распознаваться как нежелательные.
При проведении тестовых испытаний на проверку 88 тысяч сообщений программой было потрачено 15 минут, и в 97 процентах случаев алгоритм верно распознал почтовый мусор.
IBM полагает, что алгоритм "Чунг-Квей" станет самым эффективным инструментом против спама. Разработчикам осталось провести некоторые предварительные проверки перед выпуском программы в продажу. По их словам, в работе им очень помог огромный объем спама, который они получают на своем рабочем месте.