15.08.2008, 15:16:58
Версия для печати | PDA/КПК  
Принт-скрин с сайта recaptcha.net
Принт-скрин с сайта recaptcha.net

Защита от спама поможет оцифровать книжные архивы

Ученые приспособили программу CAPTCHA, которая различает компьютеров и людей в Сети, для перевода бумажных текстов, созданных в "докомпьютерную" эпоху, в цифровой формат. Созданная американскими специалистами программа reCAPTCHA при помощи пользователей интернета позволяет расшифровывать тексты с более чем 99 процентной точностью. Как сообщают создатели reCAPTCHA в своей статье, опубликованной в журнале Science, к настоящему моменту программа перевела из "аналога" в "цифру" 440 миллионов слов.

Разработанная в Университете Карнеги-Меллона в Питтсбурге программа CAPTCHA (от англ. Completely Automated Public Turing test to tell Computers and Humans Apart - полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) позволяет определить, кем является пользователь системы: машиной или человеком. Перед выполнением какого-либо действия (например, отправки e-mail-сообщения или регистрации на форуме) CAPTCHA просит пользователя распознать какое-либо слово или набор букв и/или цифр и ввести его с клавиатуры. Для человека подобная операция не составляет труда, однако оптические считывающие устройства, применяемые, например, программами по рассылке спама, часто не справляются с этой задачей.

Интернет-пользователи используют программу CAPTCHA около 200 миллионов раз в день. Исходя из расчета, что на распознавание и ввод одного слова (или набора букв и цифр) у человека, в среднем, уходит 10 секунд, специалисты из Университета Карнеги-Меллона подсчитали, что ежедневно человечество "теряет" около 500 тысяч часов печатного времени. Ученые решили употребить его для оцифровки книжных и газетных архивов.

Первым шагом для перевода бумажных текстов в цифровой формат является их "прочтение" с помощью оптических считывающих устройств. Из-за дефектов, возникших при хранении (например, пожелтения бумаги или расплывания шрифта) сканеры не могут распознать, в среднем, одно слово из пяти. Сомнительные слова расшифровываются вручную. reCAPTCHA перекладывает эту задачу на пользователей Сети. Программа отбирает неопознанные слова и предлагает их интернетчикам вместо обычного набора CAPTCHA. Если три пользователя опознают сомнительное слово одинаково, reCAPTCHA добавляет этот вариант в финальный текст.

Работа программы была протестирована на архивах газеты The New York Times. reCAPTCHA успешно перевела в "цифру" ее подшивку за 1908 год. Сейчас она "взялась" за следующие выпуски. Кроме того, интернет-пользователи с помощью reCAPTCHA оцифровывают книги из архива Internet Archive.

reCAPTCHA - не первая программа, которая использует "фоновую" активность пользователей Сети или их компьютеров для выполнения сложных монотонных действий (принцип распределенных вычислений). Проект SETI использует свободные ресурсы компьютеров пользователей интернета для расшифровки сигналов радиотелескопов. На сайте сlimatprediction.net желающие могут скачать программное обеспечение, которое будет проверять различные математические модели изменения климата и оценивать, как сильно влияют на общую картину небольшие изменения параметров.



[ Обсудить с другими читателями ]
[ Сообщить о найденной опечатке ]
URL: http://lenta.ru/news/2008/08/15/recaptcha/  
Последние новости
26.05 04:51 Во второй по величине город Сирии впервые ввели танки
26.05 05:31 Европейский грузовик скорректировал орбиту МКС
26.05 08:54 Сознавшегося в убийстве 33-летней давности назвали шизофреником
26.05 07:42 В Москве полицейский застрелил автоугонщика
26.05 07:08 Клуб Ковальчука вышел в финал Кубка Стэнли
26.05 06:45 Ксению Собчак отстранили от участия в премии Муз-ТВ

Аутсайд

Hosted.ap.org: Wanted: Bigfoot hair samples for European study
И немного лженауки! Ученые проведут генетический анализ волос Бигфута, чтобы узнать, что же это за таинственное создание
CPA Australia: An Audience with Neil Armstrong
Уникальное интервью с Нилом Армстронгом. Оно уникально потому, что он почти не дает интервью в принципе
Andr? Kuipers: A small step towards Mars
Оказывается будущей марсианской миссии можно помочь диетой. Узнай по ссылке как!
NASA: Canadarm2 to Catch SpaceX's Dragon on its Maiden Voyage to the ISS
Красивая канадская компьютерная графика, в которой наглядно показано, как Dragon пристыкуется к МКС
Washington Post: How Thomas Edison, Mark Zuckerberg and Iron Man are holding back American innovation
История о том, как идея ученых-одиночек мешает инновациям. Хм, интересно, откуда в американской газете типично российская лексика?

Прогресс
25.05 20:12 Первый частный космический грузовик пристыковался к МКС
25.05 19:03 Компьютер сумел отличить улыбку от усмешки
25.05 18:20 Крупнейший в мире радиотелескоп разделят на две страны
25.05 17:00 Марсианский углерод оказался вулканическим
25.05 13:57 Самолет на солнечных батареях завершил первую часть рекордного перелета
25.05 12:49 Ученые расшифровали SOS-сигналы нейронов

Предположительный внешний вид ихтиостеги. Изображение с сайта arizona.edu
25.05 12:08
Ученые выяснили, что первые наземные животные не умели ходить
Самые интересные
24.05 19:04
Ученые выбрали занятные организмы, открытые в 2012 году
24.05 12:16
Астроном нашел доказательства существования "планеты Икс"

 
© ООО "Лента.Ру" (1999-2012)
Лицензия Минпечати Эл No ФС77-42043
Дизайн — Студия Артемия Лебедева, 2004
О сервере | Реклама | Письмо в редакцию | Техподдержка
Система Orphus Ramler_Top_100