Переведение в цифровую форму старого текста и борьба со спамом, также

текст

В следующий раз веб-сайт просит, чтобы Вы прочитали вереницу изогнутых писем как предосторожность безопасности, не гримасничать. Вы могли помогать оцифровать ухудшающийся исторический документ. Бригада программистов взяла общий интернет-инструмент для того, чтобы отсортировать спам и адаптировала его, чтобы помочь преобразовать текст из старых книг и рукописей в электронные файлы. Усилие не могло бы поместить профессиональный transcribers из бизнеса, но это могло сократить расходы создания цифровых библиотек.

В сражении между Веб-проектировщиками безопасности и спаммерами, программами под названием Полностью Автоматизированная Общественность испытание Тьюринга для сообщения Компьютеров и Людей Обособленно (КАПЧА) доказало эффективную фольгу. Программы требуют, чтобы онлайновые пользователи прочитали искаженное слово или линию текста и перепечатали его в определяемой коробке — что-то, что могут сделать немного оптических сканеров или читателей цифрового текста. Коварные программы, развернутые спаммерами, могут проникнуть через места, такие как Gmail и снять их списки адреса электронной почты.

КАПЧИ блокируют попытку путем требования дополнительного шага прежде, чем обеспечить доступ. Они используются онлайн приблизительно 200 миллионов раз каждый день.Программист Луис фон Ан из Университета Карнеги-Меллон в Питтсбурге, Пенсильвания и коллегах думал, что все эти усилия могли быть приложены к другому использованию, также. «Начиная с каждого [КАПЧА] занимает приблизительно 10 секунд человеческого времени», говорит фон Ан, «мы полагали, что человечество в целом тратило впустую приблизительно 500 000 часов каждый день, печатая». И так много времени составило ценный ресурс в усилиях оцифровать старые книги с ухудшающимися страницами и исчезло текст.

Бригада развила новую программу, названную reCAPTCHA, собирающим слова, сигнализируемые как нечитабельные оптическими сканерами, поскольку они оцифровывают тексты. Те слова, в форме компьютера оптические просмотры, тогда посылают в сотрудничающие веб-сайты и используют вместо случайных КАПЧЕЙ. Программное обеспечение представляет тот оптически нечитабельное слово и одно слово КАПЧИ «контроля». Разбирание в слове контроля идентифицирует пользователя как человека, и программа делает запись его или ее ответа на нечитабельное слово и добавляет его к базе данных.

Для улучшения точности еще больше reCAPTCHA посылает самые трудные слова многочисленным пользователям и выбирает ответ согласия как правильный. Этот процесс может прикрепить больше чем 99% слов точно, сообщает бригада онлайн сегодня в Науке.reCAPTCHA система теперь автоматически забирает приблизительно 4 миллиона ответов каждый день из 40 000 веб-сайтов, эквивалента людей 1500 года рабочий полный рабочий день и расшифровка 60 слов в минуту, говорит фон Ан. Обслуживание, доступное по www.recaptcha.net, свободно к любому веб-сайту, просящему его.

После года операции reCAPTCHA помог решить приблизительно 440 миллионов слов для пользователей клиента, оцифровывающих архивы газеты и документа; фон Ан говорит, что его бригада просто закончила весь архив 1908 года от Нью-Йорк Таймс, например.Специалист в области информатики Пол Кэнтор из Университета Ратджерса в Нью-Брансуике называет reCAPTCHA «прекрасной идеей». Это создает возможность продать труд третьих лиц заинтересованным клиентам, он говорит, все за счет «самое большее, доля секунды больше» для генерации преимущества — «ничего себе!» И шифровальщик Джош Бенэлох из Microsoft Research в Редмонде, Вашингтон, говорит, что подход «является простым, блестящим, и делает людей, слышащих об улыбке идеи при выяснении у себя, ‘Почему я не думал об этом?’»

4 комментария

  1. Прекратить подачу электроэнергии произведенной в Украине на временно оккупированную территорию АР Крым. — поддержим петицию на сайте Президента Украины

Добавить комментарий