reCAPTCHA — система, разработанная в университете Карнеги Меллона для защиты веб-сайтов от интернет-ботов и одновременной помощи в оцифровке текстов книг. Является продолжением проекта CAPTCHA[1]. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. На начало 2011 года reCAPTCHA осуществляла оцифровку архивов газеты «The New York Times» и книг, доступных в Google Book Search.

reCAPTCHA
Логотип программы reCAPTCHA
Скриншот программы reCAPTCHA
Тип краудсорсинг
Авторы
  • Luis von Ahn
  • Ben Maurer
  • Colin McMillen
  • Harshad Bhujbal
  • Manuel Blum
Разработчик Google
Первый выпуск 27 мая 2007; 17 лет назад (2007-05-27)
Сайт google.com/recaptcha
Логотип Викисклада Медиафайлы на Викискладе

Весной 2012 года Google запустил эксперимент по распознаванию изображений из Google Maps и Google Street View с помощью сервиса ReCAPTCHA[2]. По состоянию на июль 2013 года, в сервисе ReCAPTCHA продолжают предлагаться для распознавания фрагменты снимков из Google Street View; как правило, это фрагменты, на которых изображены номера зданий. Таким образом, первоначальный девиз ReCAPTCHA — Stop Spam, Read Books — сегодня имеет мало общего с тем, для каких целей на самом деле используется эта система.

В самом начале 2015 года ReCAPTCHA была обновлена. Теперь пользователю предлагают просто поставить галочку в чекбоксе, после нажатия на чекбокс пользователю могут предложить выбрать все картинки, которые попадают под заранее установленные условия — например, выбрать все мотоциклы.

Принцип работы

править

reCAPTCHA практически не поддается обману программой распознавания текста. Второе слово берется из источника, требующего распознавания (например, книги). Проверка и прохождение «капчи» осуществляется по тому слову, которое известно системе. Неизвестное второе слово вводить не обязательно. Второе слово, введённое пользователем, сохраняется в системе и используется в качестве возможного варианта распознавания. Окончательное распознавание слова производится путём выбора слова, наиболее часто используемого для ввода. Система reCAPTCHA предоставляет пользователям изображения для распознавания и собирает результаты, после чего передает их организаторам оцифровки материалов[1].

Влияние

править

Система широко используется такими сайтами, как Facebook, TicketMaster[англ.], Twitter, StumbleUpon, Steam (10 января 2015), «Живой журнал» и примерно 350 000 других сайтов. В день оцифровывается примерно 100 миллионов слов, что может давать примерно 2,5 миллиона книг в год. Количество отдельных людей, которые помогли оцифровать как минимум одно слово из книги, оценивается в 750 миллионов человек[1]. Эффективность подобного метода достаточно высока, поскольку системе предоставляется несколько распознанных вариантов.

Поскольку слова выводятся в случайном порядке, то неизбежно возникают курьёзные сочетания слов. Это породило интернет-мем «inglip», когда люди делают снимок экрана двух слов, предоставленных системой reCAPTCHA и дорисовывают курьёзные рисунки[1].

Критика

править

При подключении данного сервиса к сайту вам предлагают ограниченное количество запросов бесплатно. Алгоритмы reCAPTCHA умышленно выстраивают так чтобы пользователь делал как можно больше запросов,что приводит к превышению бесплатного лимита и вынуждает владельца сайта перейти на платную версию. Пользователи вынуждены вводить в два раза больше текста, чем требуется для данной формы теста Тьюринга, не получая за это никакого вознаграждения. Доход от использованного распознанного текста остаётся корпорации Google. Требуется работа JavaScript и в случае использования устаревшего браузера, посетителю навязывается обновление на браузер Google.

Тем не менее, держатели сайтов вправе оставить за собой выбор способа защиты от ботов.

При слишком частых запросах CAPTCH’и с одного IP адреса reCAPTCHA становится почти нечитаемой, что сильно осложняет её ввод при использовании программного обеспечения Tor (так как частота запроса капчи с выходных узлов тора намного больше, чем с обычного пользовательского IP). Кроме того, в подобных случаях оба слова, предлагаемых пользователю для распознавания, являются проверяемыми, то есть reCAPTCHA начинает действовать как любая другая система для защиты от ботов. Однако после очередного обновления алгоритма в reCaptcha заход на сайт стал затруднительным для многих пользователей, так, если человек зайдёт на сайт и начнёт разгадывать антибот, то она будет слишком медленной, но даже после того как он решит данную задачу правильно, антибот-система не зачтёт его ответ и попросит выбрать снова верные картинки, которые опять будут обновляться очень медленно, в итоге пользователь может потратить некоторое время (от нескольких минут) на решение данной задачи. Также появилось блокирование доступа к разгадыванию капчи с определённого IP-адреса, что делает невозможным использования её при входе на сайт, и хотя с динамическим ip-адресом можно назначить себе новый путём переподключения, статический ip не сможет быть использован.

Текстовые реализации

править

Пользователь не обязан вводить оба слова. Одно из них не проверяется, узнать его довольно легко: в разное время проверяемое слово «зашумлялось» двойным контуром, линиями и геометрическими искажениями. К тому же в непроверяемое слово иногда попадаются знаки препинания, текст на других языках, математические формулы и т. п. Также у непроверяемого слова возможна инверсия цветов фона и букв.

Сложное непроверяемое слово, оторванное от контекста, может быть опознано неверно. Например, Captain Infernet (Луи-Антуан Инфернэ́, участник Трафальгарской битвы) иногда опознавали как Internet[3].

Графические реализации

править

Некоторые картинки с трудом распознаются даже человеком. Возможны проблемы с неопределённостью вопроса, например: необходимо отметить автобусы, а на изображении троллейбус; выбор витрин может быть не очевиден, если показан застеклённый вход в здание.[источник не указан 122 дня]

Примечания

править
  1. 1 2 3 4 Луис фон Ан: Массовое онлайн-сотрудничество Архивная копия от 6 июня 2012 на Wayback Machine // конференция TED, 2011
  2. Peretz Sarah. Google Now Using ReCAPTCHA To Decode Street View Addresses (англ.) (29 марта 2012). Дата обращения: 14 августа 2012. Архивировано из оригинала 18 августа 2012 года.
  3. The Gentleman's Magazine and Historical Chronicle. (англ.). Google Books. Дата обращения: 12 февраля 2012. Архивировано 23 мая 2013 года.

Ссылки

править
  • Официальный сайт системы reCAPTCHA  (англ.)
  • Luis von Ahn, Benjamin Maurer, Colin McMillen, David Abraham and Manuel Blum. reCAPTCHA: Human-Based Character Recognition via Web Security Measures // Science. — 12.09.2008. — Vol. 321, № 5895. — P. 1465—1468. — doi:10.1126/science.1160379.
  • Луис фон Ан: Массовое онлайн-сотрудничество // конференция TED, 2011
  • Патент на Google patents.
  • Hutchinson Alex. ReCAPTCHA: The job you didn't even know you had (англ.). The Walrus (29 марта 2012). Дата обращения: 18 сентября 2012. Архивировано из оригинала 24 ноября 2011 года.
  • Paul Baecher, Niklas Büscher, Marc Fischlin and Benjamin Milde. Breaking reCAPTCHA: A Holistic Approach via Shape Recognition // Future Challenges in Security and Privacy for Academia and Industry. — Springer Boston, 2011. — Vol. 354. — P. 56-67. — (IFIP Advances in Information and Communication Technology). — ISBN 978-3-642-21423-3. — doi:10.1007/978-3-642-21424-0_5.