您的位置：首页 > 菜鸟学院 > 验证码的未来：扒一扒reCAPTCHA的那些事

验证码的未来：扒一扒reCAPTCHA的那些事

来源：互联网　|　时间：2015-02-05 11:42:39 |　阅读：94　|　　 |　分享到：

reCAPTCHA的诞生及意义

CMU（卡耐基梅隆大学）设计了一个名叫reCAPTCHA的强大系统，让电脑去向人类求助。具体做法是：将OCR（光学自动识别）软件无法识别的文字扫描图传给世界各大网站，用以替换原来的验证码图片；那些网站的用户在正确识别出这些文字之后，其答案便会被传回CMU。

reCAPTCHA是利用CAPTCHA的原理（CAPTCHA的中文全称是全自动区分计算机和人类的图灵测试），借助于人类大脑对难以识别的字符的辨别能力，进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。也就是说，reCAPTCHA不仅可以反spam（垃圾邮件），而且同时还可以帮助进行古籍的数字化工作（可以称为人工OCR）。

每次reCAPTCHA会显示两个单词让人来识别，其中一个是需要用户识别的难认词，另外一个是答案已知的真正的CAPTCHA 词。软件将能够正确识别CAPTCHA词的用户看作是人类，当CAPTCHA 词被正确识别出来后，程序会纪录用户对无法阅读的词的回答并将其添加到它的数据库中。这样就完成了一次人工的OCR识别。过程如图1.

验证码的未来：扒一扒reCAPTCHA的那些事

(图1)

为了改善软件的精确性， reCAPTCHA 会将最困难的词发送给多个用户并挑选其中有相同答案的作为正确的答案。据说准确率能够达到99%。用户每使用一次这个程序，实际上就是在帮助数字重现1908年《纽约时报》上的某一页，或者其它古书中的一页，这对考古学具有重大的意义。

下面是一个在使用reCAPTCHA进行注册验证的网站实例（图2）：

验证码的未来：扒一扒reCAPTCHA的那些事

(图2)

reCAPTCHA被Google收购

reCAPTCHA在 2009 年被 Google 收购。之后国外陆续有一些网站的 reCAPTCHA 的验证码内容发生了变化，所显示的不再仅仅是古籍文字，而是还有照片——照片的一侧显示的是大家熟悉的扭曲的文字，另一侧则是模糊的数字，这些数字无疑就是街道地址，Google 的一位发言人介绍说，该系统并不局限于街道地址，街道名称甚至交通标志也会被包含进去。图例如图3.

验证码的未来：扒一扒reCAPTCHA的那些事