reCAPTCHA - Bücher lesen gegen Spam

26. May 2007 - 13:49 -- Maximilian Sterz

So genannte "Captchas" sind ein beliebtes Mittel der Spam-Bekämpfung. Um zu beweisen, dass sie keine Spam-Bots, sondern Menschen aus Fleisch und Blut sind, müssen Internetnutzer täglich millionenfach unleserliche Buchstabenfolgen abtippen.

Eigentlich eine ziemliche Zeitverschwendung, die zusammengerechnet 150.000 Arbeitsstunden pro Tag in Anspruch nimmt. Diese Zeit sinnvoller zu nutzen hat sich das Projekt reCAPTCHA auf die Fahnen geschrieben. Dort digitalisiert man alte Bücher per "Optical Character Recognition" (OCR), wobei das Programm manchmal einzelne Wörter nicht richtig erkennt - eine Überprüfung durch den Menschen ist notwendig.

Hier kommen die Millionen Captcha-abtippender User ins Spiel, die nun keine sinnlosen Buchstabenfolgen mehr vorgesetzt bekommen, sondern eben jene eingescannten Wörter, die vom OCR-Programm nicht erkannt werden konnten. Aber woher weiß der Computer dann, ob das eingetippte Wort korrekt ist? Ein ausgeklügelter Mechanismus macht dies möglich:

Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.

reCaptcha gibt es auch als Plugin für WordPress, Drupal, MediaWiki, phpBB und viele weitere Content Management Systeme.