
Google è ormai il BloB del web; un enorme colosso che avanza nel mondo comprando e acquisendo di tutto, divenendo così, ogni giorno che passa, un enorme gigante digitale, multifunzionale, capace ormai di fare tutto!
I suoi software ormai coprono quasi tutta la sfera delle utilità della rete e dei fabbisogni degli utenti, siano essi “home” o “business“, e sono quasi tutti servizi gratuiti!
Il suo ultimo acquisto è la società ReCaptcha, produttrice del famoso sistema anti-spam basato sul riconoscimento da parte degli utenti, di caratteri più o meno leggibili che non sono prodotti dal computer
Lo avrete visto e/o usato anche qui su TECH-nology, o sul nostro sito madre BAFAN.it, , dove lo abbiamo inserito con successo per combattere i “commenti spam”!

ReCaptcha fornisce ai siti abbonati un’immagine contenente una o più parole, scritte in maniera non lineare e con font non standard, parole che gli strumenti automatici di riconoscimento ottico non riescono a leggere
Gli utenti devono confermare il loro commento, iscrizione o altro, ricopiando le parole visualizzate, questo allo scopo di provare che non sono dei “robot” o peggio dei “bot”
Un sistema ingegnoso e facile..
..ma cosa ha spinto veramente Google all’acquisizione di ReCaptcha ?
A spiegarcelo sono loro stessi nel blog ufficiale, dove il titolo è già tutto un programma!
Insegnare ai computer a leggere!
E’ quindi questo lo scopo ultimo di questa acquisizione: risolvere i problemi tecnici riscontrati con la Optical Character Recognition (OCR) nelle attività di digitalizzazione dei testi danneggiati o con font sconosciuti
Google è recentemente impegnata nella digitalizzazione di molte biblioteche e librerie, con il progetto Google Books, il sistema di ricerca sviluppato che scandaglia i testi di libri digitalizzati e li mette a disposizione integralmente (in caso di diritti d’autore scaduti) o in forma di preview, un compito arduo e con molte difficoltà derivanti appunto dalla difficoltà dei sistemi automatici di riconoscere scritture non lineari, rovinate dal tempo, o scritte con font non canoniche
I CAPTCHA aiutano la macchina a decifrare stralci di testo difficili da identificare
Come spiegano nel blog i due autori :
“–the words in many of the CAPTCHAs provided by reCAPTCHA come from scanned archival newspapers and old books. Computers find it hard to recognize these words because the ink and paper have degraded over time, but by typing them in as a CAPTCHA, crowds teach computers to read the scanned text.”
“Le parole in molti dei CAPTCHA provengono da archivi scansionati di giornali e vecchi libri. I computer incontrano difficoltà nel leggerle perché sia l’inchiostro che la carta si sono rovinati nel tempo, ma digitandole attraverso i CAPTCHA le persone riescono ad insegnare alle macchine a leggere il testo scansionato”
Questo è molto utile a Google per portare avanti gli impegni recentemente assunti nel quadro del Google Books

C’è un ultimo cosa.. ReCaptcha, ha un impegno con il New York Times per digitalizzare 130 anni di archivi entro il 2010, compito adesso acquisito da Goolge che inserisce così un ennesimo tassello al suo progetto di digitalizzazione universale della carta stampata!
A Mountain View gli affari li sanno fare.. ma non avevamo dubbi!
TECH c’è .. e sa pure leggere!
Approfondimenti e link:
GoogleBlog: Teaching computers to read: Google acquires recaptcha





Beati loro che hanno i soldi per comprare!
Comunque il recaptcha è davvero molto utile e cosi anche il progetto google books, se non lo fermano prima le major!
Li fermeranno o limiteranno.. infondo parlano la stessa lingua!
money money money
e.. si!
Beati loro!