Il riconoscimento ottico dei caratteri, o semplicemente OCR, permette di trasformare un documento cartaceo passato sotto scanner in un documento digitale modificabile e integrabile – mediante l’ausilio di un editor di testo – come ad esempio Word e simili, in altro documento. Per farlo, vi segnaliamo un software che, nelle situazioni non critiche (testo stampato e non scritto a mano) riesce ad assolvere egregiamente al proprio compito pur essendo completamente gratuito: FreeOCR.
Installazione
Dalla homepage del sito del prodotto, clicchiamo sul pulsante Download per scaricare il programma sul PC. Terminato il download avviamo l’installazione del software. Prima dell’uso, occorre installare i file per la lingua italiana in modo che possano essere riconosciuti dal programma anche i testi scritti nella nostra lingua.
Possiamo farlo collegandoci all’indirizzo indicato: nella pagina visualizzata facciamo clic sul collegamento “Click Here for filtered list” dall’elenco che appare e scarichiamo il file tesseract-2.00.ita.tar.gz in una cartella sul nostro PC. Terminato anche questo passaggio scompattiamo il file compresso e avviamo il software FreeOcr.
Una volta aperto il programma facciamo clic sul menu Settings e scegliamo la voce “Open Language Folder”. A questo punto copiamo nella cartella aperta i file della lingua precedentemente scaricati. Terminata l’operazione chiudiamo e riapriamo il programma per rendere operative le modifiche apportate. Se tutto è andato a buon fine, dovremmo notare la dicitura ita all’interno della casella OCR language.
Primo OCR
L’operazione di riconoscimento potrà avvenire sia da scanner che da file salvato su nostro hard disk. I formati supportati da Free OCR sono svariati (tif, jpg, bmp, gif, png e pdf).
Qualora decidessimo di acquisire un documento dallo scanner occorre innanzitutto fare clic sul pulsante Scan (Scan new document), scegliere il dispositivo di acquisizione e utilizzare come impostazione di acquisizione una risoluzione di 300 dpi in scala di grigio (se il documento contiene solo testo), altrimenti possiamo scegliere di acquisire a colori, mantenendo la risoluzione a 300 dpi.
OCR da file
Per aprire un file immagine precedentemente acquisito da scanner, facciamo clic sul pulsante Open, sezioniamo il file, e portiamolo nel programma con Apri. Ad operazione conclusa, possiamo avviare il riconoscimento agendo sul pulsante OCR (Start OCR).
Pulitura testo
Il risultato finale dipende dalla chiarezza e leggibilità del testo originale e dalla “pulizia” del file (occorre far in modo che oltre al testo non ci siano elementi come ombre, righe ecc.). Per effettuare l ‘ operazione di pulitura selezioniamo lo strumento Selection tool e poi evidenziamo il testo che ci interessa: con il testo selezionato, facciamo clic nuovamente su Selection tool e – dal menu a tendina che appare – scegliamo la voce Crop image to selected area.
Aree di testo
Se il testo da acquisire contiene formule o simboli è bene escludere tali elementi dalle operazioni di OCR in quanto, con buona probabilità, non verrebbero riconosciuti correttamente. Per compiere tale operazione basterà selezionare con il puntatore del mouse le porzioni di testo da convertire e, man mano, premere il tasto OCR.
Opzioni e modifiche
Ad acquisizione avvenuta, possiamo apportare eventuali correzioni al testo agendo direttamente su di esso nella parte destra della schermata. Conclusa anche la fase di correzione possiamo esportare il testo utilizzando i comandi posti nella barra centrale (raggiungibili anche dal menu Text). Le possibilità sono tante: possiamo infatti decidere di salvare il tutto con estensione .txt ( pulsante a forma di dischetto), copiare il testo negli appunti (tasto con due fogli sovrapposti) o esportare il tutto in un file Word.
Testo con immagini
Se nel testo compaiono immagini, occorre riconoscere il testo con lo strumento di selezione mentre per le immagini basterà slezionarle, premere nuovamente il tasto A e scegliere il comando “Copy Selection to Clipboard” in modo da copiare l’immagine negli appunti di Windows. Così facendo, potremo incollare l’immagine in un documento Word.