Definizione OCR

OCR è l'abbreviazione di Optical Character Recognition, un'espressione in inglese che può essere tradotta come Optical Character Recognition . La nozione è usata in informatica per nominare una procedura che consente di digitalizzare un testo attraverso uno scanner .

Il caso dell'OCR è molto particolare, poiché fornisce al computer un'abilità che è fondamentale per la maggior parte degli esseri umani: la lettura. Vale la pena ricordare che non è un compito facile per nessuno di noi, anche se nel nostro caso di solito impariamo a farlo fin da giovanissimo, motivo per cui acquisiamo una grande abilità, anche quando dobbiamo affrontare una calligrafia difficile da comprendere.

Nonostante il progresso della tecnologia, OCR deve ancora affrontare diversi problemi. Ottenere un sistema digitale per riconoscere un testo scritto a mano, ad esempio, è piuttosto difficile. Il processo di solito incontra degli inconvenienti per segmentare le varie unità di testo. Lo stesso accade quando le parole appaiono molto vicine tra loro.

Altri errori OCR possono apparire quando non c'è abbastanza contrasto tra le parole e lo sfondo. Supponiamo che un testo scritto a caratteri neri sia stampato su un foglio grigio: è probabile che il processo OCR non sia in grado di distinguere lettere e parole .

Non dimentichiamo che, proprio come un'azione apparentemente semplice come camminare per la strada richiede una serie di azioni complementari per evitare ostacoli e proteggere la nostra integrità, la lettura di un testo stampato è il risultato di diversi compiti di ricognizione simultanea, che portiamo avanti fuori quasi inconsciamente, ma ci portano a lavorare.

Di fronte a un testo, il nostro sistema OCR è responsabile della ricerca e del riconoscimento del titolo, dell'identificazione di paragrafi, segni di punteggiatura, spazi tra le parole e le abbreviazioni, tra gli altri elementi, nonché della comprensione delle fonti troppo ornato o disordinato e per completare l'informazione in regioni che hanno subito qualsiasi tipo di usura, come una macchia d'inchiostro o un pezzo di carta mancante.

Raccomandato