Digitalizzare l'archivio del Corriere del Ticino


A proposito del Corriere del Ticino...
Il Corriere del Ticino è il principale quotidiano della Svizzera Italiana, fondato nel 1891 da Agostino Soldati. Fa parte di un gruppo multimediale che comprende giornali, siti online, radio e televisione.
Un tesoro di carta
L’archivio storico del Corriere del Ticino conta circa 1 milione di pagine, ed è costituito da più di 120 anni di documenti, rappresentando un vero tesoro di informazioni.
Preservare il passato, abbracciare il futuro
La digitalizzazione di questo vasto archivio ha offerto l'opportunità di ridurre lo spreco di risorse e aumentare l'efficienza operativa. Grazie alla conversione digitale di questi documenti, che ha reso istantanei la ricerca e il recupero dei dati, il Corriere del Ticino può ora accedere facilmente e rapidamente a qualsiasi informazione.
Inoltre, la digitalizzazione aumenta la sicurezza e la conservazione a lungo termine dei documenti, riducendo il rischio di danni fisici o perdite irrimediabili e preservando il patrimonio storico del Corriere del Ticino per le future generazioni.


Elaborazione digitale
di documenti cartacei
In Goodcode abbiamo strutturato un software con un algoritmo geometrico in grado di rilevare con accuratezza la struttura degli articoli.
Una volta scansionati i documenti, l'intero processo di digitalizzazione è completamente automatizzato: non è necessaria attività umana per l'elaborazione, neppure per eventuali correzioni manuali. In questo modo, viene minimizzato l’effort a favore di una maggiore efficienza operativa e di una valorizzazione delle risorse umane.
Caratteristiche principali
-
Implementazione della tecnologia OCR
-
Segmentazione degli articoli
-
Ricomposizione testuale degli articoli
-
Ordine di lettura corretto (da una colonna all’altra, fronte retro e testi interrotti)
-
Rilevamento di tabelle, titoli, sottotitoli e pubblicità
-
Rilevamento interruzioni
-
Riconoscimento di caratteri speciali e caption


Riconoscimento dei caratteri all'interno della pagina
Grazie alla tecnologia ML di Amazon Textract, siamo stati in grado di estrarre i testi, le tabelle e le immagini, non trascurando alcuna informazione importante. A questo punto, siamo andati oltre i limiti della tecnologia OCR, che non garantisce sempre un'estrazione accurata di testi da immagini. L'algoritmo che abbiamo costruito affina infatti il processo di ricostruzione e ricombinazione del testo, superando il problema e consentendo la digitalizzazione accurata della pagina.
Segmentazione e correzione dell'ordine di lettura
Gli articoli di giornale possono dimostrarsi realmente complessi e difficili da analizzare. In una pagina compaiono più articoli e descrizioni, didascalie, citazioni e perfino pubblicità. Grazie agli API è possibile stabilire il corretto ordine di lettura anche su layout complessi, in quanto è in grado di distinguere le sezioni logiche presenti nell'articolo con estrema precisione.
Risultati
Grazie all'utilizzo dell'algoritmo geometrico e della tecnologia ML di Amazon Textract, è stato possibile digitalizzare e ordinare l'archivio storico in modo accurato e automatizzato.
Abbiamo ottenuto più di 30TB di pagine scannerizzate in alta risoluzione, lavoro realizzato in circa 9 mesi. Questo ha permesso al Corriere del Ticino di tutelare e protrarre nel tempo 120 anni di documenti, conservandoli in modo semplice e sicuro.
La soluzione sviluppata per Il Corriere del Ticino non è vincolata esclusivamente all'ambito degli archivi storici, ma può essere estesa con successo alla digitalizzazione di documenti amministrativi complessi e a una vasta gamma di contenuti frammentati.
"Goodcode ci ha fornito un prodotto chiavi in mano senza problemi né ritardi."
Alessandro Colombi — Gruppo Corriere del Ticino SA, CEO
Sei interessato al nostro software di elaborazione dei documenti? Contattaci!

Digitalizzare l'archivio storico per avere accesso immediato alla documentazione e renderla sempre facilmente consultabile nel corso del tempo
Vai al progetto
Fornire una piattaforma sicura e centralizzata per monitorare e seguire la performance delle attività di investimento
Vai al progetto
Automatizzare i processi operativi, dalle iscrizioni fino alla fatturazione e gestione dei corsi, migliorando l'usabilità per le famiglie e facilitando il lavoro del team
Vai al progetto