Skip to content

Digitalizzare l'archivio del Corriere del Ticino

CDT_Desk_Header
CDT_MB_Header

A proposito del Corriere del Ticino...

Il Corriere del Ticino è il principale quotidiano della Svizzera Italiana, fondato nel 1891 da Agostino Soldati. Fa parte di un gruppo multimediale che comprende giornali, siti online, radio e televisione. 

PROBLEMA

Un tesoro di carta

L’archivio storico del Corriere del Ticino conta circa 1 milione di pagine, ed è costituito da più di 120 anni di documenti, rappresentando un vero tesoro di informazioni.

Oggi, mantenere una raccolta così vasta esclusivamente su supporto cartaceo comporta uno spreco significativo di risorse preziose. Trovare un particolare documento richiedeva infatti molto tempo e sforzo, poiché implicava una ricerca manuale tra montagne di carta.

Problema
SOLUZIONE

Preservare il passato, abbracciare il futuro

La digitalizzazione di questo vasto archivio ha offerto l'opportunità di ridurre lo spreco di risorse e aumentare l'efficienza operativa. Grazie alla conversione digitale di questi documenti, che ha reso istantanei la ricerca e il recupero dei dati, il Corriere del Ticino può ora accedere facilmente e rapidamente a qualsiasi informazione

Inoltre, la digitalizzazione aumenta la sicurezza e la conservazione a lungo termine dei documenti, riducendo il rischio di danni fisici o perdite irrimediabili e preservando il patrimonio storico del Corriere del Ticino per le future generazioni.

Soluzione
CDT_Desk_Problema Soluzione
CDT_MB_Problema_Soluzione
Automazione_Icon White Automazione

Il processo di ricerca delle informazioni e degli articoli è stato velocizzato e reso più efficiente, consentendo un minore impiego di risorse in task dal basso valore aggiunto.

 
Integrazione_Icon White Integrazione

L'integrazione dell'algoritmo geometrico realizzato da Goodcode con lo sfogliatore (in front end) e con Amazon Textract di AWS (in back end) ha reso possibile una transizione impeccabile alla digitalizzazione, garantendo un risultato ottimale.

 
Trasformazione_Icon White Trasformazione

Da 1 milione di documenti cartacei, a 30TB di pagine scannerizzate in alta risoluzione, in 9 mesi. 120 anni di archivio sono stati tutelati e saranno protratti nel tempo, conservandoli in modo semplice e sicuro.

 

Elaborazione digitale

di documenti cartacei

In Goodcode abbiamo strutturato un software con un algoritmo geometrico in grado di rilevare con accuratezza la struttura degli articoli

Una volta scansionati i documenti, l'intero processo di digitalizzazione è completamente automatizzato: non è necessaria attività umana per l'elaborazione, neppure per eventuali correzioni manuali. In questo modo, viene minimizzato l’effort a favore di una maggiore efficienza operativa e di una valorizzazione delle risorse umane.

Caratteristiche principali

  • Implementazione della tecnologia OCR

  • Segmentazione degli articoli

  • Ricomposizione testuale degli articoli

  • Ordine di lettura corretto (da una colonna all’altra, fronte retro e testi interrotti)

  • Rilevamento di tabelle, titoli, sottotitoli e pubblicità

  • Rilevamento interruzioni

  • Riconoscimento di caratteri speciali e caption

CDT_Desk_Elaborazione
CDT_MB_Elaborazione

Riconoscimento dei caratteri all'interno della pagina

Grazie alla tecnologia ML di Amazon Textract, siamo stati in grado di estrarre i testi, le tabelle e le immagini, non trascurando alcuna informazione importante. A questo punto, siamo andati oltre i limiti della tecnologia OCR, che non garantisce sempre un'estrazione accurata di testi da immagini. L'algoritmo che abbiamo costruito affina infatti il processo di ricostruzione e ricombinazione del testo, superando il problema e consentendo la digitalizzazione accurata della pagina.

Segmentazione e correzione dell'ordine di lettura

Gli articoli di giornale possono dimostrarsi realmente complessi e difficili da analizzare. In una pagina compaiono più articoli e descrizioni, didascalie, citazioni e perfino pubblicità. Grazie agli API è possibile stabilire il corretto ordine di lettura anche su layout complessi, in quanto è in grado di distinguere le sezioni logiche presenti nell'articolo con estrema precisione.

Documento di origine Documento di origine Il materiale può essere fornito in formato .pdf o .jpeg. Non ci sono limiti di volumi.
Amazon textract Amazon Textract Il primo step del processo è la tecnologia ML di Amazon Textract, che legge ed elabora i documenti, estraendo accuratamente testi, scrittura a mano, tabelle e altri dati.
OCR Algoritmo geometrico Algoritmo geometrico Il punto di forza che rende unico il progetto: un algoritmo che supera i limiti legati alla tecnologia OCR esistente, garantendo l’ordine di lettura corretto di pagine molto strutturate e complesse.
API json API Abbiamo progettato l'API per essere semplice e flessibile: il sistema restituisce il contenuto strutturato della pagina del giornale in formato .json.

Risultati

Grazie all'utilizzo dell'algoritmo geometrico e della tecnologia ML di Amazon Textract, è stato possibile digitalizzare e ordinare l'archivio storico in modo accurato e automatizzato. 

Abbiamo ottenuto più di 30TB di pagine scannerizzate in alta risoluzione, lavoro realizzato in circa 9 mesi. Questo ha permesso al Corriere del Ticino di tutelare e protrarre nel tempo 120 anni di documenti, conservandoli in modo semplice e sicuro.

La soluzione sviluppata per Il Corriere del Ticino non è vincolata esclusivamente all'ambito degli archivi storici, ma può essere estesa con successo alla digitalizzazione di documenti amministrativi complessi e a una vasta gamma di contenuti frammentati.

 

CdT

"Goodcode ci ha fornito un prodotto chiavi in mano senza problemi né ritardi."

Alessandro Colombi
Gruppo Corriere del Ticino SA, CEO

Sei interessato al nostro software di elaborazione dei documenti? Contattaci!