Skip to content

Digitalizzare l'archivio del Corriere del Ticino

CDT-Desktop-Main-Header
CDT MB Main Header

Intelligent document processing

Cliente: Corriere del Ticino

Settore: Media e giornalismo

Ambito: Artificial Intelligence per l'elaborazione digitale di documenti cartacei

Richiesta: Digitalizzare l'archivio storico per avere accesso immediato alla documentazione e renderla sempre consultabile nel corso del tempo

Soluzione: Archive-Go: il software per digitalizzare documenti editoriali complessi

CDT Desktop 2 Historical
CDT MB 2 Historical

Rivoluzione paperless per il Corriere del Ticino

Il Team del Corriere del Ticino si è rivolto a noi di Goodcode per ottenere la versione digitalizzata del loro intero archivio storico, che conta circa 1 milione di pagine ed è costituito da più di 120 anni di documenti (dal 1880 al 2002). L'obiettivo era quello di preservare la raccolta nel tempo, grazie a un software in grado di estrarre le informazioni da ogni singolo documento in maniera precisa e ordinata.

Come risultato, abbiamo ottenuto più di 30TB di pagine scannerizzate in alta risoluzione, lavoro realizzato in circa 9 mesi.

Il nostro lavoro

Quello che abbiamo fatto è stato strutturare un software con un algoritmo geometrico in grado di rilevare con accuratezza la struttura degli articoli. In questo modo, si intraprende una vera e propria rivoluzione paperless, che consente di conservare nel tempo e con semplicità centinaia di documenti anche a fronte di cambiamenti, imprevisti o incidenti. 

Scansione dei documenti a parte, l'intero lavoro è completamente automatizzato: non è necessaria attività umana per l'elaborazione, neppure per eventuali correzioni manuali.

Dopo lo sviluppo dell'algoritmo, la sua implementazione e la digitalizzazione di tutto l'archivio, noi del team di Goodcode abbiamo continuato a fornire un supporto costante e puntuale, rimanendo a disposizione per qualsiasi necessità legata al nostro strumento e al suo output.

Scansione dei documenti:

La prima parte dell'operato si è svolta interamente grazie all'impegno umano: le scansioni sono infatti state realizzate una ad una manualmente.

Ricomposizione testuale degli articoli:

Una volta effettuata la scansione, il primo step è stato l'utilizzo della tecnologia ML di Amazon Textract per la lettura ed elaborazione di documenti. Grazie a questo strumento siamo stati in grado di estrarre tutti i testi - anche manoscritti - le tabelle e le immagini, non trascurando alcuna informazione importante. A questo punto, grazie all'algoritmo Archive-Go da noi costruito, siamo andati oltre i limiti della tecnologia OCR e abbiamo potuto:

  • Estrarre titoli e testi
  • Rilevare immagini e didascalie
  • Individuare gli annunci pubblicitari

CDT-Desktop-3-estrazione-txt
CDT MB 3 estrazione testo

Un archivio storico indelebile nel tempo

Grazie all'utilizzo di un algoritmo geometrico e della tecnologia ML di Amazon Textract, è stato possibile digitalizzare e ordinare tutti gli articoli del giornale in modo accurato e automatico. Questo ha permesso al Corriere del Ticino di tutelare e protrarre nel tempo 120 anni di documenti, conservandoli in modo semplice e sicuro.

La soluzione è applicabile a una serie di contenuti: dai vecchi documenti storici, a quelli amministrativi complessi, fino ad altri contenuti frammentati.

CdT

"Goodcode ci ha fornito un prodotto chiavi in mano senza problemi né ritardi."

Alessandro Colombi
Gruppo Corriere del Ticino SA, CEO

Sei interessato al nostro software di elaborazione dei documenti? Contattaci!