Digitalizzare l'archivio del Corriere del Ticino


Intelligent document processing
Cliente: Corriere del Ticino
Settore: Media e giornalismo
Ambito: Artificial Intelligence per l'elaborazione digitale di documenti cartacei
Richiesta: Digitalizzare l'archivio storico per avere accesso immediato alla documentazione e renderla sempre consultabile nel corso del tempo
Soluzione: Archive-Go: il software per digitalizzare documenti editoriali complessi


Rivoluzione paperless per il Corriere del Ticino
Il Team del Corriere del Ticino si è rivolto a noi di Goodcode per ottenere la versione digitalizzata del loro intero archivio storico, che conta circa 1 milione di pagine ed è costituito da più di 120 anni di documenti (dal 1880 al 2002). L'obiettivo era quello di preservare la raccolta nel tempo, grazie a un software in grado di estrarre le informazioni da ogni singolo documento in maniera precisa e ordinata.
Come risultato, abbiamo ottenuto più di 30TB di pagine scannerizzate in alta risoluzione, lavoro realizzato in circa 9 mesi.
Il nostro lavoro
Quello che abbiamo fatto è stato strutturare un software con un algoritmo geometrico in grado di rilevare con accuratezza la struttura degli articoli. In questo modo, si intraprende una vera e propria rivoluzione paperless, che consente di conservare nel tempo e con semplicità centinaia di documenti anche a fronte di cambiamenti, imprevisti o incidenti.
Scansione dei documenti a parte, l'intero lavoro è completamente automatizzato: non è necessaria attività umana per l'elaborazione, neppure per eventuali correzioni manuali.
Dopo lo sviluppo dell'algoritmo, la sua implementazione e la digitalizzazione di tutto l'archivio, noi del team di Goodcode abbiamo continuato a fornire un supporto costante e puntuale, rimanendo a disposizione per qualsiasi necessità legata al nostro strumento e al suo output.
Scansione dei documenti:
La prima parte dell'operato si è svolta interamente grazie all'impegno umano: le scansioni sono infatti state realizzate una ad una manualmente.
Ricomposizione testuale degli articoli:
Una volta effettuata la scansione, il primo step è stato l'utilizzo della tecnologia ML di Amazon Textract per la lettura ed elaborazione di documenti. Grazie a questo strumento siamo stati in grado di estrarre tutti i testi - anche manoscritti - le tabelle e le immagini, non trascurando alcuna informazione importante. A questo punto, grazie all'algoritmo Archive-Go da noi costruito, siamo andati oltre i limiti della tecnologia OCR e abbiamo potuto:
- Estrarre titoli e testi
- Rilevare immagini e didascalie
- Individuare gli annunci pubblicitari


Un archivio storico indelebile nel tempo
Grazie all'utilizzo di un algoritmo geometrico e della tecnologia ML di Amazon Textract, è stato possibile digitalizzare e ordinare tutti gli articoli del giornale in modo accurato e automatico. Questo ha permesso al Corriere del Ticino di tutelare e protrarre nel tempo 120 anni di documenti, conservandoli in modo semplice e sicuro.
La soluzione è applicabile a una serie di contenuti: dai vecchi documenti storici, a quelli amministrativi complessi, fino ad altri contenuti frammentati.
"Goodcode ci ha fornito un prodotto chiavi in mano senza problemi né ritardi."
Alessandro Colombi
Gruppo Corriere del Ticino SA, CEO