Skip to content
5 min read

Intelligent Document Processing: digitalizzare l'archivio del Corriere del Ticino

Settore: Media e giornalismo - Corriere del Ticino

Ambito/Tecnologia: Artificial Intelligence per l'elaborazione digitale di documenti cartacei

Richiesta: Digitalizzare l'archivio storico per avere accesso immediato alla documentazione e renderla sempre facilmente consultabile nel corso del tempo

Soluzione: Archive-Go: la soluzione per digitalizzare documenti editoriali complessi

Rivoluzione paperless per il Corriere del Ticino

Il Team del Corriere del Ticino si è rivolto a noi di GoodCode per ottenere la versione digitalizzata del loro intero archivio storico, che conta circa 1 milione di pagine ed è costituito da più di 120 anni di documenti (dal 1880 al 2002). L'obiettivo era quello di essere in grado di fornire un front-end per effettuare ricerche in maniera semplice e leggere qualsiasi materiale di interesse.

Come risultato, abbiamo ottenuto più di 30TB di pagine scannerizzate in alta risoluzione, lavoro realizzato in circa 9 mesi.

Articoli Corriere del Ticino


Il nostro lavoro:

Quello che abbiamo fatto è stato strutturare un software con un algoritmo geometrico in grado di rilevare con accuratezza la struttura degli articoli. In questo modo, non solo si intraprende una vera e propria rivoluzione paperless, che consente di conservare nel tempo e con semplicità centinaia di documenti anche a fronte di cambiamenti, imprevisti o incidenti, ma si garantisce l'indicizzazione degli articoli sui motori di ricerca. In questo modo, da una parte si mette in atto un processo di customer retaining, andando a soddisfare le richieste e le curiosità dei clienti già fidelizzati, e dall'altra si aumenta il numero di persone che accedono alle informazioni dell'azienda, in quanto vengono messe a disposizione e trovate anche da chi non sta direttamente cercando il Corriere del Ticino.

  • Scansione dei documenti

    La prima parte dell'operato si è svolta interamente grazie all'impegno umano: le scansioni sono infatti state realizzate una ad una manualmente.

  • Ricomposizione testuale degli articoli

    Una volta effettuata la scansione, il primo step è stato l'utilizzo della tecnologia ML di Amazon Textract per la lettura ed elaborazione di documenti. Grazie a questo strumento siamo stati in grado di estrarre tutti i testi - anche manoscritti - le tabelle e le immagini, non trascurando alcuna informazione importante. A questo punto, grazie all'algoritmo Archive-Go da noi costruito, siamo andati oltre i limiti della tecnologia OCR e abbiamo potuto:

    Riconoscere titoli, sottotitoli e corpo centrale

    Individuare le pubblicità

    Indicizzare ogni articolo sui motori di ricerca

Goodcode Corriere del Ticino Textract

Scansione dei documenti a parte, l'intero lavoro è completamente automatizzato: non è necessaria attività umana per l'elaborazione, neppure per eventuali correzioni manuali.

Dopo lo sviluppo dell'algoritmo, la sua implementazione e la digitalizzazione di tutto l'archivio, noi del team di GoodCode abbiamo continuato a fornire un supporto costante e puntuale, rimanendo a disposizione per qualsiasi necessità legata al nostro strumento e al suo output.

Sei interessato al nostro software di elaborazione dei documenti o te ne serve uno costruito su misura per te?

Contattaci!