David Kriesel, Germania, l’ha scoperto per caso : copiando delle planimetrie, degli schemi relativi a degli appartamenti, si è accorto che le cifre riportate sul disegno erano significativamente diverse sull’originale e sulla versione digitalizzata . La faccenda potrebbe essere in circolazione da anni, e le prime indagini sull’accaduto parrebbero condurre verso la compressione utilizzata da Xerox nelle macchine della popolare linea WorkCentre. Ma la questione potrebbe riguardare molti altri modelli e marchi.
Non è questione di OCR , si affretta a precisare Kriesel che ha segnalato il problema a Xerox e ha chiesto aiuto alla Rete per cercare di capire se la sua fosse una scoperta isolata, frutto magari di un problema della sua fotocopiatrice, o se si trattasse invece di una questione generale. Xerox, a dirla tutta, all’inizio non ha preso molto sul serio la faccenda: ma il riscontro ottenuto da David online, unito alla serietà delle indagini da lui condotte, ha convinto l’azienda a prendersi carico del problema e avviare un’indagine per scovare una soluzione.
Stando a quanto dedotto da Kriesel e contribuito dalla Rete, l’origine della cattiva copia delle informazioni risiederebbe nell’ algoritmo JBIG2 utilizzato in alcune fotocopiatrici/scanner. In presenza di caratteri piccoli (ad esempio Arial 7-8m nelle prove eseguite) il sistema mal disporrebbe i pixel nell’immagine digitalizzata e compressa per essere trasformata in un PDF. Non di OCR si tratta, di semplice digitalizzazione e compressione in un file: se come output si sceglie un file TIF nessun problema , nel caso si opti per un formato compresso ecco nascere gli artefatti.
Grazie ai contributi e le verifiche pervenute tramite Internet, la lista degli apparecchi affetti dal bug si è allungata: oltre alle WorkCentre 7535 e 7556 controllate dall’autore della scoperta, anche altri modell come la WorkCentre 7530, 7328, 7346, 7545, 7545 e le ColorQube 9201 e 9203 sembrerebbero coinvolte nel problema. Ma qualsiasi apparecchio che impieghi JBIG2 potrebbe essere affetto dai medesimi artefatti nelle copie digitali compresse.
Il problema è tanto più evidente quando Kriesel mostra una tabella di costi digitalizzata con la sua WorkCentre 7535: 65,40 euro diventano 85,40, un problema non da poco in prospettiva di macchine impiegate in ambienti di lavoro. Naturalmente non è escluso che in realtà gli errori possano essere introdotti dall’utilizzo all’interno del software della macchina di un OCR anche quando l’utente lo tiene disabilitato: la natura chiusa dei sorgenti non permette di verificarlo, ma i tecnici Xerox sono al lavoro per tentare di capire cosa stia succedendo. E auspicabilmente saranno in grado di fornire al più presto una patch per gli apparecchi incriminati.
Luca Annunziata