FUnktion vorgestellt

dragpad® OCR-Funktion

DragPad® OCR-Funktion

Einer der Vorteile, Dokumente in SharePoint zu speichern ist, dass die Inhalte über die Volltextsuche gefunden werden. Das gilt logischerweise aber nur für Dokumente, die auch Text beinhalten. So gut wie alle Dokumente werden zwar heute elektronisch erzeugt werden, trotzdem gibt es nach wie vor häufig einen „Medienbruch“ – will sagen: Das Dokument wird auf Papier ausgegeben und dann irgendwann wieder digitalisiert.

Das Dokument liegt dann zwar elektronisch vor. In dem PDF, das der Scanner erzeugt, befindet sich aber nur ein Bild und eben kein Text, den SharePoint verschlagworten könnte. Folglich werden die Inhalte des Dokuments auch nicht gefunden.

Ein solches PDF erkennen Sie beispielsweise daran, dass sie keine einzelnen Buchstaben auswählen können, sondern nur sozusagen das ganze Bild – siehe blaue Auswahl auf der nächsten Abbildung.

DragPad® beinhaltet ab der Version 58o eine OCR-Funktionalität, kann also den fehlenden Textlayer erzeugen.

Die Vorgehensweise ist ganz einfach: Ab der Version 58-o gibt es in DragPad® eine weitere Checkbox, mit der sie festlegen können, dass ein fehlender Textlayer für PDF-Dateien per OCR erzeugt wird. Die Auswahl der Sprache hilft der OCR-Funktionalität bei der Optimierung der Ergebnisse, da bei unklaren Zeichen über das Wörterbuch die plausibelste Erkennung gewählt werden kann.

Der Hochladevorgang dauert, wenn der OCR-Vorgang durchgeführt wird, einige wenige Sekunden länger, was dem Benutzer aber nicht auffallen wird, da das Übertragen ja ohnehin Hintergrund läuft.

Wenn man nun das Dokument, in dem in Acrobat vorhin nur das ganze Bild auswählbar war, noch mal aufruft, sieht man, dass einzelne Zeichen auswählbar sind. Beim OCR-Vorgang wird also quasi auf das Bild jeweils genau die entsprechenden Zeichen gelegt. Das Dokument ändert sich optisch also nicht, es enthält zusätzlich aber den Text, der dann von SharePoint in den Suchindex aufgenommen wird.

Neben der Nutzung der OCR-Funktionalität bei der Verarbeitung aktueller Dokumente, könnte es attraktiv sein, auch bei Migrationen von „Alt-Dokumenten“ durch die OCR zu unterstützen. DragPad® kann bei Bedarf komplette Ordner aus dem Dateisystem hochladen (siehe Video hier) und dabei entsprechende Dokumente mit einem Textlayer ergänzen, also durchsuchbar machen.

Es gibt noch einige Anmerkungen:

DragPad® überprüft, ob ein Textlayer im PDF-Dokument vorhanden ist. Ist das der Fall, wird die OCR-Funktion nicht aufgerufen. Im ungünstigsten Fall könnte der Inhalt des Textlayers vollkommen unbrauchbar sein oder bei einem fünfseitigen gescannten Dokument nur die Text-Informationen der ersten Seite enthalten. Beides ist nicht sehr wahrscheinlich, prinzipiell aber möglich.

Für die Durchführung der OCR-Funktionalität unterstützt DragPad® zwei Varianten:

Zum einen kann ein bei Ihnen vorhandener Abbyy Finreader Server (vormals Recognition Server) verwendet werden.

Wenn Sie nicht über einen Abbyy Finereader Server verfügen, können Sie meinen eigenen Cloud-basierten OCR-Dienst nutzen. Der guten Ordnung halber sei darauf hingewiesen, dass dieser kostenpflichtig ist.

Get In Touch

Ulrich Boddenberg IT-Consultancy

ulrich@boddenberg.de

+49-231-222458-121