Ist Abbyy FineReader Pro das beste OCR Programm auf dem Markt?

Veröffentlicht am: 14.11.14 in der Kategorie: PC

Die heutige OCR Programme wie Abbyy FineReader oder PDFpen erkennen sehr gut Texte aus qualitativ guten Dokumenten. Sie arbeiten schnell und zuverlässig. Die meisten Probleme treten auf, wenn die Dokumente oder Bilder in schlechter Qualität sind. Dann hilft keine OCR Software.

Auf der Suche nach der BESTEN OCR Software auf dem Markt habe ich schon viele Alternativen ausprobiert. Die Ergebnisse dieser Recherche sind vielfältig, bereichernd aber nicht immer zufriedenstellend. Wieso, das erkläre ich im Folgenden.

OCR Grundlagen

OCR steht für "Optical Character Recognition" was auf deutsch also "optische Zeichenerkennung" übersetzt werden kann. OCR Programme werden in den meisten Fällen zum Digitalisieren von Offline-Inhalten wie Printmedien, Dokumente oder auch Bilder. Das Ziel der Bearbeitung eines Dokuments mit OCR Programmen ist zweierlei: zum Einen geht es um das Digitalisieren des Dokuments, zum Anderen darum das Dokument durchsuchbar zu machen. Nach dem ein Dokumenten-Scan oder ein abfotografiertes Dokument als Bild in eine OCR Software geladen wird, sucht das Programm nach Zeichenstrukturen und versucht den Text zu identifizieren. Im letzten Schritt wird ein neues Dokument gespeichert, der den Text des gescannten Papierstücks, oder des abfotografierten Dokuments als durchsuchbaren Text speichert. Für das Konzept eines Digitalen-Büros eignet sich somit eine vernünftige OCR Software herausragend. Die Frage ist nur - welche OCR Programme als vernünftige OCR Software bezeichnet werden können.

Als Student nutze ich OCR Programme zum Digitalisieren von Studienunterlagen und Büchern, die ich nur über eine kurze Zeit zur Verfügung habe. Nach dem ich die Unterlagen zurückgeben muss, habe ich die Möglichkeit auf die digitalisierte Versionen zurückzugreifen. Das ist beim Erstellen von Hausarbeiten, Seminararbeiten oder im Kommenden Semester für meine Masterarbeit eine nicht zu unterschätzende Hilfe. Hinzukommt, dass ich auch alle Rechnungen und ähnliche Dokumente digitalisieren kann, die später eine aufwendige Suche unglaublich leicht machen. Die Kunst ist nur: um perfekte OCR Digitalisierung-Ergebnisse zu erreichen, braucht man eine Perfekte OCR-Software dazu. Nach einigen Monaten mit Abbyy FineReader Pro kann ich folgendes sagen: wer eine möglichst detaillierte Kontrolle über den Digitalisierungsprozess und vielfältige Export- bzw. Speicherung-Funktionen haben möchte, der soll sich den Abbyy FineReader Pro auf jeden Fall anschauen. Leider gibt es einige Stolpersteine, die man lieber meiden soll, und zwar noch vor dem Kauf einer 90 € teueren Lizenz (für Mac) und 120 € für Windows von Abbyy.

Die exklusiven Vorteile von Abbyy FineReader Pro

Bei OCR Programmen geht es vor allem um die QUALITÄT der Erkennung des Textes in einer PDF Datei oder einem Bild. In dieser Hinsicht ist FineReader Pro die beste Applikation auf dem Markt. (Und ausprobiert habe ich schon viele). Bei Dokumenten die ich digitalisiere handelt es sich um Zeitungsartikeln, Buchbeiträge, Buchausschnitte, Skripte, Rechnungen und abfotografierte Texte. Manchmal sind die Kopien von Skripten oder von Büchern einfach nur schlecht. Wenn der Text verzerrt (weil jemand beim Kopieren oder Scannen das Buch bewegt hat) oder wenn im Text Annotationen (durchgestrichener, unterstrichener Text, handschriftliche Notizen) vorhanden sind, wird die Digitalisierung-Sache nicht einfacher. Bei qualitativ schlechten Texten wird die Erkennung mit dem FineReader nicht immer fehlerfrei sein. Aber ich habe auch kein anderes Programm gefunden, das die OCR Aufgabe mit einem qualitativ schlechtem Scan richtig gut gemeistert hätte. FineReader Pro zeichnen vor allem die Export-Möglichkeiten die das OCR Programm anbietet. Das habe ich bei keinem anderen Anbieter von OCR Lösungen gefunden (auch bei früheren Abbyy Versionen nicht). Wenn ein Dokument von dem OCR Programm eingelesen wurde, hat man die Wahl zwischen Exporten in 4 verschiedene Formate: 1. Nur Text und Bilder (ohne original Layout der Seite) 2. Text über dem original Layout der Seite 3. Text unter dem original Layout der Seite 4. Nur das original Layout der Seite

Für meine Befugnisse und Anforderungen ist die erste Variante (1. Nur Text und Bilder ohne Seitenlayout) die beste. Sie erzeugt die kleinste PDF Dateigröße und die Schrift ist Vektor-artig und dadurch nicht verpixelt. Aus dem erkannten Text wird in diesem Modus eine neue, saubere Datei nur mit dem Text und den Grafiken (Bilder oder Zeichnungen im Buch) erstellt. Das sieht dann so aus, also ob ich aus einem Buch per Copy-Paste Text in ein neues, leeres Dokument einfügen würde.

Export im Format als Word, RFT, ODT, SCV, Excel oder PowerPoint

Die Möglichkeit von Export von OCR'ten Dokumenten in andere Formate wie Word, Excel, Powerpoint oder ODT steht auch zur Verfügung. Für meine Ziele- möglichst geringe Dateigröße, ud möglichst fehlerfreie Texterkennung sind die anderen Export Optionen zwar nett, aber nicht unbedingt nötig. Interessant ist auf jeden Fall Export in ein Word Dokument (.docx) in verschiedenen Layout-Formen: genaue Kopie, bearbeitbare Kopie, formatierter Text, nur Text). Denn in Word können gegebenenfalls einige OCR Fehler nachträglich nachbearbeitet und verbessert werden. Des Weiteren bietet FineReader auch die Möglichkeit des Exports von Dokumenten als ein Ebook, Bild, Reinen Text oder HTML. Vielleicht sind diese Option auch hilfreich. Da ich aber für solche Exporte keinerlei Bedarf habe, wurden sie von mir nicht getestet.

Für wen ist FineReader als OCR Tool nicht geeignet?

Wie oben beschrieben, ist FineReader von Abbyy eigentlich das beste OCR Tool auf dem Markt, aber nur eigentlich. Das hängt überwiegend damit zusammen, was willst Du mit dem OCR Programm erreichen. Wenn Dein Ziel darin liegt: ab und zu einfach die Druckversionen von Rechnungen und andren Dokumenten zu digitalisieren, alles auf dem Rechner abzuspeichern und den Rest in den Papiercontainer zu werfen, dann brauchst Du eigentlich keinen Finereader unbedingt. Denn für gelegentliche OCR Aufgaben reichen auch die Open Source Programme wie FreeOCR. Es gibt auch andere Programme, die etwas günstiger als Finereader sind, und trotzdem gute OCR-Texterkennung liefern: PDFpen und PDFPen Pro sind dafür sehr gut. Für alle, die die OCR Aufgaben automatisieren (per AppleScript) wollen, sind auf jeden Fall PDFpen die bessere Wahl gegenüber FineReader. Denn Das Programm von Abbyy lässt sich nur schwer über AppleScript steuern. Möglich ist es, aber es ist eine Qual den richtigen Code zu erzeugen. Denn vor allem die Navigation in den vielschichtigen Menüs von FineReader über AppleScript wird zu einer recht komplexen Aufgabe.

Wieso ist OCR so problematisch?

Das menschliche Gehirn ist ein bemerkenswertes Instrument das das Lesen, Hören und Sprechen perfektioniert hat. Was wir im Computer versuchen nachzubauen ist nur eine schwache Imitation dessen, was Gehirn perfekt beherrscht. Sowohl Spracherkennung, als auch die Fähigkeit zu lesen, werden in den kommenden Generationen von Computern implementiert, allerdings werden die Ergebnisse niemals so gut sein wie beim Menschen. Denn alles was nicht 100 % Akkurat (mit OCR Programmen) erkannt wird, scheint einfach nicht ausreichend zu sein. Und man müsste eigentlich noch erwähnen, dass der Rechner schon dann Probleme bekommt, wenn man ihm ein Text serviert, der korrekt geschrieben wurde. Bekäme ein Rechner einen Text in dem nur die erste und die letzte Buchstabe eines jeden Wortes richtig sind, dafür aber alle anderen Buchstaben in der Mitte des Wortes wild durcheinander gewürfelt werden, so versteht der Mensch alles - und der Computer dann überhaupt nichts. OCR Technisch ist für einen Rechner diese Aufgabe nicht mehr zu lösen. Dalagen kann jede Person solche Wörter korrekt lesen, wie dieser Cambridge Artikel aus dem Jahr 2003 beweist: (Cambridge)

Das Problem mit der Korrektheit der OCR Erkennung liegt darin - dass für Menschen solch Komplexe Aufgaben simpel sind. Für eine Computer dagegen unüberwindbar. Dafür kann ein Computer hervorragend simple Aufgaben lösen, wie beispielsweise Rechenaufgaben oder das Speichern von Unmengen von Zeichen. Der Mensch kann das nur im geringen Maße.

Ein Computer der ein Dokument OCR technisch bearbeitet leistet folgende Arbeit: - Sprache des Dokuments erkennen. (Wird eine Datei bearbeitet, so ist erstmal die Sprache zu bestimmen. Bei meisten Programmen muss man die Sprache manuell und VOR dem OCR Vorgang einstellen. Die neue Version von Abbyy erkennt die Sprache automatisch. - Layout des Dokuments bestimmen: für einen Menschen ist es auf einen Blick klar und selbstverständlich wie er eine Seite lesen soll. Ein Rechner muss erstmal damit klar kommen, dass es viele verschiedene Layouts für Dokumente geben kann. Mehrspaltig, aufgeteilt, mit Grafiken, Bilder mit Beschriftungen und so weiter. - Auflösung korrekt einstellen- vor einem jeden OCR Vorgang hat man die Möglichkeit die DPI (die Auflösung) der Scans korrekt einzustellen. Probleme sind bei zu geringer DPI Anzahl sehr wahrscheinlich aber auch bei zu hoher DPI nicht ganz ausgeschlossen. - Abstände zwischen den Buchstaben und den Wörtern richtig bestimmen. Die Abstände sind essenziell um Wörter von einander zu trennen. Allerdings auch die Bestimmung der Abstände zwischen den einzelnen Buchstaben in einem Wort spielt eine wichtige Rolle. Beispielsweise für die Unterscheidung zwischen: dem Buchstaben "m" und "nr" - Formatierung erkennen - die Formatierung innerhalb des Textes ist für viele Dokumente entscheidend. Es macht einen großen Unterschied ob der Text einfach nur als reiner Text in ein PDF Dokument gepackt wird, oder aber ob Absätze, Hervorhebungen (Fett, Kursiv, unterstrichen) Überschriften und Tabellen richtig erkannt und in einem neuen PDF Dokument erstellt werden.

Fazit: optimale OCR Software gibt es nicht, aber eine gute schon.

Abbyy FineReader ist ein Professionelles OCR Werkzeug zu einen (fast) professionellen Preis. Wer einen großen Wert auf qualitativ hochwertige Digitalisierung von Dokumenten und Bildern legt, der wird sicherlich mit dem Abbyy Produkt zufrieden sein. Für gelegentliche OCR Aufgaben sind die 90 Euro etwas übertrieben. In diesem Fall sollte der Gelegenheits-Nurter eher zu günstigeren Alternativen greifen.

Noch eine Sache: es gibt eine gewisse Verwirrung um den Finereader, der jetzt nach dem Veröffentlichen der neusten Version in zwei Varianten auf dem Markt verfügbar ist. Es gibt nämlich den alten Abbyy FineReader Express und den neuen FineReader Pro. Wenn ich jetzt in die OCR Texterkennung einsteigen würde, würde ich trotzdem die neuste FineReader Variante wählen. Denn wozu sollte man auf die alte Generation setzen, wenn es eine neue gibt. Für den Alten FineReader Express wird es sicherlich keine Upgrades mehr geben. Denn das Unternehmen wird (meiner Meinung nach) das neuste Produkt weiter entwickeln und optimieren. Nicht das alte.