https://www.allesgelingt.de/blog/030694594c30178dcd0ebe7430adc7941f74343b.jpg

Wie lesen Maschinen bzw. Computer?

Veröffentlicht am: in der Kategorie: Computer und Internet

Das Lesen und der Leseprozess bei einer Maschine bzw. einem Computer. Es gibt erstaunlich viele Parallelen wenn man das Lesen bei Menschen und bei Maschinen gegenüberstellt.

Die neusten OCR Programme gehen bei dieser Aufgabe einen anderen Weg, als die allersten OCR Versuche. Sie erkennen die Buchstaben nicht als Ganzes, sondern zerstückeln diese in Teile, bzw. Merkmale. Diese Merkmal-Erkennung ermöglicht Buchstaben in unterschiedlichen Stilen und Typographien problemlos und fehlerfrei zu erkennen. Sie stellt auch einen weiteren Entwicklungsschritt in der Handschrifterkennung dar. Voraussetzung dabei ist nur, der Text deutlich und ohne zusätzliche Markierungen, wie Notizen gedruckt wurde. Die Fehlerquote beim OCR Programm Abbyy Finereader liegt bei qualitativ hochwertigen Dokumenten bei unter einem Prozent.

Die neusten OCR Programme gehen bei dieser Aufgabe einen anderen Weg, als die allersten OCR Versuche. Sie erkennen die Buchstaben nicht als Ganzes, sondern zerstückeln diese in Teile, bzw. Merkmale. Diese Merkmal-Erkennung ermöglicht Buchstaben in unterschiedlichen Stilen und Typographien problemlos und fehlerfrei zu erkennen. Sie stellt auch einen weiteren Entwicklungsschritt in der Handschrifterkennung dar. Voraussetzung dabei ist nur, der Text deutlich und ohne zusätzliche Markierungen, wie Notizen gedruckt wurde. Die Fehlerquote beim OCR Programm Abbyy Finereader liegt bei qualitativ hochwertigen Dokumenten bei unter einem Prozent.

Wie_lesen_Computer_OCR.jpg

Leseprozess bei einer Maschine oder Computer

Der Buchstabe A, der von einem Nutzer mittels Tastatur eingegeben wird, kann von dem Computer als Buchstabe A auch interpretiert werden, wenn das Zeichen mit Hilfe eines Compilers in 0 und 1 Code umgewandelt (kompiliert) wird. Um genauer zu sein wird „A" in „01000001" umgewandelt.

Um einem Computer das Lesen beizubringen, liegt die Herausforderung darin, den gedruckten Text vom Computer erkennen zu lassen und ihn dann in 1 und 0 Code zu kompilieren.

Eine ausgereifte Mustererkennung der ersten Generation der OCR Systeme konnte im Bankwesen beobachtet werden. Die Variante die von den Kreditinstituten erfolgreich genutzt wurde heißt OCR-A. Bei dieser Technologie wird auf eine bestimmte Art der Typographie „monospace font" gesetzt, die unveränderlich eingesetzt wird. Dadurch gibt es keine Variationen deren Erkennung programmiert werden müsste.

Die neue Generation der optischen Buchstabenerkennung trägt häufig den Namen ICR - Intelligent Character Recognition. Dabei wird nicht mehr das gesamte Muster der Buchstabe anvisiert sondern die einzelnen Merkmale der Buchstabe. Aus diesem Grund spricht man in diesem Fall von Merkmal-Erkennung.
Ein großes „A" wird mit dieser Methode in eindeutige, charakteristische Merkmale aufgeteilt:
- ein Strich, der von links nach rechts aufsteigend verläuft
- ein Strich, der von links nach rechts absteigend verläuft, und
- ein Strich, der in der Mitte platziert ist und senkrecht beide obigen Striche verbindet.
Solche Merkmale werden für jeden Groß- und Kleinbuchstaben vordefiniert und erst wenn die Merkmale korrekt erkannt werden, kann der richtige Buchstabe identifiziert werden.

OCR Vorgang im Detail

Dokument Vorbereiten:
1. Ausdruck - Originaltext auf Papier, Photokopie, Digitales Bild etc.
2. Falls keine digitale Datei: Scan erstellen (Digitalisierung)

OCR - Durchführung
3. Umwandlung in Schwarz-Weiß (Binärisierung)
4. Erkennung der Buchstaben, Abgleich mit der vorhandenen Datenbasis, sowie die Erkennung der Architektur des Dokuments.
5. Automatische Fehlerkorrektur
6. Speichern des Dokuments als Textdatei. Manuelle Korrektur (durchgeführt von einem Menschen)
7. Korrekturlesen

Für die Qualität des OCR Vorgangs sind folgende Aspekte ausschlaggebend:
- Dokumentqualität, Schriftart / Typographie, Formatierung / Aufbau der Seite, Leserichtung, Auflösung, Sprache, Silbentrennung, Zeilenausrichtung (Wort absichtlich getrennt oder aber nur optisch angepasst, damit der Absatz bündig aussieht), und schließlich Relevanz (Auf welchen Absatz bezieht sich die Überschrift, falls eine Seite mehrspaltig aufgebaut wird).

Anhand der oben aufgeführten Schritte wird es deutlich, dass der Lese-Prozess bei einem Computer ein komplexer Vorgang ist. Er besteht aus mehreren Schritten, und beim jeden Schritt können Fehler gemacht werden. Das beginnt schon beim ersten Schritt - in der Praxis ist die Qualität der Dokumente, die eingelesen werden sollen, ausschlaggebend für die Qualität der Erkennung.

Ein Computer versteht die Buchstaben nicht unmittelbar nachdem sie in das System eingeführt, kopiert oder eingelesen werden. Die einzelnen Schritte bestehen aus weiteren, kleinen Prozessen die ablaufen müssen, damit ein Schritt abgeschlossen wird.

Man kann sagen, dass die Verarbeitung im Computer so weit herunter gebrochen wird, bis man auf die binäre Ebene angelangt ist. Dann entstehen die Daten aus Nullen und Einsern - zwei Zahlen, die einen aktiven und einen inaktiven Zustand repräsentieren.

OCR Geschichte

  • 1928/29 Gustav Tauschek patentiert eine Lesemaschine, die die OCR-Funktionalitäten nutzt. Paul Handel (General Electric) patentiert eine ähnliche Maschine im April 1931.
    - 1949 L.E. Flory und W.S. Pike entwickelt eine auf Photo-Zellen basierte Maschine, die gedruckten Text mit einer Geschwindigkeit von 60 Wörtern pro Minute sehbehinderten Menschen vorliest.
    - 1950 David H. Shepard entwickelt eine Maschine, die gedruckte Informationen in für Computer lesbare Zeichen umwandelt. Ursprünglich von der Militär genutzt. Shepard gründet IMR (Intelligent Machines Research) und entwickelt für Maschinen lesbare Fonts (Farrington B (auch OCR-7B genannt).
    - 1969 Lawrence (Larry) Roberts beschäftigt sich mit Computergraphik und arbeitet am MIT bei der Entwicklung von frühen Text-Erkennung Tools, die spezielle, vereinfachte Zeichen verwenden (OCR-A).
    - 1969 Postbehörden führen weltweit Geräte ein, die Postleitzahlen auf Briefen automatisch erkennen. Deutsche Post ist auch dabei.
    - 1974 Raymond Kurzweil entwickelt die Kurzweil Reading Machine (KRM) - Kombination aus einem Flachbett-Scanner und Sprach-Synthesizer zum Vorlesen des Textes für Blinde.
    - 2000 Luis van Ahn Entwicklung eines Mensch-Computer basierten OCR Systems (tatsächlich Intelligente OCR) an der Carnegie Mellon University „CAPCHA" und Vermarktung durch Google als „reCapcha"

Vergleich zu OCR heute

OCR (Optical Character Recognition) ist ein Verfahren, das es einer Maschine ermöglicht, gedruckte oder handschriftliche Texte auf Bildern oder Dokumenten zu erkennen und in editierbaren Text umzuwandeln. Der Prozess besteht aus mehreren Schritten:

  1. Bildaufnahme: Das OCR-System erhält ein Bild oder ein Dokument, das analysiert werden soll.

  2. Preprocessing: Das Bild wird vorbereitet, indem es skaliert, geglättet und ggf. gedreht wird, um die Schrift erkennbarer zu machen.

  3. Zeichererkennung: Das OCR-System analysiert das Bild pixel für Pixel und versucht, die einzelnen Buchstaben und Zeichen zu erkennen. Dies geschieht entweder durch Vergleich mit einer vorab gelernten Schriftart oder durch Anwendung von Machine Learning Algorithmen.

  4. Zeichentrennung: Das OCR-System trennt die erkannten Buchstaben und Zeichen in Wörter und Sätze.

  5. Texterkennung: Das OCR-System versucht, die erkannten Buchstaben und Zeichen zu Wörtern und Sätzen zu ordnen und gibt diese in Textform aus.

  6. Korrektur: Das OCR-System verwendet eine Korrektursoftware, um Fehler in der erkannten Schrift zu korrigieren.

  7. Output: Das OCR-System gibt den erkannten Text als editierbaren Text aus, der in weitere Anwendungen eingesetzt werden kann.

Es ist wichtig zu beachten, dass OCR-Systeme nicht immer 100% genau sind und Fehler bei der Erkennung von Schriftzügen, besonders bei handschriftlichen Dokumenten, machen können. Daher sind OCR-Systeme oft mit Korrekturfunktionen ausgestattet, um die Erkennungsfehler zu minimieren.