OCRopus: Google hilft beim eBooks rippen

zwa3hnn · 20. Juli 2007

OCR, Texterkennung aus Bilddaten, wurde in der Vergangenheit immer besser. Mussten früher Bücher noch mühsam gescannt werden, um eine vernünftige Texterkennung zu garantieren, wird heute in der Regel abfotografiert - und wenn die Bilder nicht so schlecht sind wie beim aktuellen Harry Potter, kann man anschließend eine vernünftige PDF weitgehend automatisch generieren. 2008 bringt noch bessere Zeiten für die Book-Ripper, denn Google arbeitet an einer trainierbaren Open-Source-OCR namens OCRopus.

OCRopus soll ein Manko der meisten kommerziellen, qualitativ hochwertigen Texterkennungs-Tools beheben - deren oft mangelhafte Fähigkeit zu lernen. Als Open Source unter der Apache-Lizenz ist garantiert, dass die Engine, ist sie einmal in einer Stable verfügbar, nach Belieben angepasst und verfeinert werden kann.

Einer der Entwickler bei Google meldet sich nun mit einem kurzen Zwischenstand zu Wort. Als Blinder ist T.V. Raman an einer papierfreien Umgebung sehr interessiert. Momentan befindet sich das Projekt in einer sehr frühen Phase. Herbst 2007 soll eine erste Alpha erscheinen, ein Jahr später ist das Erscheinen einer 1.0 angesetzt. Soeben wurde ein Modul zur Ausgabe gescannter Inhalte in strukturiertes XML implementiert, was Textanalyse und Lernfähigkeit der Software erleichtern soll.

2008 soll dann die OCR mit GUI in einer 1.0 verfügbar werden. Anschließend werden weitere Features geplant. So soll OCRopus nicht nur Texte und Begriffe lernen, sondern auch mit der Zeit Layouts und Seitenstrukturen erkennen und gegebenenfalls nachbilden.

Aktuelle Testversionen gibt es nur für Linux, erst Ende nächsten Jahres will man die Aufmerksamkeit auch auf andere Betriebssysteme richten. Bugreports und Übersetzer sind gerne gesehen.

Eigennutz spielt beim ambitionierten Projekt Googles sicher eine Rolle - mit der Google Book Search hat der Suchmaschinenriese ein Feld, auf der eine leistungsfähige OCR höchst produktiv ackern kann. Das hoffentlich kommende freie Release der Google-OCR dürfte jedoch auch zahlreichen anderen Scannern und Rippern das Leben erleichtern, vor allem, wenn die Import- und Lernfeatures der OCR halten, was die Roadmap verspricht. Für halbe Sachen ist Google ja nicht gerade bekannt - von daher darf man gespannt sein, wie weit OCRopus dereinst die Grenzen zwischen Text- und Bildcontent aufweicht oder gar ganz verschwinden läßt.

quelle: gulli untergrund news

Anzeige

Nützliche Suchen

OCRopus: Google hilft beim eBooks rippen

Videos zum Themenbereich