Skip to content

OCR in der Bauakte

Die kompletten Bauakten zum Gebäude hier in der Gastfeldstraße habe ich als pdf-Dateien auf dem Server liegen. Alles wurde säuberlich eingescannt und, zu meiner großen Überraschung, schien da eine automatisierte Texterkennung drübergelaufen zu sein. Jedenfalls lassen sich im Grunde sämtliche Texte markieren.

Unten seht ihr gelb hinterlegt einen originalen Absatz aus der ganz alten Bauakte. Offenbar ist die OCR-Software beim Bauamt nicht mit der Fraktur-Schrift klargekommen – was bei Copy&Paste herauskommt, könnt ihr oben drüber sehen. :-D


Trackbacks

Keine Trackbacks

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

SPages am :

Ich kann es verstehen, ein "s" das aussieht wie ein "f", dass verwirrt schnell mal beim "überfliegen".

Raoul am :

Wirklich, ich frage mich, wer auf diese bescheuerte Idee gekommen ist. Zumal es damals ja bereits ein richtiges S gab!

AvN am :

Mittlerweilen haben die PDF-Anguck-Programme eine automatische OCR an Board, sodass ich vermute, dass es eher diese ist, die sich mit deinem Text abmüht.

Ich war letztens übrigens überrascht, wie gut diese Funktion mit Frakturschrift zurechtkommt. Kaum ein Fehler wie bei dir.

selbst am :

Welches Programm mag das sein ?

Von mir verwendete Programme können es nicht.

Chris am :

OCR haben tatsächlich schon einige Kopierer On Board, ohne dass man auf dem Server ein extra OCR-Programm installieren muss.

Von wann ist die Akte denn? Wurde in den 50ern noch Fraktur verwendet?

Dohn Joe am :

Also wenn ich noch an die pixelbasierten OCR Softwares von Anfang der 1990er denke, dann ist das obige Ergebnis ja schon fast sensationell ;-)
Früher hätte man einen Text besser einfach selbst abgeschrieben, als die Software stundenlang zu "trainieren". Verrutschte mal ein Pixel bei einem gescannten Buchstaben, ging das Theater wieder von vorne los :-)

Acrobat Pro hat eine OCR-Engine eingebaut umd auch Textfutter für die Indexfunktionen, bzw. zur Verwaltung von PDFs (eben auch mit Scans) zu haben. Ohne spezielle Software kann man so rudimentär Dokumente verwalten und gegebenenfalls auch mal per Textsuche wieder finden.

Nur registrierte Benutzer dürfen Einträge kommentieren. Erstellen Sie sich einen eigenen Account hier und loggen Sie sich danach ein. Ihr Browser muss Cookies unterstützen.

Die Kommentarfunktion wurde vom Besitzer dieses Blogs in diesem Eintrag deaktiviert.

Kommentar schreiben

Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
:'(  :-)  :-|  :-O  :-(  8-)  :-D  :-P  ;-) 
BBCode-Formatierung erlaubt
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.
Formular-Optionen