Wie aus pdf-Vorlagen übersetzbare Dateien werden
Optical Character Recognition (OCR), zu deutsch optische Format-Erkennung, verwandelt eine Bilddatei oder ein gescanntes Schriftstück in editierbaren Text.
Translines OCR-System erkennt Texte in 122 Sprachen.
Es nimmt Daten von einem am PC angeschlossenen Scanner entgegen oder bearbeitet Bilddateien der Formate PDF, TIFF, JPEG, PNG, BMP, PCX oder DCX.
Das Ergebnis des Erkennungsprozesses speichert das OCR-System wahlweise als PDF, Text, RTF-, HTML-, CSV- oder DBF -Datei sowie im Format von Microsoft Word oder Excel in den Versionen 95 bis 2007.
Für einfache Texte und Vorlagen, die nicht besonders fleckig oder unleserlich sind und weder aufgrund einer ungewöhnlichen Schrift noch wegen eines speziellen Layouts eine Sonderbehandlung benötigen, empfiehlt sich das Einscannen solcher Daten mit dem OCR-System. Nach dem Scanvorgang erscheint die Quellseite links im Bildfenster. Die Software analysiert das Layout der Quellseite und zeigt den erkannten Text rechts im Textfenster. Um das menschliche Nachbearbeiten zu erleichtern, sind nicht eindeutige Zeichen hellblau hervorgehoben und Wörter, die nicht im Wörterbuch gefunden wurden, rosa.
Dateien die mit dem OCR-System eingelesen werden, müssen auf jedenfall von einem Mitarbeiter geprüft werden. Die menschliche Prüfung ist unerlässlich und umfasst folgende Punkte:
-
Prüfung der Formatierungen
-
Prüfung der Vollständigkeit
-
·Prüfung von Formeln und Trademark-Zeichen
-
Allgemeiner Vergleich von PDF und Zielformat
Auch hier gilt: "so viel Technik wie möglich, so viel Mensch wie
nötig". Ganz ersetzt werden kann der menschliche Helfer nicht, aber Transline hat sich auf automatisierte Arbeitsprozesse spezialisiert, die auch eine parallel zum Arbeitsprozess stattfindende Übersetzung (z.B. in englisch) beinhalten können.
Dank zahlreicher Funktionen lässt sich das von Transline angepasste OCR-System auch von Spaltensatz, mehrsprachigen Texten oder Tabellen nicht durcheinanderbringen.
Bei Eigennamen, Ligaturen, Sonderzeichen oder verschnörkelter Schrift zeigt sich das OCR-System lernfähig, wobei sich der Trainingsaufwand umso mehr lohnt, je umfangreicher der Text ist, auf den das neu Gelernte angewendet werden soll.
Schwierigkeiten hat das OCR-System mit Handschrift, mit sehr kleiner Schrift, mit gedrehten Textteilen, die z.B. senkrecht stehen, mit weißer Schrift auf buntem Hintergrund und mit Vorlagen, die in einer niedrigen Auflösung eingescannt wurden.
Stehen neben einem PDF-Dokument noch Originaldaten z.B. in QuarkXPress oder Indesign zur Verfügung, sind solche Formate dem PDF vorzuziehen, da der Bearbeitungsprozess mit dem OCR-System entfällt.
Übersetzungen in 120 Sprachen
Nutzen Sie unsere Übersetzungskompetenz, z.B. für Englisch-Übersetzungen, Französisch-Übersetzungen oder Spanisch-Übersetzungen.