Tesseract OCR

Betreuer: Stefan Fiel, Florian Kleber, Markus Diem

Beschreibung

OCR (Optical Character Recognition) befasst sich mit der automatisierten Erkennung von Textzeichen in Bildern. Der Begriff OCR bezeichnet ursprünglich die Erkennung einzelner (gedruckter) Zeichen, wird aber auch häufig durch die Verwendung von Wörterbüchern erweitert, um die Erkennungsrate zu erhöhen. Für handgeschriebene Schrift wird der Begriff HR (Handwriting Recognition) verwendet. Tesseract OCR ist eine Open Source OCR Engine für gedruckte Schrift.

Zielsetzung

Implementierung der Tesseract OCR als Basisklasse für das CVL Framework. Diese soll auch als Plugin für den Image Viewer nomacs umgewandelt werden.

not transparent not

Gliederung

  • Literaturrecherche
  • C++ Kenntnisse erforderlich
  • Evaluierung anhand von zur Verfügung gestellten Testdaten.
  • Schriftlicher Bericht/Masterarbeit und Präsentation des Praktikums/Masterarbeit

Sonstiges

  • Kenntnisse der Bildverarbeitung
  • Qt und OpenCV von Vorteil