Teaching

Tesseract OCR

Betreuer: Stefan Fiel, Florian Kleber, Markus Diem Beschreibung OCR (Optical Character Recognition) befasst sich mit der automatisierten Erkennung von Textzeichen in Bildern. Der Begriff OCR bezeichnet ursprünglich die Erkennung einzelner (gedruckter) Zeichen, wird aber auch häufig durch die Verwendung von Wörterbüchern erweitert, um die Erkennungsrate zu erhöhen. Für handgeschriebene Schrift wird der Begriff HR (Handwriting … Continue reading Tesseract OCR

Segmentation

Beschreibung Segmentierung beschäftigt sich mit der Identifikation zusammenhängender Regionen (z.B. Buchstaben) entsprechend einem Homogenitätskriterium (z.B. Grauwert). Dies ist in der Dokumentanalyse ein vorverarbeitender Schritt, z.B. für Optical Character Recognition (OCR). Da es sich um einen Vorverbeitungsschritt handelt, ist die Genauigkeit der Segmentierung ausschlaggebend für den Erfolg nachfolgender Methoden. Die Herausforderung besteht in der korrekten Segmentierung … Continue reading Segmentation

Empty Page Detection

Beschreibung Hierbei soll ein globales Merkmal für ein Schnipsel oder eine Seite erstellt werden, mit dem festgestellt werden kann, ob eine Seite leer ist, oder eine Information (Bilder, Text, usw.) enthält. Dies dient dazu leere Seiten von der “aufwändigen” Berechnung einzelner Features (siehe Projektbeschreibung) auszuschließen und Fehlklassifikationen zu vermeiden. Die Schwierigkeit dabei ist, dass unbeschriebene … Continue reading Empty Page Detection

Skew Detection

Beschreibung Für verschiedene Analysen (OCR, Layoutanalyse) ist es notwendig einzelne gescannte Seiten oder Schnipsel zuerst auszurichten. Da andere Methoden auf der Skew Detection aufbauen, ist es wichtig eine möglichst robuste Schätzung zu finden. Die meisten in der Literatur vorhandenen Methoden behandeln nur die Ausrichtung ganzer Seiten bzw. sind restriktiv betreffend dem Inhalt oder der maximalen … Continue reading Skew Detection

Text Detection and Script Classification

Beschreibung Bei der Layoutanalyse werden die Regionen einer Seite/eines Schnipsels identifiziert. Dies dient einerseits dazu Textbereiche von anderen Bereichen (z.B. Bildern) zu unterscheiden als auch unterschiedliche Layouts einzelner Seiten zu klassifizieren. Aufgrund der Detektion von Textbereichen kann danach ebenfalls die Schriftklassifikation durchgeführt werden. Dies beinhaltet die Unterscheidung von Hand- bzw. Maschinschrift. Zielsetzung Ziel dieses Praktikums … Continue reading Text Detection and Script Classification

Form Analysis

Beschreibung Die Formularanalyse beschäftigt sich mit der Detektion und Klassifikation von Tabellen/Formularen. Hierzu wird zuerst die “Formularform” extrahiert (z.B. Liniendetektion) und mit bekannten Formulartypen verglichen und klassifiziert. Hierbei soll es auch möglich sein Formularteile (z.B. auf einem Schnipsel) einem bestimmten Formular zuzuordnen. Nach der Detektion ist es ebenfalls möglich die Formularfelder auszuwerten. Zielsetzung Ziel des … Continue reading Form Analysis

Restoration of Broken Characters

Beschreibung Bei der Segmentierung können kontrastschwache Buchstaben in mehrere Teile/Striche zerfallen. Weiters können sie bei der Layoutanalyse (line detection) zusammenhängende Buchstaben geteilt werden. Für eine korrekte Schriftklassifikation bzw. Schriftdetektion sollten diese Buchstaben wieder rekonstruiert werden. Zielsetzung Ziel des Praktikums ist es, zusammengehörende Striche zu identifizieren und im Folgenden zu einem korrekten Buchstaben zu “restaurieren”. Literatur … Continue reading Restoration of Broken Characters

Document Information Retrieval – Praktika

Status des Praktikums: offen Betreuer: Florian Kleber, Markus Diem, Stefan Fiel Beschreibung Das DIR Projekt ist eine Kooperation mit dem Fraunhofer IPK Berlin, welches mit der Entwicklung eines Systems zur automatisierten virtuellen Rekonstruktion handzerrissener “Stasi”-Unterlagen beauftragt wurde. Das Ministerium für Staatssicherheit (kurz Stasi) war der Inlands- und Auslandsgeheimdienst der DDR. Kurz vor der Auflösung des … Continue reading Document Information Retrieval – Praktika

Document Clustering

Beschreibung Damit eine große Anzahl Schnipsel (ca. 600 Mio. beim Stasi Projekt) korrekt gepuzzelt werden kann, müssen diese entsprechend ihren Eigenschaften zuerst sortiert bzw. geclustert werden. Dies bedeutet, dass mit einer höheren Wahrscheinlichkeit angenommen werden kann, dass z.B. Schnipsel mit Handschrift zusammengehören. Zielsetzung Ziel des Praktikums ist es unterschiedliche Cluster Algorithmen in dem, schon vorhandenen, … Continue reading Document Clustering

Script Identification

Beschreibung Die Analyse einer Handschrift um diese einem bestimmten Schreiber (bestimmte Person) zuzuordnen nennt man Writer Identification. Für die Script Identification von maschin-geschriebenen Seiten beinhaltet dieses Thema die Differenzierung unterschiedlicher Schriftarten. Dies kann einerseits für die Formierung als auch für das Puzzling einzelner Schnipsel verwendet werden, unter der Voraussetzung, dass einzelne Seiten oder Akte von … Continue reading Script Identification