PDF Dokumente mit bis zu drei Spalten in Text umwandeln

Nordrhein-Westfalen, Düsseldorf  ‐ Remote
Dieses Projekt ist archiviert und leider nicht (mehr) aktiv.
Sie finden vakante Projekte hier in unserer Projektbörse.

Beschreibung

https://github.com/0LL13/pdf2textbox

Auf Basis von pdfminer2 habe ich ein Programm geschrieben, dass PDF Dokumente mit bis zu drei Spalten und optional einer Kopfzeile in Text umwandelt. Ausgegeben wird ein dictionary, der die Textbausteine der Kopfzeile (falls vorhanden) und den jeweiligen Spalten zuordnet.

Das Programm macht aufgrund der Verteilung der Textboxen im Dokument eine Annahme, ob das Dokument eine Kopfzeile besitzt oder nicht, ebenso zu der Anzahl der Spalten. Entsprechend wird der Text in einem dictionary gespeichert, der die Zuordnung des Texts zu Kopfzeile, linke oder rechte (oder mittlere) Spalte ermöglicht.
Start
05.2018
Dauer
3 Monate
Eingestellt
08.07.2018
Ansprechpartner:
Oliver Stapel
Projekt-ID:
1594880
Vertragsart
Freiberuflich
Einsatzart
100 % Remote
Um sich auf dieses Projekt zu bewerben müssen Sie sich einloggen.
Registrieren