Beschreibung
https://github.com/0LL13/pdf2textboxAuf Basis von pdfminer2 habe ich ein Programm geschrieben, dass PDF Dokumente mit bis zu drei Spalten und optional einer Kopfzeile in Text umwandelt. Ausgegeben wird ein dictionary, der die Textbausteine der Kopfzeile (falls vorhanden) und den jeweiligen Spalten zuordnet.
Das Programm macht aufgrund der Verteilung der Textboxen im Dokument eine Annahme, ob das Dokument eine Kopfzeile besitzt oder nicht, ebenso zu der Anzahl der Spalten. Entsprechend wird der Text in einem dictionary gespeichert, der die Zuordnung des Texts zu Kopfzeile, linke oder rechte (oder mittlere) Spalte ermöglicht.