Tool
25.07.2018, 15:27 Uhr
Textricator zieht Daten aus PDFs
Fließtext aus einer PDF-Datei zu extrahieren ist recht einfach. Wenn es sich aber um Listen oder ausgefüllte Formulare handelt, ist die Extraktion nicht so einfach. Das Tool kann weiterhelfen.
Textricator kennt dafür beispielsweise den Listenmodus. Hierzu müssen die Daten im PDF in Tabellenform vorliegen. Durch die Beschreibung der Lage kann das Tool dann die Daten herausziehen.
Im Formularmodus kann das Dokument und die Lage der Daten sehr detailliert beschrieben werden. Hier lassen sich Datentypen definieren. Auch die Art der Ausgabe beispielsweise lässt sich festlegen. Im nachfolgenden Code wird beispielsweise der Datentyp Employee festgelegt.
rootRecordType: employee
recordTypes:
employee:
label: "employee" # Labels are used when nested recordTypes come into play, like this document.
valueTypes:
# Not sure what to name a valueType? Just make something up!
- employee
- name
- hiredate
- occupation
- showinfo
- bool1
- bool2
- bool3
- salary