PDF Tabellen in Power Query einlesen

Hits: 1097

Leider fehlt nach wie vor eine direkte Möglichkeit, welche PDF Tabellen in Power Query einlesen könnte. Um trotzdem die gewünschten Werte in Power BI oder Excel weiterverarbeiten zu können, müsst Ihr auf Workarounds zurückgreifen. Drei Möglichkeiten will ich Euch heute aufzeigen.

Variante 1 – PDF mittels Word in eine Webpage umwandeln

Als erstes öffnet Ihr die PDF Datei in Word. Die folgende Warnmeldung könnt Ihr ignorieren respektive “OK” anklicken.

Word Warnmeldung PDF Import
Word Warnmeldung PDF Import
PDF als Webseite speichern
PDF als Webseite speichern

Speichert die Datei danach als Web Page (HTML) ab. Im Query Editor respektive Power Query importiert Ihr die Datei über den “Web Import”.

Web_Import
Web_Import
Web_Import_Dialog
Web_Import_Dialog

Gebt anstelle einer URL den Speicherort der Datei ein. Danach wählt Ihr wie gewohnt die gesuchte Tabelle aus – eh voilà, da ist die Tabelle.

PDF Tabellen in PQ
PDF Tabellen in PQ

Variante 2 – PDF mittels Tabula bearbeiten

Ein anderer Weg ist die Umwandlung der PDF Datei mittels Tabula. Tabula ist gratis und kann hier heruntergeladen werden. Führt das Programm aus und wartet bis sich ein Browserfenster öffnet. Ladet dann das PDF File hoch.

Tabula_PDF_Import
Tabula_PDF_Import

Danach zur gewünschten Tabellen scrollen und diese mit einem Rahmen einfassen.

Tabula_Tabelle_auswaehlen
Tabula – Tabelle auswaehlen

Klickt auf “Preview & Export Extracted Data” und schaut die Vorschau an. Mittels Klick auf “Export” werden die Daten entweder als .csv oder Excel Datei gespeichert. Bitte beachtet, dass Tabula nur textbasierte Dokumente verarbeiten kann. Gescannte Dateien sind Bilder und können nicht verarbeitet werden.

Variante 3 – PDF mittels R einlesen

Die beiden vorgenannten Varianten eignen sich sowohl für Excel als auch für Power BI Desktop.
Im Power BI Desktop geht die Umwandlung von PDF Dateien mit der dritten Variante noch einfacher. Unter Verwendung von R können PDF Tabellen direkt umgewandelt werden. Imke hat dazu einen Blogbeitrag veröffentlicht:
http://www.thebiccountant.com/2018/01/09/use-r-to-import-text-from-pdf-files-in-power-bi/

Fazit:

Mit allen drei Varianten kann Power Query mühelos PDF Tabellen einlesen.
In Excel funktionierte die erste Variante bei mir am besten.
Die R-Variante in Power BI Desktop schlägt aber die anderen beiden Möglichkeiten bei weitem. Da Imke das Vorgehen wie immer sehr gut beschrieben hat, verzichte ich hier auf eine Wiederholung.

Hat Euch der Beitrag gefallen? Dann hinterlasst einen Kommentar oder “liked” ihn. Danke.

Mehr Artikel über Power Query findet Ihr im Power Query Online Buch.
Happy Querying!

Deine Bewertung
[Total: 3 Average: 4.3]

Kommentar verfassen

This site uses Akismet to reduce spam. Learn how your comment data is processed.

This website stores some user agent data. These data are used to provide a more personalized experience and to track your whereabouts around our website in compliance with the European General Data Protection Regulation. You may find further informations here: Privacy Policy   If you decide to opt-out of any future tracking, a cookie will be set up in your browser to remember this choice for one year. I Agree, Deny
832
%d Bloggern gefällt das: