Erste Gedanken zu den Power BI Dataflows

This post is also available in: en

Hits: 507

Ich bin ehrlich gesagt wieder einmal völlig begeistert über die neusten Möglichkeiten in Power BI! Es ist etwas Grossartiges geschehen – Dataflows sind hier!

Heute, 6.11.2018, wurden die neuen Power BI Dataflows von Microsoft für den Public Preview freigegeben. Sie erweitern die Möglichkeiten der Datenspeicherung für Power BI. Dieser Beitrag basiert auf den bisher (also heute…..) gemachten Erfahrungen und wird sicherlich noch nicht komplett sein. Und ich bin überzeugt, dass in den nächsten Monaten die heutigen Funktionalitäten noch massiv erweitert werden.

Wenn Du mehr über Power BI lesen willst, so abonniere unseren Newsletter.


 


Übersicht über Dataflows

Was sind Dataflows?

Dataflows ergänzen das vorhandene Power BI Angebot um die Möglichkeit, die Daten aus verschiedenen Quellen in der Cloud zu speichern. Dadurch müssen Daten nicht mehr zuerst in einer (eventuell teuren) Datenbank, einer Accessdatei, in einer absturzgefährdeten Exceldatei (……) oder ähnlichem vorgehalten werden.

Mit Dataflows können Daten für einen Workspace (Arbeitsbereich) über die Benutzeroberfläche im Power BI Service importiert, bearbeitet und gespeichert werden.

Menüpunkt Dataflows im Arbeitsbereich Demoaccount

Um dem Benutzern, also uns, das Leben zu erleichtern, werden für den Datenimport und die -bearbeitung die Möglichkeiten von Power Query genutzt. Die Anzahl verfügbarer Transformationen ist zwar (noch?) eingeschränkt, ermöglicht aber durchaus die Durchführung der wichtigsten Schritte.

verfügbare Bearbeitungsschritte
verfügbare Bearbeitungsschritte

Wie aus Power BI Desktop bekannt, bildet jede Abfrage eine eigene Tabelle. Bis dato also nichts Unbekanntes, ausser dass dies im Power BI Service und nicht im Power BI Desktop geschieht.

Welche Datenquellen sind verfügbar?

Aktuell ist die Anzahl der verfügbaren Datenquellen noch eingeschränkt, wie im nachstehenden Bild ersichtlich ist.

Aktuell verfügbare Datenquellen
Aktuell verfügbare Datenquellen

Aber auch hier glaube ich, dass damit die wichtigsten Quellen bereits zum Start eingebunden werden können.

Wo werden die Daten eines Dataflows gespeichert?

Die erstellten Abfragen, respektive deren Daten, werden in einem Azure Data Lake Gen2 Storage, also in der Cloud, gespeichert, und zwar in sogenannten Entitäten. Eine Entität entspricht, vereinfacht gesagt, einer Tabelle oder eben dem Resultat einer Power Query Abfrage. Es sind bereits vordefinierte Entitäten im Power BI Service vorhanden, welche mit den Ergebnissen der Abfragen befüllt werden können. Gleichzeitig steht aber auch die Möglichkeit zur Verfügung, eigene Entitäten zu bilden.

Was sind die Bedingungen, um Dataflows zu benutzen?

Stand heute stehen Dataflows sowohl für die Pro als auch für die Premium Power BI Version zur Verfügung. Die Möglichkeit der Datenspeicherung ist bereits im Lizenzpreis enthalten und es entstehen keine zusätzlichen Kosten. 

Wie kann ich die Daten aus Dataflows nutzen und auswerten?

Die gespeicherten Daten können im Power BI Desktop über den neuen Konnektor “Power BI Dataflows” genutzt und auch weiterbearbeitet werden.

Power BI Dataflow abrufen
Power BI Dataflow abrufen

Dabei besteht auch die Möglichkeit, die Daten mit weiteren Datenquellen zu kombinieren und anzureichern. Die Daten können mit Power Query weiter bearbeitet werden, ebenso funktioniert auch die Erstellung von Measures ohne Einschränkungen.

Nutzen von Dataflows

Kostenlose Datenspeicherung!

Die neuen Power BI Dataflows bilden eine kostenlose Möglichkeit, Daten in Azure zu speichern und für Auswertungen mit Power BI zu verwenden. Es fallen keine Kosten für neue Hardware oder Cloud-Speicherdienste an.

Dataflows können ein Ersatz für Datenbanken sein

Die Daten werden in den Dataflows als Entitäten gespeichert. Ihr könnt Euch eine Entität als eine Tabelle vorstellen, die pro Arbeitsbereich (Workspace) gespeichert wird. Obwohl technisch gesehen jede Entität eher einer Vielzahl von csv Dateien (plus einer JSON Datei für die Metadaten) in einem Ordner (analog den Common Data Modells) entspricht, ist das Verhalten für den Benutzer dem einer Datenbanktabelle gleichgesetzt.

Jeder Arbeitsbereich kann mehrere Entitäten (Tabellen) enthalten und diese zusammen entsprechend dem Verhalten einer Datenbank.

Anreicherung bestehender Power BI Daten

Nutzer können innert kürzester Zeit neue Reports aus den Dataflows erstellen und vorhandene Reports mit zusätzlichen Daten anreichern, ohne dass sie auf die IT-Abteilung zurückgreifen müssen.

Auch vor der Einführung der Dataflows konnten vorhandene Power BI Daten, jedoch ohne Anreicherungsmöglichkeit, wiederverwendet werden. Dazu wurde als Datenquelle ein vorhandenes Power BI Datenset eingebunden.

Wiederverwendung vorhandenes Power BI Datenset
Wiederverwendung vorhandenes Power BI Datenset

Es fehlt jedoch wie gesagt die Möglichkeit, diese Daten durch weitere Daten zu ergänzen und anzureichern. Diese Limitation besteht mit den Dataflows nicht mehr.

Einschränkungen

Es gibt auch ein paar Einschränkungen.

Dataflows im persönlichen Arbeitsbereich nicht vorhanden

Im persönlichen Arbeitsbereich sind die Dataflows nicht vorhanden.

persönlicher Arbeitsbereich
persönlicher Arbeitsbereich

Diese macht ja aber auch durchaus Sinn, da der persönliche Arbeitsbereich…… eben persönlich ist. 

Daten “nur” pro Arbeitsbereich

Wer nicht über eine Premium Version verfügt, kann die Daten nur pro Arbeitsbereich verwenden. In der Premium Variante ist es auch möglich, dass Daten über mehrere Arbeitsbereiche hinweg verlinkt und verwendet werden können. 

Inkrementelles oder ganzes Laden

Beim inkrementellen Load werden nur neue oder veränderte Daten im Ladeprozess berücksichtigt. Wie in Power BI Desktop können in der Pro Version die Daten jedoch nur vollständig geladen werden. Es werden also wie gewohnt immer alle Daten aus der Quelle geladen und bereits vorhandene Datensätze überschrieben. Erst bei Verwendung der Premiumvariante ist das inkrementelle Laden möglich.

Dataflows sind kein Ersatz für ein Data Warehouse

Ich habe oft gehört, dass die Dataflows den Tod für klassische Data Warehouses (DWH) bedeuten. Ich bin da im Moment eher skeptisch!

Wie gesehen, ist in der Pro-Version kein inkrementelles Laden möglich. Dies führt dazu, dass Dataflows für mich im Moment keinen Ersatz für ein Data Warehouse (DWH) darstellen.

In einem DWH werden die Daten nie überschrieben. Neue Datensätze werden zusätzlich abgespeichert und alte, nicht mehr gültige Datensätze, werden “historisiert”.

Warum ist das von Bedeutung?

Nehmen wir eine Auswertung, welche auch über mehrere Zeitperioden hinweg zeigt, wie hoch der Umsatz pro Kundenregion war.

In einem DWH wird dazu die bisherige Wohnadresse bei einem Umzug weiter vorgehalten, aber auf inaktiv gesetzt. Die neue Adresse wird zusätzlich gespeichert und als aktiv gekennzeichnet. Dieses Vorgehen ermöglicht es, dass weiterhin geolokale Auswertungen auch in die Vergangenheit zurück möglich sind, da ja immer noch bekannt ist, wo Kunde X vor dem Umzug gewohnt hat.
Diese Art der Historisierung (auch Slow Changing Dimensions genannt) ist in den Dataflows nicht möglich, da immer alle Daten aktualisiert werden und somit auch Veränderungen verloren gehen.

Ob in der Premium Version vorhandene Daten auf inaktiv gesetzt, also verändert, werden können, entzieht sich mangels einer Testmöglichkeit völlig meiner Kenntnis. Falls ihr etwas dazu wisst, so lasst es uns bitte in der Kommentarfunktion wissen. 

GDPR und Datenschutz….

Ich werde mich hüten, mich hier auf die Äste raus zu lassen. Aber es ist natürlich klar und offensichtlich, dass trotz aller Begeisterung die Vorgaben des Datenschutzes sowie von GDPR respektive den jeweiligen Landesbestimmungen eingehalten werden müssen. Diese Frage ist aber unabhängig von der Verwendung von Dataflows vorab zu klären.

(vorläufiges) Schlusswort

Wiedermal bin ich begeistert – sämtliche für Power BI verwendbaren Daten können nun auch in der Cloud importiert, bearbeitet und gespeichert werden. Und dies mit den gewohnten Funktionalitäten von Power Query. Das Ganze ist also durchaus endbenutzerfreundlich gebaut worden.

Ich denke, wir stehen mit der Einführung der Dataflows am Beginn einer Entwicklung, deren Tragweite mir selber noch nicht ganz klar ist. Mein Bauch sagt mir aber, dass hier ein Game Changer auf den Markt gebracht wurde.

Ich werde mich in der nächsten Zeit noch mehr mit dem Thema auseinandersetzen und Euch wieder berichten.

Was haltet Ihr von den Dataflows? Was sind Eure Gedanken dazu? Lasst es uns im Kommentarteil bitte wissen.

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

%d Bloggern gefällt das: