Wir werden erklären, woraus die Datenmodellierung in Power BI besteht, das Konzept der Tabellen, die Notwendigkeit, die Tabellen miteinander zu verbinden, warum die Beziehungen zwischen den Tabellen in Power BI bei der Erstellung von Visualisierungen in Power BI notwendig sind. Wir erfahren, wann wir in unserem Power BI-Projekt ein Datenmodell verwenden sollten, warum es so wichtig ist und welche Arten von Modellen es gibt. Wir lernen Konzepte wie „Fakten“ und „Dimensionen“ kennen, und wir erfahren, welche Philosophie wir bei der Behandlung von Daten anwenden sollten, um ein professionelles und einzigartiges Datenmodell zu erstellen, das als Informationsquelle für eine genutzt werden kann Reporting-System.
Abgesehen davon, Power BI als Berichtsanalysetool zu sehen, um Daten zu analysieren, zu überprüfen, ob diese Daten die Realität widerspiegeln, und komplexere Tabellen oder Dashboards zu erstellen, mit denen Entscheidungen auf der Grundlage einer Reihe von Daten getroffen werden können, müssen wir Power BI als das sehen, was es ist : ein sehr leistungsfähiges Tool, das in Business Intelligence verwendet wird, um ein kohärentes Datenökosystem zu schaffen; Ein Datenökosystem, das viele Datenquellen aufnehmen, transformieren, verbinden und Bedeutung verleihen kann, sodass es als „einzige Quelle“ für die Berichterstattung verwendet werden kann, um all diese KPIs oder relevanten Werte analysieren zu können erfolgreich messen und parsen.
Dieser Idee, die Informationen zu vereinheitlichen und eine Stammdatenbank erstellen zu können, folgt eine weitere Idee, die vor langer Zeit aufgrund der Komplexität, diese Aufgabe auf einfache, effiziente Weise mit Automatismen zu erledigen, etwas utopisch klang eine einfache und durchführbare Aufgabe für jeden Analytiker.
In einer perfekten Welt hätten Unternehmen eine einzige Datenbank, in der alle interessanten kommerziellen Daten im Zusammenhang mit kommerziellen Aktivitäten (z. B. Verkäufe) sowie alle anderen interessanten Daten in einer einzigen Datei wiedergegeben würden, mit der sie arbeiten könnten direkt zur Erstellung von Berichten mit Grafiken, Tabellen, Karten usw.
Die Realität sieht meist ganz anders aus; Obwohl der Datentrend darin besteht, alle von einem Unternehmen generierten Daten, insbesondere die kommerziellen, mit demselben Programm oder derselben Software zu vereinen, ist es in der Praxis unmöglich, eine einzige Datei zu extrahieren, die alle erforderlichen Daten enthält, die wir benötigen .zu melden. Selbst in Situationen, in denen alle Informationen oder Aktivitäten eines Unternehmens in demselben Programm gesammelt werden, ist es bei der Extraktion dieser Daten entweder aufgrund des Volumens oder aufgrund von Programmhindernissen in vielen Fällen unmöglich, diese einzelne durchzuführen Extraktion, die es uns ermöglicht, agil zu arbeiten.
In vielen anderen Fällen möchten Sie einfach eine einzelne Datenbank aufbauen, in der wir Informationen oder Daten aus unterschiedlichen Programmen extrahieren, und in der es unmöglich ist, diese Daten zu vereinheitlichen, um mit einer Datenbank zu arbeiten.
Lassen Sie uns diese Situation anhand eines Beispiels besser sehen. Stellen wir uns ein Unternehmen mit einem Ladengeschäft und einem Online-Shop vor, in dem physische Handelsaktivitäten in traditionellen Geschäften generiert werden, aber es einen digitalen Kanal gibt, über den es auch möglich ist, alle in einem traditionellen Geschäft angebotenen Produkte zu kaufen. In diesem Fall ist es neben den Verkäufen möglich, dass es trotz desselben Systems, in dem Verkäufe (online und offline) im selben Programm erfasst werden, eine andere Art von Informationen gibt, die nicht direkt in diesem System erfasst werden können. Beispielsweise würden Online-Besuche in einer Analyseanwendung wie Google Analytics erfasst. Stellen wir uns außerdem vor, dass dieses Unternehmen Werbekampagnen in Medien wie TV und Digital durchführt,
Wenn wir dann eine Datei mit allen Abverkaufsinformationen, Offline- und Online-Informationen haben wollen und auch noch andere Attribute wie Besuche in Online-Shops und darüber hinaus den Werbedruck und die täglichen Investitionen in jedem Kanal sammeln möchten, sind wir es nicht in der Lage sein, all diese Informationen auf einheitliche Weise zu exportieren, indem eine einzige Abfrage durchgeführt wird. Jede Metrik muss in diesem Fall aus verschiedenen Quellen gesammelt werden, in denen diese Informationen aufgezeichnet werden.
Was wir jedoch tun können, ist, alle Informationen aus allen relevanten Datenquellen für die Zukunft des Unternehmens zu extrahieren und die Informationen mit einem Tool zu vereinheitlichen, mit dem wir all diese Informationen, die wir aus verschiedenen Quellen herunterladen mussten, aufnehmen und transformieren können , beziehen und schließlich darüber berichten, um Entscheidungen zum Wohle des Unternehmens zu treffen.
Hier kommen Business-Intelligence- und Data-Science-Tools wie Power BI ins Spiel, und unter diesen Umständen werden wir besser verstehen, was ein Datenmodell ist, wozu es dient und warum es ein sehr wichtiger Schritt ist Datenverarbeitung und -verwaltung der Daten, wenn das Ziel darin besteht, zu analysieren und Entscheidungen zu treffen. Gerade in diesen professionellen Datenmanagementumgebungen, in denen der Überfluss an Informationen vorherrscht und es an Kriterien zu ihrer Vereinheitlichung mangelt, können Tools wie Power BI eine Lösung finden, indem sie Kriterien, Ordnung und Kohärenz anwenden, Datenbanken vereinheitlichen und Verbinden Sie sie mit diesem Ziel, über das wir so viel sprechen: die Erstellung einer einzigen Hauptdatenbank, die als Säule und Rückgrat unserer Analysen und Berichte dient, die als Datenmodell bezeichnet wird.
1 Was ist ein Datenmodell?
Ein Datenmodell ist eine Darstellung einer Reihe von Daten, die in verschiedenen Tabellen organisiert und strukturiert sind, die so organisiert und miteinander verknüpft sind, dass vollständige Berichte mit den verschiedenen Feldern, Attributen oder Dimensionen erstellt werden können, die darin gesammelt werden verschiedene Tabellen von Daten. Die Herstellung dieser Beziehung ist dank eines gemeinsamen Felds möglich, das als Verbindung zwischen den verschiedenen Tabellen fungiert, in denen es eine Matrixtabelle gibt, die allgemein als Fakten bezeichnet wird, und einige Tabellen mit Dimensionen, die als Informationsverstärker fungieren.
Beispielsweise werden in einer Tabelle Informationen über die Verkäufe eines Unternehmens gesammelt, und in anderen sekundären Tabellen werden weitere Informationen über diese Verkäufe gesammelt, Attribute wie:
- Wann sind sie entstanden?
- Wo haben diese Verkäufe stattgefunden?
- Wer hat diese Verkäufe?
- Wie kamen Sie zu diesen Verkäufen?
- Welche Produkte genau verkauft wurden.
Das Datenmodell ist die Knochenstruktur der Berichte, wie ein Rückgrat, in dem wir gut organisierte und verwandte Informationen haben , um das Handicap zu überwinden, Informationen aus verschiedenen Quellen zu haben, die vereinheitlicht werden müssen, um einen Sinn daraus zu machen melden Sie es entsprechend mit der Gesamtheit der Daten.
Bei der Transformation der Daten haben wir bereits gesehen, wie Power BI im Power Editor die Funktionen des Kombinierens und Anhängens hat, um genau eine einzige Abfrage mit allen Informationen durchführen zu können, wobei die Informationen mit einem gemeinsamen Feld gekreuzt werden.
Für komplexere Fälle, in denen die Kombination verschiedener Quellen und Datensätze die Erstellung einer Struktur von Tabellen erfordert, die miteinander in Beziehung stehen, geht das Datenmodell noch einen Schritt weiter.
- Daten werden direkt in Power BI geladen
- Oder wenn wir die Transformationsphase abgeschlossen haben, wenn wir die Änderungen in Editor Power Query schließen und anwenden
Genauso wie wir die Verwendbarkeit von Power BI in Fällen kommentiert haben, in denen separate oder disaggregierte Informationen vereinheitlicht werden müssen, kann die Situation auftreten, dass bereits eine einzige Datenbank vorhanden ist, die die Säule und die vollständige Spalte eines Berichts darstellt, wenn dies der Fall ist alle Informationen werden in derselben Datenbank gesammelt und vereinheitlicht, und da es in diesem Fall keine sekundären Informationen gibt, die dazu führen, dass wir Zeit für die Arbeit an dem bereits erstellten Modell aufwenden müssen.
Selbst in einer hypothetischen Situation, in der wir separate Informationen in mehreren Tabellen haben, können wir, wie wir bereits bei der Datentransformation in Power BI gesehen haben, mit den Optionen zum Kombinieren von Abfragen und Anhängen von Abfragen auskommen: zwei Funktionen, die in der Datentransformation vorhanden sind, innerhalb die Tools des Power Query-Editors, um Querverweise auf Informationen zu erstellen und Daten zu vereinheitlichen.
In jedem Fall wird, wie wir kommentiert haben, das Datenmodell erstellt, und wir können es im Modul “Datenmodell” sehen, das durch eine Schaltfläche auf der linken Seite im kleinen vertikalen Menü dargestellt wird, in dem wir uns bewegen können jederzeit zwischen den Daten, den Modellen und den erstellten Visualisierungen.
Darüber hinaus müssen wir berücksichtigen, dass wir aufgrund des Datenmodells, selbst wenn alle Informationen zuvor in derselben Tabelle gesammelt wurden, möglicherweise eine neue Spalte in der Tabelle erstellen möchten, indem wir, wie wir später sehen werden, die verwenden Messungen (Dax) von Power BI.
Power BI funktioniert anders als Excel, wenn es darum geht, Berechnungen in neuen Spalten durchzuführen. Die Kennzahlen sind in Power BI, was in Excel die Funktionen oder Formeln sind, mit denen wir Verhältnisse berechnen.
Dieses Detail ist wichtig, da beim Erstellen des Modells, wie wir bereits gesehen haben, dieses standardmäßig automatisch erstellt wird, Power BI das Excel-Blatt als Matrixtabelle oder Faktentabelle (oder Fakten) auf die Achse des Modells legt Erste.
Dasselbe passiert, wenn wir die Daten transformieren. Wenn wir mehrere Excel-Tabellen umwandeln, empfehlen wir Ihnen, zuerst Ihre Faktentabelle umzuwandeln.
Wenn wir diese Reihenfolge nicht einhalten, gibt es kein Problem, da die Beziehungen der Tabellen, wie wir sehen werden, etwas sind, das Sie jederzeit ändern können, und Sie können Ihre Beziehungen zwischen den Tabellen manuell bearbeiten und erstellen. Aber wenn wir so vorgehen, sparen wir uns in Wahrheit später einen Teil des Prozesses, der manueller wäre.
Wie wir später sehen werden und wir bereits bei früheren Gelegenheiten darauf hingewiesen haben, ist die “Standardisierung von Konzepten” unerlässlich. Es ist mehr als eine Power BI-Anforderung, es ist eine Philosophie, die wir in unserer Arbeit lernen und predigen müssen, um ein professionelles Ergebnis zu erzielen.
Wenn wir über die Standardisierung von Begriffen sprechen, sprechen wir davon, immer dieselben Kriterien in den Nomenklaturen (Benennungen) zu verwenden, wie wir die Ereignisse, Personen oder Begriffe in den gesammelten Informationen sowohl in den Namen der Spalten als auch benennen in den Informationen in jeder Spalte einer Tabelle.
Stellen wir uns zum Beispiel ein Unternehmen vor, das Computer, Peripheriegeräte und Computerprodukte verkauft und in mehreren Ländern präsent ist. In den Datenbanken, in denen die Verkaufsinformationen gesammelt werden, finden wir verschiedene Bezeichnungen für dasselbe Produkt: Laptop oder Laptop. Wenn wir die Informationen kreuzen, ein Modell erstellen oder sie direkt in einer Tabelle oder einem Diagramm darstellen, müssen wir die Kriterien dieses Produkts vereinheitlichen. Auf die Gefahr hin, ins Offensichtliche zu verfallen, ist die Wahrheit, dass wir in der Praxis aus diesem Grund fehlerhafte Berichte finden, da die Kriterien nicht standardisiert sind.
Es ist sehr üblich, auf Berichte zu stoßen, bei denen viel Mühe darauf verwendet wurde, einen sehr visuellen Bericht zu erstellen, der attraktiv anzusehen ist, der jedoch Fehler dieser Art aufweist, weil nicht genug Zeit und Mühe für die Überprüfung der Daten aufgewendet wurde. Aus diesem Grund sagen wir, dass wir uns diese Philosophie der Überprüfung, Überprüfung und Gewährleistung verinnerlichen müssen, dass die Daten, mit denen wir die Berichte erstellen werden, die Realität getreu widerspiegeln, dass es sich um gültige Daten handelt, dass es eine Vereinheitlichung der Kriterien gibt usw .
Stellen wir uns einen anderen Fall vor, in dem genau das Feld oder die Spalte, in der die Informationen gesammelt werden, die wir als gemeinsames Feld zum Erstellen unseres Modells verwenden werden, Fehler, doppelte Werte usw. enthält. Der von diesem schlecht gemachten Modell abgeleitete Bericht wird uns Informationen liefern, die nicht real und nicht korrekt sind, und uns offensichtlich dazu bringen, Entscheidungen auf der falschen Grundlage zu treffen. Wie wir später sehen werden, ist die Erstellung eines Berichts nach der Umwandlung der Daten und der Erstellung eines gültigen Modells eine intuitive und einfache Aufgabe dank der Power BI-Schnittstelle und der Funktionen, die im Modul „Visualisierungen“ vorhanden sind . . .
2 Arten von Datenmodellen
Abhängig von der Einfachheit oder Komplexität des Modells können wir hauptsächlich über zwei Arten von Modellen sprechen: eines, bei dem es ein gemeinsames Feld gibt, das als gemeinsamer Nenner und Verbinder fungiert und die Haupttabelle (Fakten oder Fakten) mit anderen sekundären Tabellen verbindet ( Abmessungen), die die Informationen erweitern.
„Matrix“-Datenmodell oder allgemein Sterndatenmodell genannt: In diesem Datenmodell haben wir eine Faktentabelle, die beispielsweise die Umsätze eines Unternehmens mit einer eindeutigen Kennung sind, und darum herum haben wir andere Sekundärtabellen, die in diesem Fall beitragen würden Weitere Informationen zum Verkauf: Verkaufskanal, wo er stattgefunden hat (ob in einem Online-Shop oder einem physischen Geschäft), der Monat, in dem der Verkauf stattgefunden hat, und welches Produkt jeweils verkauft wurde.
Baumdatenmodell: Dieses Datenmodell geht einen Schritt weiter, indem wir, wie im Sterndatenmodell, eine Faktentabelle haben, die durch ein gemeinsames Feld mit anderen Dimensionstabellen verbunden ist, und wir haben auch andere Datentabellen, mit denen sie verbunden sind sekundäre Dimensionstabellen. So können wir die sekundären Tabellen oder Dimensionen mit anderen Tabellen verbinden, die andere Informationen liefern, die nicht mit der Matrix verbunden sind, sondern mit den Dimensionen, die auf einem anderen Konzept basieren, z. B. einem Datum. Auf diese Weise werden alle Tabellen direkt oder indirekt mit der Matrix, der Faktentabelle, verbunden, um eine einzige Datenstruktur aufzubauen.
3 Wann erstellt man ein Datenmodell?
Ein Datenmodell wird automatisch erstellt, wie wir gesehen haben, wenn wir Daten direkt in Power BI laden oder nachdem wir die Änderungen gespeichert und den Power Query-Editor geschlossen haben, also nach der Datentransformation. In beiden Fällen, das heißt, sobald die Daten in Power BI importiert wurden, wird automatisch ein Modell erstellt, mit dem Sie die Beziehungen zwischen Tabellen über die Modellschaltfläche im vertikalen Menü auf der linken Seite anzeigen, bearbeiten und konfigurieren können konnten wir auf dem Bild sehen.
Wir müssen uns bemühen, unser Datenmodell zu konfigurieren, insbesondere wenn wir Informationen aus verschiedenen Quellen konsolidieren müssen, wenn wir disaggregierte Informationen haben, die konsolidiert und strukturiert werden müssen, um eine vollständige Analyse mit den erforderlichen Informationen durchzuführen.
Als allgemeine Regel, und wie wir bereits erwähnt haben, müssen wir die Philosophie der Überprüfung unserer Arbeit anwenden. In diesem Fall ist es wichtig, dass wir in dieser Phase überprüfen, welche Beziehungen im Modell erstellt wurden und ob wir eine Beziehung löschen oder neue Beziehungen zwischen den importierten Datentabellen herstellen sollten.
Darüber hinaus müssen wir berücksichtigen, wie wir auch kommentiert haben, dass es an der Zeit ist, nach der Erstellung der Beziehungen zwischen den Tabellen zu prüfen, ob es notwendig ist, Messungen (Dax) durchzuführen, um unsere Daten um neue Informationen oder Berechnungen zu ergänzen Tabellen und Modelle. Denken Sie wie immer an den Abschlussbericht, den wir erstellen werden, und überlegen Sie, welche Kennzahlen wir im Bericht angeben wollen und müssen. Wenn all diese Informationen bereits in den Tabellen vorhanden sind oder wenn verschiedene Tabellen zusammengeführt und in Beziehung gesetzt werden, müssen wir beispielsweise Verhältnisse berechnen oder einige Operationen wie Additionen, Multiplikationen, Divisionen oder komplexere Berechnungen durchführen.
Wenn wir in Power BI arbeiten, ist es, wie wir bereits wissen und in den Projektphasen in Power BI erklärt haben, immer empfehlenswert, zunächst die Daten zu transformieren und in Abfragen umzuwandeln. Wenn wir diesen Schritt ausführen, erstellt Power BI mit allen Daten, die wir im Modell verwenden möchten, automatisch ein verbundenes Datenmodell für uns, solange wir in allen Tabellen ein gemeinsames Feld haben, eine eindeutige Kennung für Power BI wird erkannt und als Connector verwendet. . Dazu müssen wir in allen Tabellen ein gemeinsames Feld haben, eine Spalte mit Werten, die eindeutige Bezeichner sind, und dass der Name dieser Spalte gleich ist. Dies erleichtert Power BI, aber auch Ihnen, da Sie die Verbindung zwischen den Tabellen nicht manuell herstellen müssen. Die Beziehungen, die automatisch zwischen Tabellen erstellt werden,