Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Op deze pagina wordt het gegevensmodel en de overwegingen uitgelegd die worden gebruikt in de voorbeelden die laten zien hoe u een metrische weergave maakt met behulp van SQL of de gebruikersinterface.
Overzicht van voorbeeldgegevensset
De voorbeelden in Use SQL voor het maken en beheren van metrische weergaven en het maken van een metrische weergave met behulp van de gebruikersinterface van Catalog Explorer gebruiken de TPC-H gegevensset, die standaard beschikbaar is in Unity Catalog-gegevenssets.
De TPC-H gegevensset is een standaardbenchmarkgegevensset die wordt gebruikt om beslissingsondersteuningssystemen en queryprestaties te evalueren. Het modelleert een groothandelsketenbedrijf en is gestructureerd rond algemene bedrijfsactiviteiten zoals orders, klanten, leveranciers en onderdelen. Het vertegenwoordigt een verkoop- en distributieomgeving, waar klanten bestellingen plaatsen voor onderdelen die door verschillende leveranciers in verschillende landen en regio's worden geleverd.
Het schema heeft 8 tabellen:
REGIONenNATION: Deze tabellen definiëren de locatie.CUSTOMERenSUPPLIER: In deze tabellen worden bedrijfsentiteiten beschreven.PARTenPARTSUPP: deze tabellen leggen productinformatie en beschikbaarheid van leveranciers vast.ORDERSenLINEITEM: deze tabellen vertegenwoordigen transacties, met regelitems met informatie over producten binnen orders.
TPC-H gegevensset ERD
In het volgende diagram worden de relaties tussen de tabellen uitgelegd.
Legenda:
- De haakjes na elke tabelnaam bevatten het voorvoegsel van de kolomnamen voor die tabel;
- De pijlen wijzen in de richting van de een-op-veel-relaties tussen tabellen;
- Het getal/de formule onder elke tabelnaam vertegenwoordigt de kardinaliteit (aantal rijen) van de tabel. Sommige worden meegerekend door SF, de schaalfactor, om de gekozen databasegrootte te verkrijgen. De kardinaliteit voor de tabel LINEITEM is bij benadering (zie component 4.2.5).
(bron: TPC Benchmark H Standard-specificatie)
Een metrische weergave definiëren
U kunt een metrische weergave definiëren met behulp van SQL DDL of de gebruikersinterface van Catalog Explorer. U kunt ook de Databricks-assistent gebruiken om aan de slag te gaan met het maken van uw metrische weergave. Vervolgens kunt u de opgegeven SQL DDL bewerken of de metrische weergave-editor in de gebruikersinterface gebruiken om de voorgestelde definitie te verfijnen.
De metrische weergave die is gedefinieerd voor de voorbeelden in deze sectie is ontworpen voor een verkoop- of financiële analist om KPI's (Key Performance Indicators) met betrekking tot de orders van het bedrijf te bewaken. Het kan helpen bij het beantwoorden van vragen zoals:
- Hoe is de totale omzet in de loop van de tijd veranderd?
- Wat is de huidige uitsplitsing van onze orders op status (Open, Verwerken, Vervuld)?
- Welke volgordeprioriteiten genereren de meeste omzet?
- Hoeveel omzet is momenteel bedreigd of uitstaand (dat wil zeggen afkomstig van openstaande orders)?
- Wat is de gemiddelde omzet die per unieke klant wordt gegenereerd?
De benodigde onderdelen worden beschreven in de volgende tabel:
| Onderdeel | YAML-veld/expressie | Zakelijke betekenis |
|---|---|---|
| Brontabel | samples.tpch.orders |
De onbewerkte gegevens met klantorderrecords. |
| Filter | o_orderdate > '1990-01-01' |
Richt de analyse alleen op orders die na 1 januari 1990 zijn geplaatst, met uitzondering van historische of gearchiveerde gegevens. |
| Dimensie: Ordermaand | (DATE_TRUNC('MONTH', o_orderdate)) |
Hiermee kunt u trendanalyse (maand ten opzichte van maand/jaar per jaar) bijhouden hoe de prestaties in de loop van de tijd veranderen. |
| Dimensie: Orderstatus |
CASE instructie die de status vertaalt naar Open, Processingof Fulfilled |
Hiermee staat u segmentatie per levenscyclusfase toe, handig voor het beheer van afhandeling en achterstand. |
| Dimensie: Bestellingsprioriteit |
SPLIT instructie waarmee de volgordeprioriteit wordt opgemaakt als een getal |
Wordt gebruikt om de prestaties te groeperen op basis van het strategische belang of de urgentie van de volgorde. |
| Meting: Aantal bestellingen | COUNT(1) |
Meet de volumeverkoopactiviteit |
| Meting: Totale omzet | SUM(o_totalprice) |
De brutoverkoopwaarde van alle orders |
| Meting: Totale omzet per klant | SUM(o_totalprice) / COUNT(DISTINCT o_custkey) |
Een metrische waarde van de klant die nuttig is voor het beoordelen van de kwaliteit van de klanttransactie. |
| Meting: Totale omzet voor openstaande orders | SUM(o_totalprice) FILTER (WHERE o_orderstatus='O') |
De waarde van niet-verdiende omzet of de huidige verkoopachterstand. Wordt gebruikt voor prognoses en risicoanalyse. |
Databricks Assistant vragen
Databricks Assistant kan u helpen om aan de slag te gaan met het definiëren van een metrische weergave.
- Klik op
Het assistentpictogram in de rechterbovenhoek van uw Databricks-werkruimte om de assistent te openen.
- Typ een beschrijving van de metrische weergave die u wilt maken. De assistent retourneert SQL DDL die probeert te voldoen aan uw aanvraag.
- Kopieer de opgegeven SQL en plak deze in de SQL-editor. Klik vervolgens op Uitvoeren.
- Bewerk de SQL of open de editor voor de metrische weergave om aanpassingen te maken.
Een nieuwe metrische weergave maken
Gebruik een van de volgende voorbeelden om een nieuwe metrische weergave te maken: