Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Het bemonsteringsalgoritme in Power BI verbetert visuals die gegevens met hoge dichtheid bemonsteren. U kunt bijvoorbeeld een lijndiagram maken op basis van de verkoopresultaten van uw winkels, waarbij elke winkel elk jaar meer dan 10.000 verkoopbevestigingen heeft. Een lijndiagram van dergelijke verkoopgegevens zou steekproefgegevens uit de gegevens voor elke winkel bevatten en een lijndiagram met meerdere series maken dat vervolgens de onderliggende gegevens weergeeft. Zorg ervoor dat u een zinvolle weergave van die gegevens selecteert om te laten zien hoe de verkoop in de loop van de tijd varieert. Deze procedure is gebruikelijk bij het visualiseren van high-densitygegevens. De details van high-density-gegevenssampling worden beschreven in dit artikel.
Opmerking
Het high-densitysampling-algoritme dat in dit artikel wordt beschreven, is beschikbaar in zowel Power BI Desktop als de Power BI-service.
Hoe hoge-dichtheidsampling van lijnen werkt
Eerder heeft Power BI een verzameling voorbeeldgegevenspunten geselecteerd in het volledige bereik van onderliggende gegevens op een deterministische manier. Met gegevens met hoge dichtheid in een visual die één kalenderjaar beslaat, kunnen er bijvoorbeeld 350 gegevenspunten worden weergegeven in de visual. Elk van deze punten is geselecteerd om ervoor te zorgen dat het volledige gegevensbereik in de visual wordt weergegeven. Als u wilt weten hoe dit gebeurt, stelt u zich een aandelenkoers voor een periode van één jaar voor en selecteert u 365 gegevenspunten om een visual voor een lijndiagram te maken. Dat is één gegevenspunt voor elke dag.
In die situatie zijn er veel waarden voor een aandelenkoers binnen elke dag. Natuurlijk is er een dagelijks hoog en laag, maar die kunnen zich op elk moment tijdens de dag voordoen wanneer de beurs open is. Als voor hogedichtheidssampling van lijnen de onderliggende gegevens om 10:30 uur en 12:00 uur per dag zijn genomen, krijgt u een representatief momentopname van de onderliggende gegevens, de prijs om 10:30 uur en 12:00 uur. De momentopname legt echter mogelijk niet de werkelijke hoge en lage aandelenkoers vast voor dat representatieve gegevenspunt die dag. In die situatie en andere is de steekproef representatief voor de onderliggende gegevens, maar legt deze niet altijd belangrijke punten vast, wat in dit geval de hoogste en laagste koers van de dag zou zijn.
Data met hoge dichtheid worden per definitie gesampled om behoorlijk snel visualisaties te creëren die snel reageren op interactiviteit. Te veel gegevenspunten in een visual kunnen de leesbaarheid verminderen en de zichtbaarheid van trends verlagen. Hoe de gegevens worden bemonsterd, is wat het maken van het sampling-algoritme aanstuurt om de beste visualisatie-ervaring te bieden. In Power BI Desktop biedt het algoritme de beste combinatie van reactiesnelheid, weergave en duidelijk behoud van belangrijke punten in elk tijdssegment.
Hoe het nieuwe algoritme voor lijnsampling werkt
Het algoritme voor high-density lijnsampling is beschikbaar voor lijn- en vlakdiagrammen met een doorlopende x-as.
Voor een hoogdichtheidsvisualisatie segmenteert Power BI uw gegevens op intelligente wijze in hoge-resolutiesegmenten en kiest het vervolgens belangrijke punten om elk segment weer te geven. Dit proces voor het segmenteren van gegevens met een hoge resolutie is afgestemd om ervoor te zorgen dat de resulterende grafiek visueel niet te onderscheiden is van het weergeven van alle onderliggende gegevenspunten, maar sneller en interactiever is.
Minimum- en maximumwaarden voor lijnvisuals met hoge dichtheid
Voor elke visualisatie gelden de volgende beperkingen:
3500 is het maximum aantal gegevenspunten dat op de meeste visuals wordt weergegeven , ongeacht het aantal onderliggende gegevenspunten of reeksen, zie uitzonderingen in de volgende lijst. Als u bijvoorbeeld 10 reeksen met elk 350 gegevenspunten hebt, heeft de visual de maximale totale gegevenspuntenlimiet bereikt. Als u één reeks hebt, kan het maximaal 3500 gegevenspunten bevatten als het algoritme denkt dat de beste steekproeven voor de onderliggende gegevens zijn.
Er zijn een maximum van 60 reeksen voor elke visual. Als u meer dan 60 reeksen hebt, moet u de gegevens opsplitsen en meerdere visuals met elk 60 of minder reeksen maken. Het is raadzaam om een slicer te gebruiken om alleen segmenten van de gegevens weer te geven, maar alleen voor bepaalde reeksen. Als u bijvoorbeeld alle subcategorieën in de legenda weergeeft, kunt u een slicer gebruiken om te filteren op de algehele categorie op dezelfde rapportpagina.
Het maximum aantal gegevenslimieten is hoger voor de volgende typen visuals. Dit zijn uitzonderingen op de limiet van 3500 gegevenspunten:
- Maximaal 150.000 gegevenspunten voor R-visuals.
- 30.000 gegevenspunten voor Azure Map-visuals.
- 10.000 gegevenspunten voor sommige configuraties van spreidingsdiagrammen (spreidingsdiagrammen zijn standaard ingesteld op 3500).
- 3.500 voor alle andere visuals met hogedichtheidsbemonstering. Sommige andere visuals visualiseren mogelijk meer gegevens, maar ze gebruiken geen steekproeven.
Deze parameters zorgen ervoor dat visuals in Power BI Desktop snel worden weergegeven, reageren op interactie met gebruikers en niet leiden tot onnodige rekenoverhead op de computer die de visual weergeeft.
Representatieve gegevenspunten evalueren voor visualisaties van hoge dichtheidslijnen
Wanneer het aantal onderliggende gegevenspunten de maximumgegevenspunten overschrijdt die in de visual kunnen worden weergegeven, begint een proces dat binning wordt genoemd. Met binning worden de onderliggende gegevens onderverdeeld in groepen met de naam bins en worden deze bins vervolgens iteratief verfijnd.
Het algoritme creëert zoveel mogelijk bins om de visuele weergave zo gedetailleerd mogelijk te maken. Binnen elke bin vindt het algoritme de minimum- en maximumgegevenswaarden om ervoor te zorgen dat belangrijke waarden, zoals uitbijters, worden vastgelegd en weergegeven in de visual. Op basis van de resultaten van de binning en de daaropvolgende evaluatie van de gegevens door Power BI wordt de minimale resolutie voor de x-as van de visual bepaald om voor maximale granulariteit te zorgen.
Zoals eerder vermeld, is de minimale granulariteit voor elke reeks 350 punten en is het maximum 3500 voor de meeste visuals. De uitzonderingen worden vermeld in de vorige alinea's.
Elke bin wordt vertegenwoordigd door twee gegevenspunten, die de representatieve gegevenspunten van de bin in de visual worden. De gegevenspunten zijn de hoogste en laagste waarde voor die bin. Door de hoge en lage waardes te selecteren, zorgt het binning-proces ervoor dat elke belangrijke hoge waarde of significante lage waarde wordt vastgelegd en weergegeven in de visual.
Als dat klinkt als veel analyses om ervoor te zorgen dat een incidentele uitbijter wordt vastgelegd en correct wordt weergegeven in de visualisatie, hebt u gelijk. Dat is de exacte reden voor het algoritme en het binning-proces.
"Hints en hoogdichtheidslijnbemonstering"
Het is belangrijk om te weten dat dit binning-proces, dat resulteert in het vastleggen en weergeven van de minimum- en maximumwaarde in een bepaalde bin, van invloed kan zijn op de manier waarop tooltips gegevens weergeven wanneer u met de muis over de datapunten beweegt. Als u wilt uitleggen hoe en waarom dit gebeurt, gaan we terug naar ons voorbeeld over aandelenkoersen.
Stel dat u een visual maakt op basis van de aandelenkoers en dat u twee verschillende aandelen vergelijkt, die beide gebruikmaken van high-densitysampling. De onderliggende gegevens voor elke reeks bevatten veel gegevenspunten. Stel dat u de aandelenkoers elke seconde van de dag vastlegt. Het high-density sampling-algoritme voor reeksen voert binning uit voor elke reeks onafhankelijk van andere reeksen.
Stel nu dat het eerste aandeel tegen 12:02 uur in prijs springt en vervolgens 10 seconden later snel terugvalt. Dat is een belangrijk gegevenspunt. Wanneer binning plaatsvindt voor dat aandeel, is de hoogste om 12:02 een representatief datapunt voor die bin.
Voor het tweede aandeel was 12:02 echter geen hoog of laag in de bin die die tijd bevatte. Misschien zijn het hoogtepunt en laagtepunt voor het tijdsinterval dat 12:02 omvat drie minuten later opgetreden. Wanneer het lijndiagram wordt gemaakt en u de muisaanwijzer boven 12:02 houdt, ziet u een waarde in de tooltip voor het eerste aandeel. Dit komt doordat deze om 12:02 is gesprongen en die waarde is geselecteerd als het hoge gegevenspunt van die bin. Je ziet echter geen waarde in de tooltip om 12:02 voor het tweede aandeel. Dat komt doordat het tweede aandeel geen hoog of laag had in de categorie die 12:02 omvatte. Er zijn dus geen gegevens om de tweede voorraad om 12:02 weer te geven en daarom worden er geen knopinfogegevens weergegeven.
Deze situatie treedt regelmatig op met tooltips. De hoge en lage waarden voor een specifieke bin komen waarschijnlijk niet perfect overeen met de gelijkmatig geschaalde waarden van de x-as, en de tooltip geeft de waarde niet weer.
Hoe u high-density-lijnsampling kunt inschakelen
Het algoritme is standaard ingeschakeld. Als u deze instelling wilt wijzigen, gaat u naar het opmaakvenster , in de kaart Algemeen en onderaan ziet u de schuifregelaar voor high-densitysampling . Selecteer de schuifregelaar om in of uit te schakelen.
Overwegingen en beperkingen
Het algoritme voor lijnensampling met hoge dichtheid is een belangrijke verbetering in Power BI, maar er zijn enkele overwegingen waarmee u rekening moet houden wanneer u werkt met waarden en gegevens met hoge dichtheid.
Vanwege een verhoogde granulariteit en het binning-proces kan knopinfo alleen een waarde weergeven als de representatieve gegevens zijn uitgelijnd met de cursor. Zie de sectie Tooltips en hogedichtheidslijnbemonstering in dit artikel voor meer informatie.
Wanneer de grootte van een algemene gegevensbron te groot is, elimineert het algoritme reeksen (legenda-elementen) om de maximale beperking voor het importeren van gegevens mogelijk te maken.
- In deze situatie sorteert het algoritme de legendareeksen alfabetisch. Het begint met de lijst van legenda-elementen in alfabetische volgorde totdat het maximale aantal gegevens voor import is bereikt, en importeert vervolgens geen extra reeksen.
Wanneer een onderliggende gegevensset meer dan 60 reeksen heeft, wordt het maximum aantal reeksen door het algoritme alfabetisch gerangschikt en worden reeksen buiten de 60e alfabetische volgorde weggenomen.
Als de waarden in de gegevens niet van het type numeriek of datum/tijd zijn, gebruikt Power BI het algoritme niet en wordt het vorige, niet-high-densitysampling-algoritme hersteld.
De instelling Items zonder gegevens weergeven wordt niet ondersteund met het algoritme.
Het algoritme wordt niet ondersteund wanneer u een liveverbinding gebruikt met een model dat wordt gehost in SQL Server Analysis Services versie 2016 of eerder. Het wordt ondersteund in modellen die worden gehost in Power BI of Azure Analysis Services.