Udostępnij przez


Próbkowanie liniowe o wysokiej gęstości w usłudze Power BI

Algorytm próbkowania w usłudze Power BI ulepsza wizualizacje, które próbkują dane o wysokiej gęstości. Możesz na przykład utworzyć wykres liniowy na podstawie wyników sprzedaży sklepów detalicznych, przy czym każdy sklep ma ponad 10 000 paragonów sprzedaży rocznie. Wykres liniowy takich informacji o sprzedaży próbkuje dane z danych dla każdego magazynu i tworzy wykres liniowy z wieloma seriami, który następnie reprezentuje dane bazowe. Pamiętaj, aby wybrać znaczącą reprezentację tych danych, aby zilustrować różnice sprzedaży w czasie. Ta praktyka jest powszechna w wizualizacji danych o wysokiej gęstości. Szczegóły próbkowania danych o wysokiej gęstości opisano w tym artykule.

Zrzut ekranu przedstawiający wykresy liniowe z danymi próbkowania o wysokiej gęstości.

Uwaga / Notatka

Algorytm próbkowania o wysokiej gęstości opisany w tym artykule jest dostępny zarówno w programie Power BI Desktop , jak i usłudze Power BI.

Jak działa próbkowanie liniowe o wysokiej gęstości

Wcześniej usługa Power BI wybrała kolekcję przykładowych punktów danych w pełnym zakresie danych bazowych w sposób deterministyczny. Na przykład w przypadku danych o wysokiej gęstości w wizualizacji obejmującej jeden rok kalendarzowy może być wyświetlanych 350 przykładowych punktów danych w wizualizacji, z których każda została wybrana, aby upewnić się, że pełny zakres danych był reprezentowany w wizualizacji. Aby zrozumieć, jak to się stanie, wyobraź sobie wykreślenie ceny akcji w okresie jednego roku i wybranie 365 punktów danych w celu utworzenia wizualizacji wykresu liniowego. Jest to jeden punkt danych dla każdego dnia.

W takiej sytuacji istnieje wiele wartości dla ceny akcji w ciągu każdego dnia. Oczywiście, istnieje dzienne maksimum i minimum, ale mogą one występować w dowolnym momencie, gdy giełda jest otwarta, w ciągu dnia. W przypadku próbkowania liniowego o wysokiej gęstości, jeśli próbka danych bazowych została pobrana o godzinie 10:30 i 12:00 każdego dnia, otrzymasz reprezentatywną migawkę danych bazowych, taką jak cena o godzinie 10:30 i 12:00. Jednak wycinek może nie odzwierciedlać rzeczywistych wartości maksymalnych i minimalnych ceny akcji dla tej reprezentatywnej wartości danych tego dnia. W takiej sytuacji i innych próbkowanie jest reprezentatywne dla danych bazowych, ale nie zawsze przechwytuje ważne punkty, co w tym przypadku byłoby dziennym wzrostem cen akcji i upadkami.

Zgodnie z definicją dane o wysokiej gęstości są próbkowane w celu tworzenia wizualizacji odpowiednio szybko reagujących na interakcyjność. Zbyt wiele punktów danych na wizualizacji może ją przeciążyć i utrudnić widoczność trendów. Sposób próbkowania danych jest tym, co napędza tworzenie algorytmu próbkowania w celu zapewnienia najlepszego środowiska wizualizacji. W programie Power BI Desktop algorytm zapewnia najlepszą kombinację reaktywności, reprezentacji i czytelnego zachowania ważnych punktów w każdym przekroju czasu.

Jak działa nowy algorytm próbkowania liniowego

Algorytm próbkowania liniowego o wysokiej gęstości jest dostępny dla wizualizacji wykresu liniowego i wykresu warstwowego z ciągłą osią x.

W przypadku wizualizacji o wysokiej gęstości usługa Power BI inteligentnie dzieli dane na fragmenty o wysokiej rozdzielczości, a następnie wybiera ważne punkty reprezentujące każdy fragment. Ten proces fragmentowania danych o wysokiej rozdzielczości jest dostrojony, aby upewnić się, że wynikowy wykres jest wizualnie nie do odróżnienia od renderowania wszystkich bazowych punktów danych, ale jest szybszy i bardziej interaktywny.

Minimalne i maksymalne wartości wizualizacji liniowych o wysokiej gęstości

W przypadku każdej wizualizacji obowiązują następujące ograniczenia:

  • 3500 to maksymalna liczba punktów danych wyświetlanych na większości wizualizacji, niezależnie od liczby bazowych punktów danych lub serii, zobacz wyjątki na poniższej liście. Jeśli na przykład masz 10 serii z 350 punktami danych, wizualizacja osiągnęła maksymalny ogólny limit punktów danych. Jeśli masz jedną serię, może to mieć do 3500 punktów danych, jeśli algorytm uzna, że najlepsze próbkowanie danych bazowych.

  • Dla każdej wizualizacji istnieje maksymalnie 60 serii . Jeśli masz więcej niż 60 serii, podziel dane i utwórz wiele wizualizacji z nie więcej niż 60 seriami. Dobrym rozwiązaniem jest użycie fragmentatora do pokazywania tylko segmentów danych, ale tylko dla niektórych serii. Jeśli na przykład wyświetlasz wszystkie podkategorie w legendzie, możesz użyć fragmentatora do filtrowania według ogólnej kategorii na tej samej stronie raportu.

Maksymalna liczba limitów danych jest wyższa dla następujących typów wizualizacji, które są wyjątkami od limitu 3500 punktów danych:

  • Maksymalnie 150 000 punktów danych dla wizualizacji języka R.
  • 30 000 punktów danych dla wizualizacji usługi Azure Map.
  • 10 000 punktów danych dla niektórych konfiguracji wykresu punktowego (domyślnie 3500 wykresów punktowych).
  • 3,500 dla wszystkich pozostałych wizualizacji przy użyciu próbkowania o wysokiej gęstości. Niektóre inne wizualizacje mogą wizualizować więcej danych, ale nie będą używać próbkowania.

Te parametry zapewniają szybkie renderowanie wizualizacji w programie Power BI Desktop, reagują na interakcję z użytkownikami i nie powodują nadmiernego obciążenia obliczeniowego na komputerze renderujący wizualizację.

Ocena reprezentatywnych punktów danych dla wizualizacji liniowych o wysokiej gęstości

Gdy liczba bazowych punktów danych przekracza maksymalną liczbę punktów danych, które mogą być reprezentowane w wizualizacji, rozpoczyna się proces nazywany grupowaniem. Segmentowanie dzieli dane bazowe na grupy nazywane pojemnikami, a następnie iteracyjnie ulepsza te pojemniki.

Algorytm tworzy jak najwięcej pojemników, aby utworzyć największy stopień szczegółowości dla wizualizacji. W każdym pojemniku algorytm znajduje minimalną i maksymalną wartość danych, aby upewnić się, że ważne i znaczące wartości, takie jak wartości odstające, są przechwytywane i wyświetlane w wizualizacji. Na podstawie wyników kwantowania i późniejszej oceny danych przez usługę Power BI minimalna rozdzielczość osi x dla wizualizacji jest określana w celu zapewnienia maksymalnego stopnia szczegółowości wizualizacji.

Jak wspomniano wcześniej, minimalny stopień szczegółowości dla każdej serii wynosi 350 punktów, a maksymalna wartość to 3500 dla większości wizualizacji. Wyjątki są wymienione w poprzednich akapitach.

Każdy pojemnik jest reprezentowany przez dwa punkty danych, które stają się reprezentatywne punkty danych pojemnika w wizualizacji. Punkty danych są wysoką i niską wartością dla tego pojemnika. Poprzez wybór górnego i dolnego progu, proces grupowania danych zapewnia uchwycenie i przedstawienie każdej istotnej wysokiej wartości lub znaczącej niskiej wartości w wizualizacji.

Jeśli brzmi to jak wiele analiz, aby upewnić się, że sporadyczny odchyleniec jest uchwycony i właściwie przedstawiony w wizualizacji, masz rację. Jest to dokładna przyczyna algorytmu i procesu kwantowania.

Etykietki narzędzi i próbkowanie liniowe o wysokiej gęstości

Należy pamiętać, że ten proces kwantowania, który powoduje przechwycenie i wyświetlenie minimalnej i maksymalnej wartości w danym pojemniku, może mieć wpływ na sposób wyświetlania danych etykietek narzędzi po umieszczeniu wskaźnika myszy na punktach danych. Aby wyjaśnić, jak i dlaczego tak się dzieje, wróćmy do naszego przykładu na temat cen akcji.

Załóżmy, że tworzysz wizualizację na podstawie ceny akcji i porównujesz dwie różne akcje, z których obie korzystają z próbkowania o wysokiej gęstości. Dane bazowe dla każdej serii mają wiele punktów danych. Na przykład możesz rejestrować cenę akcji co sekundę w ciągu dnia. Algorytm próbkowania liniowego o wysokiej gęstości wykonuje kwantowanie dla każdej serii niezależnie od drugiej.

Teraz powiedzmy, że pierwsze akcje skaczą w górę w cenie 12:02, a następnie szybko wracają 10 sekund później. Jest to ważny punkt danych. W przypadku wystąpienia segmentacji dla tego papieru wartościowego, najwyższa wartość o godzinie 12:02 jest reprezentatywnym punktem danych dla tego segmentu.

Jednak dla drugiego waloru, 12:02 nie była ani wartością maksymalną, ani minimalną w przedziale czasowym obejmującym ten moment. Być może wartość maksymalna i minimalna dla przedziału obejmującego 12:02 wystąpiły trzy minuty później. W takiej sytuacji po utworzeniu wykresu liniowego i umieszczeniu wskaźnika myszy na wartości 12:02 zostanie wyświetlona wartość w etykietce narzędzia dla pierwszej akcji. Jest to spowodowane tym, że wskaźnik skoczył o 12:02, a ta wartość została wybrana jako wysoki punkt danych tego przedziału. Jednak w etykietce narzędzia nie będzie widoczna żadna wartość o godzinie 12:02 dla drugiej akcji. To dlatego, że druga akcja nie miała wysokiego ani niskiego punktu dla przedziału, który obejmował 12:02. W związku z tym nie ma danych do pokazania dla drugiej akcji o godzinie 12:02, więc nie są wyświetlane żadne dane w podpowiedzi.

Taka sytuacja występuje często w etykietkach narzędzi. Wysokie i niskie wartości dla określonego pojemnika prawdopodobnie nie pasują idealnie do punktów wartości osi x równomiernie skalowanych, a etykietka narzędzia nie wyświetla wartości.

Jak włączyć próbkowanie liniowe o wysokiej gęstości

Domyślnie algorytm jest włączony. Aby zmienić to ustawienie, przejdź do okienka Formatowanie , na karcie Ogólne i u dołu zobaczysz suwak próbkowania o wysokiej gęstości . Wybierz suwak, aby włączyć lubwyłączyć.

Zrzut ekranu przedstawiający próbkowanie liniowe o wysokiej gęstości z wskaźnikami do okienka Formatowanie, Ogólne i Próbkowanie o wysokiej gęstości.

Uwagi i ograniczenia

Algorytm próbkowania liniowego o wysokiej gęstości jest ważnym ulepszeniem usługi Power BI, ale istnieje kilka zagadnień, które należy znać podczas pracy z wartościami i danymi o wysokiej gęstości.

  • Ze względu na zwiększoną stopień szczegółowości i proces kwantowania etykietki narzędzi mogą pokazywać wartość tylko wtedy, gdy reprezentatywne dane są wyrównane do kursora. Aby uzyskać więcej informacji, zobacz sekcję Etykietki narzędzi i próbkowanie liniowe o wysokiej gęstości w tym artykule.

  • Gdy rozmiar ogólnego źródła danych jest zbyt duży, algorytm eliminuje serię (elementy legendy), aby uwzględnić maksymalne ograniczenie importu danych.

    • W tej sytuacji algorytm porządkuje serie legend w kolejności alfabetycznej, rozpoczynając od góry listy elementów legendy, aż do osiągnięcia maksymalnego limitu importu danych, po czym nie importuje więcej serii.
  • Jeśli podstawowy zestaw danych ma więcej niż 60 serii, maksymalna liczba serii, algorytm porządkuje serię alfabetycznie i eliminuje serie poza 60 serii uporządkowanych alfabetycznie.

  • Jeśli wartości w danych nie są typu liczba lub data/godzina, usługa Power BI nie będzie używać algorytmu i powróci do poprzedniego algorytmu próbkowania o niskiej gęstości.

  • Ustawienie Pokaż elementy bez danych nie jest obsługiwane za pomocą algorytmu.

  • Algorytm nie jest obsługiwany w przypadku korzystania z połączenia na żywo z modelem hostowanym w usługach SQL Server Analysis Services w wersji 2016 lub starszej. Jest ona obsługiwana w modelach hostowanych w usługach Power BI lub Azure Analysis Services.