Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule opisano profilowanie danych. Zawiera omówienie składników i użycia profilowania danych.
Profilowanie danych zawiera podsumowanie statystyk dla tabeli, przetwarzanie metryk profilowania w czasie, dzięki czemu można łatwo wyświetlać trendy historyczne. Jest to przydatne do szczegółowego monitorowania wszystkich kluczowych metryk dla wybranych tabel. Można go również użyć do śledzenia wydajności modeli uczenia maszynowego i punktów końcowych obsługujących model, profilowania tabel wnioskowania, które zawierają dane wejściowe i przewidywania modelu. Na diagramie przedstawiono przepływ danych za pośrednictwem potoków danych i uczenia maszynowego w usłudze Databricks oraz sposób używania profilowania do ciągłego śledzenia jakości danych i wydajności modelu.
Dlaczego warto używać profilowania danych?
Metryki ilościowe ułatwiają śledzenie i potwierdzanie jakości i spójności danych w czasie. Po wykryciu zmian w dystrybucji danych tabeli lub wydajności odpowiedniego modelu tabele utworzone przez profilowanie danych mogą przechwytywać i powiadamiać o zmianie, co może pomóc w zidentyfikowaniu przyczyny.
Profilowanie danych pomaga odpowiedzieć na pytania podobne do następujących:
- Jak wygląda integralność danych i jak zmienia się z upływem czasu? Na przykład jaki jest ułamek wartości null lub zero w bieżących danych i czy został on zwiększony?
- Jak wygląda statystyczny rozkład danych i jak zmienia się w czasie? Na przykład jaki jest 90. percentyl kolumny liczbowej? A co to jest rozkład wartości w kolumnie podzielonej na kategorie i jak różni się od wczoraj?
- Czy istnieje dryf między bieżącymi danymi a znanym punktem odniesienia lub między kolejnymi oknami czasu danych?
- Jak wygląda rozkład statystyczny lub dryf podzestawu lub wycinka danych?
- W jaki sposób dane wejściowe i przewidywania modelu uczenia maszynowego zmieniają się w czasie?
- Jak zmienia się wydajność modelu z czasem? Czy wersja modelu A działa lepiej niż wersja B?
Ponadto profilowanie danych pozwala kontrolować stopień szczegółowości czasu obserwacji i konfigurować metryki niestandardowe.
Requirements
- Twój obszar roboczy musi być włączony dla Unity Catalog i musisz mieć dostęp do Databricks SQL.
- Aby włączyć profilowanie danych, musisz mieć następujące uprawnienia:
-
USE CATALOGw katalogu iUSE SCHEMAw schemacie zawierającym tabelę. -
SELECTna stole. -
MANAGEw katalogu, schemacie lub tabeli.
-
Uwaga / Notatka
Profilowanie danych korzysta z bezserwerowych obliczeń do zadań, ale nie wymaga, aby Twoje konto było aktywowane do bezserwerowych obliczeń. Aby uzyskać informacje na temat śledzenia wydatków, zobacz Wyświetlanie kosztów monitorowania jakości danych.
Jak działa profilowanie danych
Aby profilować tabelę, należy utworzyć profil dołączony do tabeli. Aby profilować wydajność modelu uczenia maszynowego, należy dołączyć profil do tabeli wnioskowania zawierającej dane wejściowe modelu i odpowiadające im przewidywania.
Profilowanie danych zapewnia następujące typy analizy: szeregi czasowe, wnioskowanie i migawka.
| Typ profilu | Description |
|---|---|
| Szeregi czasowe | Służy do tabel zawierających zestaw danych szeregów czasowych na podstawie kolumny znacznika czasu. Profilowanie oblicza metryki jakości danych w oknach czasowych szeregów czasowych. |
| Wnioskowanie | Służy do tabel zawierających dziennik żądań dla modelu. Każdy wiersz jest żądaniem i zawiera kolumny ze znacznikiem czasu, wejściami do modelu, odpowiadającym przewidywaniem i (opcjonalnie) etykietą rzeczywistości. Profilowanie porównuje metryki wydajności modelu i jakości danych w oknach opartych na czasie dziennika żądań. |
| Migawka | Użyj dla wszystkich innych typów tabel. Profilowanie oblicza metryki jakości danych dla wszystkich danych w tabeli. Kompletna tabela jest przetwarzana przy każdym odświeżeniu. |
W tej sekcji krótko opisano tabele wejściowe używane przez profilowanie danych i tabele metryk, które tworzy. Diagram przedstawia relację między tabelami wejściowymi, tabelami metryk, profilem i pulpitem nawigacyjnym.
tabela podstawowa i tabela bazowa
Oprócz tabeli, która ma być profilowana, nazywanej "tabelą główną", opcjonalnie można określić tabelę odniesienia do wykorzystania jako odniesienie do mierzenia dryfu lub zmian wartości w czasie. Tabela linii bazowej jest przydatna, gdy masz próbkę tego, jak powinny wyglądać dane. Chodzi o to, że dryf jest następnie obliczany względem oczekiwanych wartości i dystrybucji danych.
Tabela odniesienia powinna zawierać zestaw danych, który odzwierciedla oczekiwaną jakość danych wejściowych, w zakresie rozkładów statystycznych, poszczególnych rozkładów kolumn, brakujących wartości i innych cech. Powinna być zgodna ze schematem profilowanej tabeli. Wyjątkiem jest kolumna znacznika czasu dla tabel używanych z szeregami czasowymi lub profilami wnioskowania. Jeśli w tabeli podstawowej lub tabeli bazowej brakuje kolumn, profilowanie używa heurystyki najwydajniejszego nakładu pracy w celu obliczenia metryk wyjściowych.
W przypadku profilów korzystających z profilu migawki tabela odniesienia powinna zawierać migawkę danych, w których rozkład reprezentuje akceptowalny standard jakości. Na przykład w przypadku danych rozkładu klasy można ustawić punkt odniesienia na poprzednią klasę, w której klasy zostały równomiernie rozłożone.
W przypadku profilów korzystających z profilu szeregów czasowych tabela odniesienia powinna zawierać dane reprezentujące okna czasowe, w których rozkłady danych reprezentują akceptowalny standard jakości. Na przykład w przypadku danych pogodowych można ustawić punkt odniesienia na tydzień, miesiąc lub rok, w którym temperatura była zbliżona do oczekiwanych normalnych temperatur.
W przypadku profilów korzystających z profilu wnioskowania dobrym wyborem dla punktu odniesienia są dane używane do trenowania lub weryfikowania profilowanego modelu. W ten sposób użytkownicy mogą być powiadamiani, gdy dane odchyliły się względem tego, na czym model został przetrenowany i zwalidowany. Ta tabela powinna zawierać te same kolumny funkcji co tabela podstawowa, a ponadto powinny mieć taką samą model_id_col wartość, która została określona dla tabeli podstawowej InferenceLog, aby dane były agregowane spójnie. W idealnym przypadku zestaw testów lub weryfikacji używany do oceny modelu powinien służyć do zapewnienia porównywalnych metryk jakości modelu.
Tabele metryk i pulpit nawigacyjny
Profilowanie tworzy dwie tabele metryk i pulpit nawigacyjny. Wartości metryk są obliczane dla całej tabeli, a dla okien czasowych i podzestawów danych (lub "wycinków") określonych podczas tworzenia profilu. Ponadto w przypadku analizy wnioskowania metryki są obliczane dla każdego identyfikatora modelu. Aby uzyskać więcej informacji na temat tabel metryk, zobacz Tabele metryk profilowania danych.
- Tabela metryk profilu zawiera statystyki podsumowania. Zobacz schemat tabeli metryk profilu .
- Tabela metryk dryfu zawiera statystyki związane z dryfem danych na przestrzeni czasu. Jeśli podano tabelę odniesienia, dryf jest również profilowany względem wartości punktu odniesienia. Zobacz schemat tabeli metryk dryfu .
Tabele metryk to tabele Delta i są przechowywane w określonym schemacie Unity Catalog. Tabele te można wyświetlać przy użyciu interfejsu użytkownika usługi Databricks, wykonywać zapytania względem nich przy użyciu języka SQL usługi Databricks oraz tworzyć pulpity nawigacyjne i alerty na ich podstawie.
Dla każdego profilu usługa Databricks automatycznie tworzy pulpit nawigacyjny, który ułatwia wizualizowanie i prezentowanie wyników profilu. Pulpit nawigacyjny można w pełni dostosowywać. Zobacz Panele kontrolne.
Ograniczenia
- Tylko tabele Delta są obsługiwane do profilowania, a tabela musi być jednym z następujących typów tabel: tabela zarządzana, tabela zewnętrzna, widok, zmaterializowany widok lub tabela przesyłania strumieniowego.
- Profile utworzone za pośrednictwem zmaterializowanych widoków nie obsługują przetwarzania przyrostowego.
- Nie wszystkie regiony są obsługiwane. Aby uzyskać pomoc regionalną, zobacz kolumnę Profilowanie danych w tabeli AI i dostępność funkcji uczenia maszynowego.
- Profile utworzone przy użyciu trybu analizy szeregów czasowych lub trybu analizy wnioskowania obliczają metryki tylko dla ostatnich 30 dni. Jeśli chcesz to dostosować, skontaktuj się z zespołem ds. kont usługi Databricks.
Rozpoczynanie korzystania z profilowania danych
Zobacz następujące artykuły, aby rozpocząć pracę:
- Tworzenie profilu przy użyciu interfejsu użytkownika usługi Databricks.
- Utwórz profil danych przy użyciu interfejsu API.
- Tabele metryk profilowania danych.
- Pulpit nawigacyjny profilowania danych.
- Alerty profilu.
- Używanie metryk niestandardowych z profilowaniem danych.
- tabele wnioskowania na potrzeby monitorowania i debugowania modeli.
- Śledzenie sprawiedliwości i stronniczości w modelach klasyfikacji.
- Zapoznaj się z materiałami referencyjnymi dotyczącymi interfejsu API profilowania danych.
- Przykładowe notebooki.