Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W przypadku wzbogacania danych i szczegółowych informacji biznesowych usługa Microsoft Fabric oferuje środowiska nauki o danych, które umożliwiają użytkownikom tworzenie pełnych przepływów pracy nauki o danych. Aby rozpocząć pracę, zobacz samouczek dotyczący kompleksowej nauki o danych.
Możesz wykonać szeroką gamę działań w całym procesie nauki o danych:
- eksploracja danych
- przygotowywanie danych
- czyszczenie danych
- Eksperymentowanie
- Modelowanie
- ocenianie modelu
- obsługa szczegółowych informacji predykcyjnych w raportach analizy biznesowej
Użytkownicy usługi Microsoft Fabric mogą uzyskać dostęp do strony głównej nauki o danych. Następnie mogą odnajdywać i uzyskiwać dostęp do różnych odpowiednich zasobów, jak pokazano na poniższym zrzucie ekranu:
Większość projektów uczenia maszynowego jest realizowanych zgodnie z procesem nauki o danych. Na wysokim poziomie ten proces obejmuje następujące kroki:
- formułowanie i generowanie pomysłów problemu
- odnajdywanie i wstępne przetwarzanie danych
- eksperymentowanie i modelowanie
- wzbogacanie i operacjonalizacja
- wnioski z budowy
W tym artykule opisano możliwości nauki o danych w usłudze Microsoft Fabric z perspektywy procesu nauki o danych. Dla każdego kroku procesu nauki o danych ten artykuł zawiera podsumowanie możliwości usługi Microsoft Fabric, które mogą pomóc.
Formułowanie problemu i ideacja
Użytkownicy nauki o danych w usłudze Microsoft Fabric pracują na tej samej platformie co użytkownicy biznesowi i analitycy. Udostępnianie danych i współpraca stają się w rezultacie bardziej bezproblemowe w różnych rolach. Analitycy mogą łatwo udostępniać raporty i zestawy danych usługi Power BI praktykom nauki o danych. Łatwość współpracy między rolami w usłudze Microsoft Fabric ułatwia przekazywanie zadań w fazie formułowania problemu.
Odnajdywanie i wstępne przetwarzanie danych
Użytkownicy usługi Microsoft Fabric mogą wchodzić w interakcje z danymi w usłudze OneLake przy użyciu zasobu lakehouse. Aby przeglądać dane i wchodzić z nimi w interakcje, usługa Lakehouse łatwo dołącza się do notesu. Użytkownicy mogą łatwo odczytywać dane z usługi Lakehouse bezpośrednio do ramki danych Pandas. W celu eksploracji możliwe staje się bezproblemowe czytanie danych z usługi OneLake.
Zaawansowany zestaw narzędzi jest dostępny dla potoków pozyskiwania danych i orkiestracji danych przy użyciu potoków integracji danych — natywnie zintegrowanej części usługi Microsoft Fabric. Łatwe do skonstruowania pipeline'y mogą uzyskiwać dostęp do danych i przekształcać je w format nadający się do uczenia maszynowego.
Eksploracja danych
Ważną częścią procesu uczenia maszynowego jest zrozumienie danych za pośrednictwem eksploracji i wizualizacji.
W zależności od lokalizacji przechowywania danych usługa Microsoft Fabric oferuje narzędzia do eksplorowania i przygotowywania danych do analizy i uczenia maszynowego. Same notesy stają się wydajnymi, skutecznymi narzędziami do eksploracji danych.
Apache Spark i Python na potrzeby przygotowywania danych
Usługa Microsoft Fabric może przekształcać, przygotowywać i eksplorować dane na dużą skalę. Dzięki platformie Spark użytkownicy mogą używać narzędzi PySpark/Python, Scala i SparkR/SparklyR do wstępnego przetwarzania danych na dużą skalę. Zaawansowane biblioteki wizualizacji typu open source mogą ulepszyć środowisko eksploracji danych, aby lepiej zrozumieć dane.
Wrangler danych na potrzeby bezproblemowego czyszczenia danych
Aby użyć Data Wrangler, interfejs notesu Microsoft Fabric dodał funkcję narzędzia do kodowania, która przygotowuje dane i generuje kod w języku Python. To środowisko ułatwia przyspieszenie żmudnych i przyziemnych zadań — na przykład czyszczenia danych. Dzięki niej można również tworzyć automatyzację i powtarzalność za pomocą wygenerowanego kodu. Dowiedz się więcej o usłudze Data Wrangler w sekcji Data Wrangler tego dokumentu.
Eksperymentowanie i modelowanie uczenia maszynowego
Dzięki narzędziom, takich jak PySpark/Python i SparklyR/R, notesy mogą obsługiwać trenowanie modelu uczenia maszynowego. Algorytmy i biblioteki uczenia maszynowego mogą pomóc w trenowaniu modeli uczenia maszynowego. Narzędzia do zarządzania bibliotekami mogą instalować te biblioteki i algorytmy. Użytkownicy mogą następnie używać popularnych bibliotek uczenia maszynowego do ukończenia trenowania modelu uczenia maszynowego w usłudze Microsoft Fabric. Ponadto popularne biblioteki, takie jak Scikit Learn, mogą również tworzyć modele.
Eksperymenty i przebiegi platformy MLflow mogą śledzić trenowanie modeli uczenia maszynowego. Aby rejestrować eksperymenty i modele, usługa Microsoft Fabric oferuje wbudowane środowisko MLflow, które obsługuje interakcję. Dowiedz się więcej o sposobie używania biblioteki MLflow do śledzenia eksperymentów i zarządzania modelami w usłudze Microsoft Fabric.
SynapseML
Firma Microsoft jest właścicielem i obsługuje bibliotekę open source synapseML (wcześniej znaną jako MMLSpark). Upraszcza tworzenie wysoce skalowalnych potoków uczenia maszynowego. Jako ekosystem narzędzi rozszerza platformę Apache Spark w kilku nowych kierunkach. Usługa SynapseML łączy kilka istniejących struktur uczenia maszynowego i nowe algorytmy firmy Microsoft w jeden skalowalny interfejs API. Biblioteka synapseML typu open source zawiera bogaty ekosystem narzędzi uczenia maszynowego na potrzeby opracowywania modeli predykcyjnych i używa wstępnie wytrenowanych modeli sztucznej inteligencji z usług Azure AI. Aby uzyskać więcej informacji, odwiedź zasób synapseML .
Wzbogacanie i operacjonalizacja
Notatniki mogą obsługiwać ocenianie wsadowe modelu uczenia maszynowego za pomocą bibliotek typu open source do przewidywania. Mogą również obsługiwać skalowalną uniwersalną funkcję Spark Predict w usłudze Microsoft Fabric. Ta funkcja obsługuje spakowane modele MLflow w rejestrze modeli usługi Microsoft Fabric.
Uzyskiwanie informacji
W usłudze Microsoft Fabric można łatwo zapisywać przewidywane wartości do OneLake. Stamtąd raporty Power BI mogą bezproblemowo wykorzystywać je w trybie Power BI Direct Lake. Praktycy z zakresu nauki o danych mogą łatwo dzielić się wynikami swojej pracy z interesariuszami, co z kolei ułatwia wdrożenie.
Funkcje planowania notesów umożliwiają planowanie przebiegów notesów zawierających ocenianie wsadowe. Można również zaplanować ocenianie wsadowe w ramach działań potoku lub zadań platformy Spark. W trybie direct lake w usłudze Microsoft Fabric usługa Power BI automatycznie pobiera najnowsze przewidywania bez konieczności ładowania lub odświeżania danych.
Eksploracja danych za pomocą linku semantycznego
Analitycy danych i analitycy biznesowi poświęcają dużo czasu, próbując zrozumieć, oczyścić i przekształcić dane przed rozpoczęciem znaczącej analizy. Analitycy biznesowi zwykle pracują z modelami semantycznymi i kodują swoją wiedzę na temat domeny i logikę biznesową do miar usługi Power BI. Z drugiej strony analitycy danych mogą pracować z tymi samymi danymi, ale zazwyczaj używają innego środowiska kodu lub języka. Korzystając z linku semantycznego, analitycy danych mogą nawiązać połączenie między semantycznymi modelami usługi Power BI i nauką o danych usługi Synapse w środowisku usługi Microsoft Fabric za pośrednictwem biblioteki języka Python SemPy. Aby uprościć analizę danych, oprogramowanie SemPy przechwytuje i używa semantyki danych, ponieważ użytkownicy wykonują różne przekształcenia w modelach semantycznych. Gdy analitycy danych używają linku semantycznego, mogą
- unikanie ponownego wdrażania logiki biznesowej i wiedzy o domenie w kodzie
- Łatwy dostęp do miar Power BI i ich wykorzystanie w kodzie.
- używanie semantyki do obsługi nowych środowisk — na przykład funkcji semantycznych
- eksplorowanie i weryfikowanie zależności funkcjonalnych i relacji między danymi
Gdy organizacje korzystają z rozwiązania SemPy, mogą oczekiwać
- większa produktywność i szybsza współpraca między zespołami, które działają na tych samych zestawach danych
- zwiększona współpraca krzyżowa między zespołami analizy biznesowej i sztucznej inteligencji
- zmniejszenie niejasności i łatwiejszy proces adaptacji przy wdrażaniu do nowego modelu lub zestawu danych
Aby uzyskać więcej informacji na temat linku semantycznego, zobacz Co to jest link semantyczny?.
Treści powiązane
- Odwiedź Samouczki nauki o danych, aby rozpocząć pracę z całościowymi przykładami nauki o danych.
- Odwiedź witrynę Data Wrangler, aby uzyskać więcej informacji na temat przygotowywania i czyszczenia danych za pomocą narzędzia Data Wrangler
- Odwiedź stronę Eksperyment uczenia maszynowego , aby dowiedzieć się więcej na temat śledzenia eksperymentów
- Odwiedź stronę Model uczenia maszynowego , aby dowiedzieć się więcej o zarządzaniu modelami
- Odwiedź stronę Score models with PREDICT, aby dowiedzieć się więcej na temat oceniania wsadowego przy użyciu funkcji Predict.
- Udostępnianie przewidywań Lakehouse w Power BI za pomocą Direct Lake