Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Apache Spark — część usługi Microsoft Fabric — umożliwia uczenie maszynowe na dużą skalę. Służy do uzyskiwania szczegółowych informacji z dużych ilości ustrukturyzowanych, nieustrukturyzowanych i przesyłanych strumieniowo danych. Trenowanie modeli w usłudze Microsoft Fabric przy użyciu bibliotek typu open source, takich jak Apache Spark MLlib, SynapseML i inne.
Apache SparkML i MLlib
Apache Spark — część usługi Microsoft Fabric — to ujednolicona, równoległa struktura przetwarzania danych typu open source. Używa przetwarzania w pamięci w celu przyspieszenia analizy danych big data. Platforma Spark jest tworzona z myślą o szybkości, łatwości użycia i zaawansowanej analizie. Rozproszone obliczenia w pamięci w Spark są odpowiednie dla iteracyjnego uczenia maszynowego i algorytmów grafowych.
Skalowalne biblioteki uczenia maszynowego MLlib i SparkML umożliwiają modelowanie algorytmiczne w tym środowisku rozproszonym. Biblioteka MLlib udostępnia oryginalny interfejs API oparty na RDD. SparkML to nowszy pakiet, który udostępnia interfejs API oparty na ramce danych wyższego poziomu do tworzenia potoków uczenia maszynowego. Udostępnia on interfejs API wyższego poziomu oparty na ramkach danych na potrzeby budowy potoków uczenia maszynowego. Język SparkML nie obsługuje jeszcze wszystkich funkcji MLlib, ale zastępuje bibliotekę MLlib jako standardową bibliotekę uczenia maszynowego spark.
Uwaga
Dowiedz się więcej w temacie Trenowanie modeli za pomocą biblioteki MLlib platformy Apache Spark.
Popularne biblioteki
Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark zawiera kilka popularnych pakietów typu open source do trenowania modeli uczenia maszynowego. Te biblioteki udostępniają kod wielokrotnego użytku dla projektów. Środowisko uruchomieniowe obejmuje następujące biblioteki uczenia maszynowego:
Scikit-learn — popularna biblioteka z jednym węzłem dla klasycznych algorytmów uczenia maszynowego. Obsługuje ona większość nadzorowanych i nienadzorowanych algorytmów oraz obsługuje eksplorację danych i analizę danych.
XGBoost — popularna biblioteka ze zoptymalizowanymi algorytmami uczenia drzew decyzyjnych i lasów losowych.
Biblioteki PyTorch i Tensorflow to zaawansowane biblioteki uczenia głębokiego języka Python. Dzięki tym bibliotekom można ustawić liczbę funkcji wykonawczych w puli na zero, aby utworzyć modele z jedną maszyną. Mimo że ta konfiguracja nie obsługuje platformy Apache Spark, jest to prosty, ekonomiczny sposób tworzenia modeli z jedną maszyną.
SynapseML
Biblioteka open-source SynapseML (wcześniej znana jako MMLSpark) pomaga w tworzeniu skalowalnych potoków uczenia maszynowego (ML). Przyspiesza eksperymentowanie i umożliwia stosowanie zaawansowanych technik, w tym uczenia głębokiego, do dużych zestawów danych.
Usługa SynapseML udostępnia warstwę powyżej interfejsów API niskiego poziomu sparkML podczas tworzenia skalowalnych modeli uczenia maszynowego. Te interfejsy API obejmują indeksowanie ciągów, zestaw wektorów funkcji, przymus danych do układów odpowiednich dla algorytmów uczenia maszynowego i nie tylko. Biblioteka SynapseML upraszcza te i inne typowe zadania tworzenia modeli w PySpark.
Powiązana zawartość
Zapoznaj się z opcjami trenowania modeli uczenia maszynowego na platformie Apache Spark w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz:
- Używanie przykładów sztucznej inteligencji do tworzenia modeli uczenia maszynowego: korzystanie z przykładów sztucznej inteligencji
- Śledzenie przebiegów uczenia maszynowego przy użyciu eksperymentów: eksperymenty uczenia maszynowego