Trenowanie modeli uczenia maszynowego

Apache Spark — część usługi Microsoft Fabric — umożliwia uczenie maszynowe na dużą skalę. Służy do uzyskiwania szczegółowych informacji z dużych ilości ustrukturyzowanych, nieustrukturyzowanych i przesyłanych strumieniowo danych. Trenowanie modeli w usłudze Microsoft Fabric przy użyciu bibliotek typu open source, takich jak Apache Spark MLlib, SynapseML i inne.

Apache SparkML i MLlib

Apache Spark — część usługi Microsoft Fabric — to ujednolicona, równoległa struktura przetwarzania danych typu open source. Używa przetwarzania w pamięci w celu przyspieszenia analizy danych big data. Platforma Spark jest tworzona z myślą o szybkości, łatwości użycia i zaawansowanej analizie. Rozproszone obliczenia w pamięci w Spark są odpowiednie dla iteracyjnego uczenia maszynowego i algorytmów grafowych.

Skalowalne biblioteki uczenia maszynowego MLlib i SparkML umożliwiają modelowanie algorytmiczne w tym środowisku rozproszonym. Biblioteka MLlib udostępnia oryginalny interfejs API oparty na RDD. SparkML to nowszy pakiet, który udostępnia interfejs API oparty na ramce danych wyższego poziomu do tworzenia potoków uczenia maszynowego. Udostępnia on interfejs API wyższego poziomu oparty na ramkach danych na potrzeby budowy potoków uczenia maszynowego. Język SparkML nie obsługuje jeszcze wszystkich funkcji MLlib, ale zastępuje bibliotekę MLlib jako standardową bibliotekę uczenia maszynowego spark.

Uwaga

Dowiedz się więcej w temacie Trenowanie modeli za pomocą biblioteki MLlib platformy Apache Spark.

Popularne biblioteki

Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark zawiera kilka popularnych pakietów typu open source do trenowania modeli uczenia maszynowego. Te biblioteki udostępniają kod wielokrotnego użytku dla projektów. Środowisko uruchomieniowe obejmuje następujące biblioteki uczenia maszynowego:

Scikit-learn — popularna biblioteka z jednym węzłem dla klasycznych algorytmów uczenia maszynowego. Obsługuje ona większość nadzorowanych i nienadzorowanych algorytmów oraz obsługuje eksplorację danych i analizę danych.
XGBoost — popularna biblioteka ze zoptymalizowanymi algorytmami uczenia drzew decyzyjnych i lasów losowych.
Biblioteki PyTorch i Tensorflow to zaawansowane biblioteki uczenia głębokiego języka Python. Dzięki tym bibliotekom można ustawić liczbę funkcji wykonawczych w puli na zero, aby utworzyć modele z jedną maszyną. Mimo że ta konfiguracja nie obsługuje platformy Apache Spark, jest to prosty, ekonomiczny sposób tworzenia modeli z jedną maszyną.

SynapseML

Biblioteka open-source SynapseML (wcześniej znana jako MMLSpark) pomaga w tworzeniu skalowalnych potoków uczenia maszynowego (ML). Przyspiesza eksperymentowanie i umożliwia stosowanie zaawansowanych technik, w tym uczenia głębokiego, do dużych zestawów danych.

Usługa SynapseML udostępnia warstwę powyżej interfejsów API niskiego poziomu sparkML podczas tworzenia skalowalnych modeli uczenia maszynowego. Te interfejsy API obejmują indeksowanie ciągów, zestaw wektorów funkcji, przymus danych do układów odpowiednich dla algorytmów uczenia maszynowego i nie tylko. Biblioteka SynapseML upraszcza te i inne typowe zadania tworzenia modeli w PySpark.

Zapoznaj się z opcjami trenowania modeli uczenia maszynowego na platformie Apache Spark w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz:

Używanie przykładów sztucznej inteligencji do tworzenia modeli uczenia maszynowego: korzystanie z przykładów sztucznej inteligencji
Śledzenie przebiegów uczenia maszynowego przy użyciu eksperymentów: eksperymenty uczenia maszynowego

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-09-29

Udostępnij przez

Trenowanie modeli uczenia maszynowego

Apache SparkML i MLlib

Popularne biblioteki

SynapseML

Powiązana zawartość

Sprzężenie zwrotne

Dodatkowe źródła