Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ta sekcja zawiera informacje dotyczące ładowania danych przeznaczonych dla aplikacji uczenia maszynowego i uczenia głębokiego. Aby uzyskać ogólne informacje na temat ładowania danych, zobacz Łączniki standardowe w programie Lakeflow Connect.
Przechowywanie plików na potrzeby ładowania danych i tworzenia punktów kontrolnych modelu
Aplikacje uczenia maszynowego mogą wymagać użycia magazynu udostępnionego do ładowania danych i tworzenia punktów kontrolnych modelu. Jest to szczególnie ważne w przypadku rozproszonego uczenia głębokiego.
Usługa Azure Databricks udostępnia Unity Catalog, ujednolicone rozwiązanie do zarządzania danymi i zasobami sztucznej inteligencji. Za pomocą Unity Catalog możesz uzyskać dostęp do danych w klastrze przy użyciu interfejsów API zarówno Spark, jak i lokalnych plików.
Ładowanie danych tabelarycznych
Dane uczenia maszynowego tabelarycznego można załadować z tabel lub plików (na przykład zobacz Odczyt plików CSV). Ramki danych platformy Apache Spark można przekonwertować na ramki danych biblioteki pandas przy użyciu PySpark, a następnie opcjonalnie przekonwertować na format NumPy przy użyciu toPandas()PySpark .
Przygotowywanie danych w celu dostosowania dużych modeli językowych
Możesz przygotować dane do precyzyjnego dostrajania dużych modeli językowych typu open source za pomocą funkcji uściśliania przekształcania twarzy i przytulania zestawów danych twarzy.
Przygotowywanie danych do precyzyjnego dostrajania modeli twarzy
Przygotowywanie danych do trenowania rozproszonego uczenia głębokiego
W tej sekcji opisano przygotowywanie danych do trenowania rozproszonego uczenia głębokiego przy użyciu biblioteki Mosaic Streaming i TFRecords.