Ładowanie danych na potrzeby uczenia maszynowego i uczenia głębokiego

Ta sekcja zawiera informacje dotyczące ładowania danych przeznaczonych dla aplikacji uczenia maszynowego i uczenia głębokiego. Aby uzyskać ogólne informacje na temat ładowania danych, zobacz Łączniki standardowe w programie Lakeflow Connect.

Przechowywanie plików na potrzeby ładowania danych i tworzenia punktów kontrolnych modelu

Aplikacje uczenia maszynowego mogą wymagać użycia magazynu udostępnionego do ładowania danych i tworzenia punktów kontrolnych modelu. Jest to szczególnie ważne w przypadku rozproszonego uczenia głębokiego.

Usługa Azure Databricks udostępnia Unity Catalog, ujednolicone rozwiązanie do zarządzania danymi i zasobami sztucznej inteligencji. Za pomocą Unity Catalog możesz uzyskać dostęp do danych w klastrze przy użyciu interfejsów API zarówno Spark, jak i lokalnych plików.

Ładowanie danych tabelarycznych

Dane uczenia maszynowego tabelarycznego można załadować z tabel lub plików (na przykład zobacz Odczyt plików CSV). Ramki danych platformy Apache Spark można przekonwertować na ramki danych biblioteki pandas przy użyciu PySpark, a następnie opcjonalnie przekonwertować na format NumPy przy użyciu toPandas()PySpark .

Przygotowywanie danych w celu dostosowania dużych modeli językowych

Możesz przygotować dane do precyzyjnego dostrajania dużych modeli językowych typu open source za pomocą funkcji uściśliania przekształcania twarzy i przytulania zestawów danych twarzy.

Przygotowywanie danych do precyzyjnego dostrajania modeli twarzy

Przygotowywanie danych do trenowania rozproszonego uczenia głębokiego

W tej sekcji opisano przygotowywanie danych do trenowania rozproszonego uczenia głębokiego przy użyciu biblioteki Mosaic Streaming i TFRecords.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-05-09