Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule opisano, jak rozwiązanie AutoML przygotowuje dane do trenowania prognozowania i opisuje konfigurowalne ustawienia danych. Te opcje można dostosować podczas konfigurowania eksperymentu w interfejsie użytkownika rozwiązania AutoML.
Aby skonfigurować te ustawienia przy użyciu interfejsu API automatycznego uczenia maszynowego, zapoznaj się z dokumentacją interfejsu API języka Python rozwiązania AutoML.
Obsługiwane typy funkcji danych
Obsługiwane są tylko typy funkcji wymienione poniżej. Na przykład obrazy nie są obsługiwane.
Obsługiwane są następujące typy funkcji:
- Numeryczne (
ByteType, ,ShortTypeIntegerType,LongType,FloatTypeiDoubleType) - logiczny
- Ciąg (tekst kategorii lub angielski)
- Znaczniki czasu (
TimestampType,DateType) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML i nowsze)
- DecimalType (Databricks Runtime 11.3 LTS ML i nowsze)
Uzupełnianie brakujących wartości
W środowisku Databricks Runtime 10.4 LTS ML i nowszym można określić, w jaki sposób wartości null są przypisywane. W interfejsie użytkownika wybierz metodę z listy rozwijanej w kolumnie Impute with w schemacie tabeli. W interfejsie API użyj parametru imputers . Aby uzyskać więcej informacji, zobacz AutoML Python API reference (Dokumentacja interfejsu API języka Python rozwiązania AutoML).
Domyślnie rozwiązanie AutoML wybiera metodę imputacji na podstawie typu kolumny i zawartości.
Uwaga
Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych.
Dzielenie danych prognozowania na zestawy trenowania, walidacji i testowania
Rozwiązanie AutoML dzieli dane na trzy podziały na potrzeby trenowania, walidacji i testowania.
W przypadku zadań prognozowania rozwiązanie AutoML używa krzyżowego sprawdzania poprawności szeregów czasowych. Ta metoda przyrostowo rozszerza chronologicznie zestaw danych trenowania i przeprowadza walidację w kolejnych punktach czasowych. Krzyżowa walidacja zapewnia niezawodną ocenę wydajności modelu w różnych segmentach czasu. Gwarantuje to, że model prognozowania jest rygorystycznie testowany pod kątem nienajdących przyszłych danych, zachowując istotność i dokładność przewidywań.
Liczba składań krzyżowych zależy od cech tabeli wejściowej, takich jak liczba szeregów czasowych, obecność kowariantów i długość szeregów czasowych.
Agregacja szeregów czasowych
W przypadku problemów z prognozowaniem, gdy w szeregach czasowych istnieje wiele wartości, automl używa średniej wartości.
Aby zamiast tego użyć sumy, zmodyfikuj notes kodu źródłowego wygenerowany przez przebiegi wersji próbnej. W komórce Agregowanie danych według ... zmień wartość .agg(y=(target_col, "avg")) na .agg(y=(target_col, "sum")), jak pokazano:
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })