Udostępnij przez


Przygotowywanie danych do prognozowania

W tym artykule opisano, jak rozwiązanie AutoML przygotowuje dane do trenowania prognozowania i opisuje konfigurowalne ustawienia danych. Te opcje można dostosować podczas konfigurowania eksperymentu w interfejsie użytkownika rozwiązania AutoML.

Aby skonfigurować te ustawienia przy użyciu interfejsu API automatycznego uczenia maszynowego, zapoznaj się z dokumentacją interfejsu API języka Python rozwiązania AutoML.

Obsługiwane typy funkcji danych

Obsługiwane są tylko typy funkcji wymienione poniżej. Na przykład obrazy nieobsługiwane.

Obsługiwane są następujące typy funkcji:

  • Numeryczne (ByteType, , ShortTypeIntegerType, LongType, FloatTypei DoubleType)
  • logiczny
  • Ciąg (tekst kategorii lub angielski)
  • Znaczniki czasu (TimestampType, DateType)
  • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML i nowsze)
  • DecimalType (Databricks Runtime 11.3 LTS ML i nowsze)

Uzupełnianie brakujących wartości

W środowisku Databricks Runtime 10.4 LTS ML i nowszym można określić, w jaki sposób wartości null są przypisywane. W interfejsie użytkownika wybierz metodę z listy rozwijanej w kolumnie Impute with w schemacie tabeli. W interfejsie API użyj parametru imputers . Aby uzyskać więcej informacji, zobacz AutoML Python API reference (Dokumentacja interfejsu API języka Python rozwiązania AutoML).

Domyślnie rozwiązanie AutoML wybiera metodę imputacji na podstawie typu kolumny i zawartości.

Uwaga

Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych.

Dzielenie danych prognozowania na zestawy trenowania, walidacji i testowania

Rozwiązanie AutoML dzieli dane na trzy podziały na potrzeby trenowania, walidacji i testowania.

W przypadku zadań prognozowania rozwiązanie AutoML używa krzyżowego sprawdzania poprawności szeregów czasowych. Ta metoda przyrostowo rozszerza chronologicznie zestaw danych trenowania i przeprowadza walidację w kolejnych punktach czasowych. Krzyżowa walidacja zapewnia niezawodną ocenę wydajności modelu w różnych segmentach czasu. Gwarantuje to, że model prognozowania jest rygorystycznie testowany pod kątem nienajdących przyszłych danych, zachowując istotność i dokładność przewidywań.

Liczba składań krzyżowych zależy od cech tabeli wejściowej, takich jak liczba szeregów czasowych, obecność kowariantów i długość szeregów czasowych.

Agregacja szeregów czasowych

W przypadku problemów z prognozowaniem, gdy w szeregach czasowych istnieje wiele wartości, automl używa średniej wartości.

Aby zamiast tego użyć sumy, zmodyfikuj notes kodu źródłowego wygenerowany przez przebiegi wersji próbnej. W komórce Agregowanie danych według ... zmień wartość .agg(y=(target_col, "avg")) na .agg(y=(target_col, "sum")), jak pokazano:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })