Udostępnij przez


TabularDatasetFactory Klasa

Zawiera metody tworzenia tabelarycznego zestawu danych dla usługi Azure Machine Learning.

Element TabularDataset jest tworzony przy użyciu from_* metod w tej klasie, na przykład metody from_delimited_files.

Aby uzyskać więcej informacji na temat pracy z tabelarycznymi zestawami danych, zobacz notes https://aka.ms/tabulardataset-samplenotebook.

Konstruktor

TabularDatasetFactory()

Metody

from_delimited_files

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w rozdzielanych plikach (e.g. CSV i TSV).

from_json_lines_files

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach wierszy JSON (http://jsonlines.org/).

from_parquet_files

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach Parquet.

from_sql_query

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w bazach danych SQL.

register_dask_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Utwórz zestaw danych na podstawie ramki danych dask.

register_pandas_dataframe

Tworzenie zestawu danych na podstawie ramki danych biblioteki pandas.

register_spark_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Tworzenie zestawu danych na podstawie ramki danych platformy Spark.

from_delimited_files

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w rozdzielanych plikach (e.g. CSV i TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parametry

Nazwa Opis
path
Wymagane

Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką Datastore i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać jednocześnie adresów URL i magazynów danych.

validate
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. Aby wyłączyć walidację, należy również ustawić wartość "infer_column_types".

include_path
Wymagane

Wartość logiczna do przechowywania informacji o ścieżce jako kolumny w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

infer_column_types
Wymagane

Wartość logiczna do wnioskowania typów danych kolumn. Wartość domyślna to True. Wnioskowanie typu wymaga, aby źródło danych było dostępne z bieżących obliczeń. Obecnie wnioskowanie wpisze tylko 200 pierwszych wierszy. Jeśli dane zawierają wiele typów wartości, lepiej jest podać żądany typ jako przesłonięć za pośrednictwem argumentu set_column_types. Zapoznaj się z sekcją Uwagi, aby zapoznać się z przykładami kodu dotyczącymi set_column_types.

set_column_types
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny, a wartość to DataType.

separator
Wymagane
str

Separator używany do dzielenia kolumn.

header
Wymagane

Określa sposób podwyższenia poziomu nagłówków kolumn podczas odczytywania z plików. Wartość domyślna to True dla wszystkich plików mających ten sam nagłówek. Pliki będą odczytywane jako bez nagłówka When header=False. Więcej opcji można określić przy użyciu wartości wyliczenia PromoteHeadersBehavior.

partition_format
Wymagane
str

Określ format partycji ścieżki. Wartość domyślna to Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/01/data.csv"where the partition is by department name and time, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".

support_multi_line
Wymagane

Domyślnie (support_multi_line=False) wszystkie podziały wierszy, w tym te w wartościach pól cytowanych, będą interpretowane jako podział rekordu. Odczytywanie danych w ten sposób jest szybsze i bardziej zoptymalizowane pod kątem równoległego wykonywania na wielu rdzeniach procesora. Jednak może to spowodować dyskretne generowanie większej liczby rekordów z nieprawidłowo wyrównanymi wartościami pól. Należy ustawić wartość True, gdy rozdzielane pliki są znane jako zawierające cudzysłów wierszy.

Biorąc pod uwagę ten plik CSV jako przykład, dane będą odczytywane inaczej na podstawie support_multi_line.

A,B,C1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
Wymagane

Określ, czy puste wartości pól powinny być ładowane jako puste ciągi. Wartość domyślna (Fałsz) odczytuje puste wartości pól jako wartości null. Przekazanie tej wartości jako True spowoduje odczytanie pustych wartości pól jako pustych ciągów. Jeśli wartości są konwertowane na wartości liczbowe lub daty/godziny, nie ma to wpływu, ponieważ puste wartości zostaną przekonwertowane na wartości null.

encoding
Wymagane
str

Określ kodowanie pliku. Obsługiwane kodowania to "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" i "windows1252"

Zwraca

Typ Opis

Zwraca obiekt TabularDataset.

Uwagi

from_delimited_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików rozdzielanych do reprezentacji tabelarycznej.

Aby dane były dostępne w usłudze Azure Machine Learning, rozdzielane pliki określone przez ścieżkę muszą znajdować się w Datastore publicznych adresach URL lub adresach URL publicznych sieci Web lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. Token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access

Typy danych kolumn są domyślnie wnioskowane z danych w rozdzielanych plikach. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach wierszy JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parametry

Nazwa Opis
path
Wymagane

Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką Datastore i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać jednocześnie adresów URL i magazynów danych.

validate
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

include_path
Wymagane

Wartość logiczna do przechowywania informacji o ścieżce jako kolumny w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

set_column_types
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz jest nazwą kolumny i wartością DataType

partition_format
Wymagane
str

Określ format partycji ścieżki. Wartość domyślna to Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.jsonl' gdzie partycja jest według nazwy i godziny działu, partition_format="/{Dział}/{PartitionDate:rrrr/MM/dd}/data.jsonl" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną datetime "PartitionDate" o wartości "2019-01-01".

invalid_lines
Wymagane
str

Sposób obsługi wierszy, które są nieprawidłowe w formacie JSON. Obsługiwane wartości to "error" i "drop".

encoding
Wymagane
str

Określ kodowanie pliku. Obsługiwane kodowania to "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" i "windows1252"

Zwraca

Typ Opis

Zwraca obiekt TabularDataset.

Uwagi

from_json_lines_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików JSON Lines do reprezentacji tabelarycznej.

Aby dane były dostępne w usłudze Azure Machine Learning, pliki wierszy JSON określone przez ścieżkę muszą znajdować się w Datastore publicznych adresach URL lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. Token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access

Typy danych kolumn są odczytywane z typów danych zapisanych w plikach JSON Lines. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parametry

Nazwa Opis
path
Wymagane

Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką Datastore i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać jednocześnie adresów URL i magazynów danych.

validate
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

include_path
Wymagane

Wartość logiczna do przechowywania informacji o ścieżce jako kolumny w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

set_column_types
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny, a wartość to DataType.

partition_format
Wymagane
str

Określ format partycji ścieżki. Wartość domyślna to Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".

Zwraca

Typ Opis

Zwraca obiekt TabularDataset.

Uwagi

from_parquet_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików Parquet do reprezentacji tabelarycznej.

Aby dane były dostępne w usłudze Azure Machine Learning, pliki Parquet określone przez ścieżkę muszą znajdować się w Datastore publicznych internetowych adresach URL lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. Token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access

Typy danych kolumn są odczytywane z typów danych zapisanych w plikach Parquet. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w bazach danych SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parametry

Nazwa Opis
query
Wymagane

Magazyn danych typu SQL i zapytanie.

validate
Wymagane

Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

set_column_types
Wymagane

Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny, a wartość to DataType.

query_timeout
Wymagane

Ustawia czas oczekiwania (w sekundach) przed zakończeniem próby wykonania polecenia i wygenerowania błędu. Wartość domyślna to 30 sekund.

Zwraca

Typ Opis

Zwraca obiekt TabularDataset.

Uwagi

from_sql_query tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z baz danych SQL do reprezentacji tabelarycznej. Obecnie obsługujemy tylko usługę MSSQLDataSource.

Aby dane były dostępne w usłudze Azure Machine Learning, baza danych SQL określona przez query usługę musi znajdować się w Datastore lokalizacji , a typ magazynu danych musi być typu SQL.

Typy danych kolumn są odczytywane z typów danych w wynikach zapytania SQL. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Utwórz zestaw danych na podstawie ramki danych dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametry

Nazwa Opis
dataframe
Wymagane
<xref:dask.dataframe.core.DataFrame>

Wymagana ramka danych dask do przekazania.

target
Wymagane

Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. W celu uniknięcia konfliktu zostanie wygenerowany folder guid w ścieżce docelowej.

name
Wymagane
str

Wymagana nazwa zarejestrowanego zestawu danych.

description
Wymagane
str

Opcjonalny. Opis tekstowy zestawu danych. Wartość domyślna to Brak.

tags
Wymagane

Opcjonalny. Słownik tagów wartości klucza do nadania zestawowi danych. Wartość domyślna to Brak.

show_progress
Wymagane

Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartością domyślną jest true.

Zwraca

Typ Opis

Zarejestrowany zestaw danych.

register_pandas_dataframe

Tworzenie zestawu danych na podstawie ramki danych biblioteki pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parametry

Nazwa Opis
dataframe
Wymagane

Wymagane w ramce danych pamięci do przekazania.

target
Wymagane

Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. W celu uniknięcia konfliktu zostanie wygenerowany folder guid w ścieżce docelowej.

name
Wymagane
str

Wymagana nazwa zarejestrowanego zestawu danych.

description
Wymagane
int

Opcjonalny. Opis tekstowy zestawu danych. Wartość domyślna to Brak.

tags
Wymagane

Opcjonalny. Słownik tagów wartości klucza do nadania zestawowi danych. Wartość domyślna to Brak.

show_progress
Wymagane

Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartością domyślną jest true.

row_group_size
Wymagane

Opcjonalny. Maksymalny rozmiar grupy wierszy do użycia podczas zapisywania pliku parquet. Wartość domyślna to Brak.

make_target_path_unique
Wymagane

Opcjonalnie wskazuje, czy w obiekcie docelowym ma zostać utworzony unikatowy podfolder. Wartością domyślną jest true.

Zwraca

Typ Opis

Zarejestrowany zestaw danych.

register_spark_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Tworzenie zestawu danych na podstawie ramki danych platformy Spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametry

Nazwa Opis
dataframe
Wymagane

Wymagane w ramce danych pamięci do przekazania.

target
Wymagane

Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. W celu uniknięcia konfliktu zostanie wygenerowany folder guid w ścieżce docelowej.

name
Wymagane
str

Wymagana nazwa zarejestrowanego zestawu danych.

description
Wymagane
str

Opcjonalny. Opis tekstowy zestawu danych. Wartość domyślna to Brak.

tags
Wymagane

Opcjonalny. Słownik tagów wartości klucza do nadania zestawowi danych. Wartość domyślna to Brak.

show_progress
Wymagane

Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartością domyślną jest true.

Zwraca

Typ Opis

Zarejestrowany zestaw danych.