TabularDatasetFactory Klasa
Zawiera metody tworzenia tabelarycznego zestawu danych dla usługi Azure Machine Learning.
Element TabularDataset jest tworzony przy użyciu from_* metod w tej klasie, na przykład metody from_delimited_files.
Aby uzyskać więcej informacji na temat pracy z tabelarycznymi zestawami danych, zobacz notes https://aka.ms/tabulardataset-samplenotebook.
Konstruktor
TabularDatasetFactory()
Metody
| from_delimited_files |
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w rozdzielanych plikach (e.g. CSV i TSV). |
| from_json_lines_files |
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach wierszy JSON (http://jsonlines.org/). |
| from_parquet_files |
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach Parquet. |
| from_sql_query |
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w bazach danych SQL. |
| register_dask_dataframe |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry. Utwórz zestaw danych na podstawie ramki danych dask. |
| register_pandas_dataframe |
Tworzenie zestawu danych na podstawie ramki danych biblioteki pandas. |
| register_spark_dataframe |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry. Tworzenie zestawu danych na podstawie ramki danych platformy Spark. |
from_delimited_files
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w rozdzielanych plikach (e.g. CSV i TSV).
static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')
Parametry
| Nazwa | Opis |
|---|---|
|
path
Wymagane
|
|
|
validate
Wymagane
|
Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. Aby wyłączyć walidację, należy również ustawić wartość "infer_column_types". |
|
include_path
Wymagane
|
Wartość logiczna do przechowywania informacji o ścieżce jako kolumny w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku. |
|
infer_column_types
Wymagane
|
Wartość logiczna do wnioskowania typów danych kolumn. Wartość domyślna to True. Wnioskowanie typu wymaga, aby źródło danych było dostępne z bieżących obliczeń. Obecnie wnioskowanie wpisze tylko 200 pierwszych wierszy. Jeśli dane zawierają wiele typów wartości, lepiej jest podać żądany typ jako przesłonięć za pośrednictwem argumentu set_column_types. Zapoznaj się z sekcją Uwagi, aby zapoznać się z przykładami kodu dotyczącymi set_column_types. |
|
set_column_types
Wymagane
|
Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny, a wartość to DataType. |
|
separator
Wymagane
|
Separator używany do dzielenia kolumn. |
|
header
Wymagane
|
Określa sposób podwyższenia poziomu nagłówków kolumn podczas odczytywania z plików. Wartość domyślna to True dla wszystkich plików mających ten sam nagłówek. Pliki będą odczytywane jako bez nagłówka When header=False. Więcej opcji można określić przy użyciu wartości wyliczenia PromoteHeadersBehavior. |
|
partition_format
Wymagane
|
Określ format partycji ścieżki. Wartość domyślna to Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/01/data.csv"where the partition is by department name and time, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01". |
|
support_multi_line
Wymagane
|
Domyślnie (support_multi_line=False) wszystkie podziały wierszy, w tym te w wartościach pól cytowanych, będą interpretowane jako podział rekordu. Odczytywanie danych w ten sposób jest szybsze i bardziej zoptymalizowane pod kątem równoległego wykonywania na wielu rdzeniach procesora. Jednak może to spowodować dyskretne generowanie większej liczby rekordów z nieprawidłowo wyrównanymi wartościami pól. Należy ustawić wartość True, gdy rozdzielane pliki są znane jako zawierające cudzysłów wierszy. Biorąc pod uwagę ten plik CSV jako przykład, dane będą odczytywane inaczej na podstawie support_multi_line. A,B,C1,B1,C1 A2,"B 2",C2
|
|
empty_as_string
Wymagane
|
Określ, czy puste wartości pól powinny być ładowane jako puste ciągi. Wartość domyślna (Fałsz) odczytuje puste wartości pól jako wartości null. Przekazanie tej wartości jako True spowoduje odczytanie pustych wartości pól jako pustych ciągów. Jeśli wartości są konwertowane na wartości liczbowe lub daty/godziny, nie ma to wpływu, ponieważ puste wartości zostaną przekonwertowane na wartości null. |
|
encoding
Wymagane
|
Określ kodowanie pliku. Obsługiwane kodowania to "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" i "windows1252" |
Zwraca
| Typ | Opis |
|---|---|
|
Zwraca obiekt TabularDataset. |
Uwagi
from_delimited_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików rozdzielanych do reprezentacji tabelarycznej.
Aby dane były dostępne w usłudze Azure Machine Learning, rozdzielane pliki określone przez ścieżkę muszą znajdować się w Datastore publicznych adresach URL lub adresach URL publicznych sieci Web lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. Token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access
Typy danych kolumn są domyślnie wnioskowane z danych w rozdzielanych plikach. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))
# create tabular dataset from all csv files in the directory
tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.csv',
'https://url/weather/2018/12.csv'
]
tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)
from_json_lines_files
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach wierszy JSON (http://jsonlines.org/).
static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')
Parametry
| Nazwa | Opis |
|---|---|
|
path
Wymagane
|
|
|
validate
Wymagane
|
Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
|
include_path
Wymagane
|
Wartość logiczna do przechowywania informacji o ścieżce jako kolumny w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku. |
|
set_column_types
Wymagane
|
Słownik do ustawiania typu danych kolumny, gdzie klucz jest nazwą kolumny i wartością DataType |
|
partition_format
Wymagane
|
Określ format partycji ścieżki. Wartość domyślna to Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.jsonl' gdzie partycja jest według nazwy i godziny działu, partition_format="/{Dział}/{PartitionDate:rrrr/MM/dd}/data.jsonl" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną datetime "PartitionDate" o wartości "2019-01-01". |
|
invalid_lines
Wymagane
|
Sposób obsługi wierszy, które są nieprawidłowe w formacie JSON. Obsługiwane wartości to "error" i "drop". |
|
encoding
Wymagane
|
Określ kodowanie pliku. Obsługiwane kodowania to "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" i "windows1252" |
Zwraca
| Typ | Opis |
|---|---|
|
Zwraca obiekt TabularDataset. |
Uwagi
from_json_lines_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików JSON Lines do reprezentacji tabelarycznej.
Aby dane były dostępne w usłudze Azure Machine Learning, pliki wierszy JSON określone przez ścieżkę muszą znajdować się w Datastore publicznych adresach URL lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. Token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access
Typy danych kolumn są odczytywane z typów danych zapisanych w plikach JSON Lines. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))
# create tabular dataset from all jsonl files in the directory
tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.jsonl',
'https://url/weather/2018/12.jsonl'
]
tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)
from_parquet_files
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w plikach Parquet.
static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)
Parametry
| Nazwa | Opis |
|---|---|
|
path
Wymagane
|
|
|
validate
Wymagane
|
Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
|
include_path
Wymagane
|
Wartość logiczna do przechowywania informacji o ścieżce jako kolumny w zestawie danych. Wartość domyślna to False. Jest to przydatne podczas odczytywania wielu plików i chce wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku. |
|
set_column_types
Wymagane
|
Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny, a wartość to DataType. |
|
partition_format
Wymagane
|
Określ format partycji ścieżki. Wartość domyślna to Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01". |
Zwraca
| Typ | Opis |
|---|---|
|
Zwraca obiekt TabularDataset. |
Uwagi
from_parquet_files tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z plików Parquet do reprezentacji tabelarycznej.
Aby dane były dostępne w usłudze Azure Machine Learning, pliki Parquet określone przez ścieżkę muszą znajdować się w Datastore publicznych internetowych adresach URL lub adresach URL obiektów blob, ADLS Gen1 i ADLS Gen2. Token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access
Typy danych kolumn są odczytywane z typów danych zapisanych w plikach Parquet. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))
# create tabular dataset from all parquet files in the directory
tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.parquet',
'https://url/weather/2018/12.parquet'
]
tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)
from_sql_query
Utwórz tabelaryczny zestaw danych do reprezentowania danych tabelarycznych w bazach danych SQL.
static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)
Parametry
| Nazwa | Opis |
|---|---|
|
query
Wymagane
|
Magazyn danych typu SQL i zapytanie. |
|
validate
Wymagane
|
Wartość logiczna umożliwiająca sprawdzenie, czy dane można załadować ze zwracanego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
|
set_column_types
Wymagane
|
Słownik do ustawiania typu danych kolumny, gdzie klucz to nazwa kolumny, a wartość to DataType. |
|
query_timeout
Wymagane
|
Ustawia czas oczekiwania (w sekundach) przed zakończeniem próby wykonania polecenia i wygenerowania błędu. Wartość domyślna to 30 sekund. |
Zwraca
| Typ | Opis |
|---|---|
|
Zwraca obiekt TabularDataset. |
Uwagi
from_sql_query tworzy obiekt TabularDataset klasy, który definiuje operacje ładowania danych z baz danych SQL do reprezentacji tabelarycznej. Obecnie obsługujemy tylko usługę MSSQLDataSource.
Aby dane były dostępne w usłudze Azure Machine Learning, baza danych SQL określona przez query usługę musi znajdować się w Datastore lokalizacji , a typ magazynu danych musi być typu SQL.
Typy danych kolumn są odczytywane z typów danych w wynikach zapytania SQL. Podanie set_column_types spowoduje zastąpienie typu danych dla określonych kolumn w zwróconym zestawie danych tabelarycznych.
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# create tabular dataset from a SQL database in datastore
datastore = Datastore.get(workspace, 'mssql')
query = DataPath(datastore, 'SELECT * FROM my_table')
tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
df = tabular.to_pandas_dataframe()
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)
register_dask_dataframe
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.
Utwórz zestaw danych na podstawie ramki danych dask.
static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parametry
| Nazwa | Opis |
|---|---|
|
dataframe
Wymagane
|
<xref:dask.dataframe.core.DataFrame>
Wymagana ramka danych dask do przekazania. |
|
target
Wymagane
|
Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. W celu uniknięcia konfliktu zostanie wygenerowany folder guid w ścieżce docelowej. |
|
name
Wymagane
|
Wymagana nazwa zarejestrowanego zestawu danych. |
|
description
Wymagane
|
Opcjonalny. Opis tekstowy zestawu danych. Wartość domyślna to Brak. |
|
tags
Wymagane
|
Opcjonalny. Słownik tagów wartości klucza do nadania zestawowi danych. Wartość domyślna to Brak. |
|
show_progress
Wymagane
|
Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartością domyślną jest true. |
Zwraca
| Typ | Opis |
|---|---|
|
Zarejestrowany zestaw danych. |
register_pandas_dataframe
Tworzenie zestawu danych na podstawie ramki danych biblioteki pandas.
static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)
Parametry
| Nazwa | Opis |
|---|---|
|
dataframe
Wymagane
|
Wymagane w ramce danych pamięci do przekazania. |
|
target
Wymagane
|
Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. W celu uniknięcia konfliktu zostanie wygenerowany folder guid w ścieżce docelowej. |
|
name
Wymagane
|
Wymagana nazwa zarejestrowanego zestawu danych. |
|
description
Wymagane
|
Opcjonalny. Opis tekstowy zestawu danych. Wartość domyślna to Brak. |
|
tags
Wymagane
|
Opcjonalny. Słownik tagów wartości klucza do nadania zestawowi danych. Wartość domyślna to Brak. |
|
show_progress
Wymagane
|
Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartością domyślną jest true. |
|
row_group_size
Wymagane
|
Opcjonalny. Maksymalny rozmiar grupy wierszy do użycia podczas zapisywania pliku parquet. Wartość domyślna to Brak. |
|
make_target_path_unique
Wymagane
|
Opcjonalnie wskazuje, czy w obiekcie docelowym ma zostać utworzony unikatowy podfolder. Wartością domyślną jest true. |
Zwraca
| Typ | Opis |
|---|---|
|
Zarejestrowany zestaw danych. |
register_spark_dataframe
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.
Tworzenie zestawu danych na podstawie ramki danych platformy Spark.
static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parametry
| Nazwa | Opis |
|---|---|
|
dataframe
Wymagane
|
Wymagane w ramce danych pamięci do przekazania. |
|
target
Wymagane
|
Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. W celu uniknięcia konfliktu zostanie wygenerowany folder guid w ścieżce docelowej. |
|
name
Wymagane
|
Wymagana nazwa zarejestrowanego zestawu danych. |
|
description
Wymagane
|
Opcjonalny. Opis tekstowy zestawu danych. Wartość domyślna to Brak. |
|
tags
Wymagane
|
Opcjonalny. Słownik tagów wartości klucza do nadania zestawowi danych. Wartość domyślna to Brak. |
|
show_progress
Wymagane
|
Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartością domyślną jest true. |
Zwraca
| Typ | Opis |
|---|---|
|
Zarejestrowany zestaw danych. |