Dataset Classe

Representa um recurso para explorar, transformar e gerenciar dados no Azure Machine Learning.

Um conjunto de dados é uma referência a dados em uma Datastore ou por trás de URLs da Web públicas.

Para métodos preteridos nesta classe, verifique AbstractDataset a classe para obter as APIs aprimoradas.

Há suporte para os seguintes tipos de conjuntos de dados:

TabularDataset representa dados em um formato tabular criado analisando o arquivo fornecido ou a lista de arquivos.
FileDataset faz referência a arquivos únicos ou múltiplos em armazenamentos de dados ou de URLs públicas.

Para começar a usar conjuntos de dados, consulte o artigo Adicionar ®istrar conjuntos de dados ou ver os blocos https://aka.ms/tabulardataset-samplenotebook de anotações e https://aka.ms/filedataset-samplenotebook.

Inicialize o objeto Dataset.

Para obter um conjunto de dados que já foi registrado no workspace, use o método get.

Construtor

Dataset(definition, workspace=None, name=None, id=None)

Parâmetros

Nome	Description
definition Obrigatório	<xref:azureml.data.DatasetDefinition> A definição do conjunto de dados.
workspace Obrigatório	Workspace O workspace no qual o conjunto de dados existe.
name Obrigatório	str O nome do conjunto de dados.
id Obrigatório	str O identificador exclusivo do conjunto de dados.

Comentários

A classe Dataset expõe dois atributos de classe de conveniência (File e Tabular) que você pode usar para criar um conjunto de dados sem trabalhar com os métodos de fábrica correspondentes. Por exemplo, para criar um conjunto de dados usando estes atributos:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Você também pode criar um novo TabularDataset ou FileDataset chamando diretamente os métodos de fábrica correspondentes da classe definida em TabularDatasetFactory e FileDatasetFactory.

O exemplo a seguir mostra como criar um TabularDataset apontando para um único caminho em um armazenamento de dados.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variáveis

Nome	Description
azureml.core.Dataset.File	Um atributo de classe que fornece acesso aos métodos FileDatasetFactory para criar novos objetos FileDataset. Uso: Dataset.File.from_files().
azureml.core.Dataset.Tabular	Um atributo de classe que fornece acesso aos métodos TabularDatasetFactory para criar novos objetos TabularDataset. Uso: Dataset.Tabular.from_delimited_files().

Métodos

archive	Arquive um conjunto de dados ativo ou preterido. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
auto_read_files	Analisa os arquivos no caminho especificado e retorna um novo conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. É recomendável usar os métodos Dataset.Tabular.from_* para ler arquivos. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
compare_profiles	Compare o perfil do conjunto de dados atual com outro perfil de conjunto de dados. Isso mostra as diferenças nas estatísticas resumidas entre dois conjuntos de dados. O parâmetro 'rhs_dataset' significa "lado direito" e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto de conjunto de dados atual) é considerado o "lado esquerdo". Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
create_snapshot	Crie um instantâneo do conjunto de dados registrado. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
delete_snapshot	Exclua o instantâneo do conjunto de dados pelo nome. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
deprecate	Preterir um conjunto de dados ativo em um workspace por outro conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
diff	Difame o conjunto de dados atual com rhs_dataset. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_binary_files	Crie um conjunto de dados não registrado na memória a partir de arquivos binários. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.File.from_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_delimited_files	Crie um conjunto de dados não registrado na memória com base em arquivos delimitados. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_delimited_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Crie um conjunto de dados não registrado na memória a partir de arquivos do Excel. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_json_files	Crie um conjunto de dados não registrado na memória a partir de arquivos JSON. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_json_lines_files para ler do arquivo de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Crie um conjunto de dados não registrado na memória a partir de um dataframe do Pandas. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_parquet_files	Crie um conjunto de dados não registrado na memória a partir de arquivos parquet. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_parquet_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_sql_query	Crie um conjunto de dados não registrado na memória a partir de uma consulta SQL. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_sql_query. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
generate_profile	Gere um novo perfil para o conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get	Obtenha um conjunto de dados que já existe no workspace especificando seu nome ou ID. Observação Esse método foi preterido e não terá mais suporte. É recomendável usar get_by_name e get_by_id , em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_all	Obtenha todos os conjuntos de dados registrados no workspace.
get_all_snapshots	Obtenha todos os instantâneos do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_by_id	Obtenha um conjunto de dados que é salvo no workspace.
get_by_name	Obtenha um conjunto de dados registrado do workspace pelo nome de registro.
get_definition	Obtenha uma definição específica do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_definitions	Obtenha todas as definições do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_profile	Obtenha estatísticas resumidas sobre o conjunto de dados calculado anteriormente. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_snapshot	Obtenha um instantâneo do conjunto de dados pelo nome. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
head	Efetue pull do número especificado de registros especificados desse conjunto de dados e os retorna como um DataFrame. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
list	Liste todos os conjuntos de dados no workspace, incluindo os que têm `is_visible` propriedade igual a False. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar get_all . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
reactivate	Reativar um conjunto de dados arquivado ou preterido. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
register	Registre o conjunto de dados no workspace, disponibilizando-o para outros usuários do workspace. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar register . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
sample	Gere um novo exemplo do conjunto de dados de origem usando a estratégia de amostragem e os parâmetros fornecidos. Observação Esse método foi preterido e não terá mais suporte. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o take_sample método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Crie um dataframe do Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_pandas_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_spark_dataframe	Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por essa definição de conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_spark_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update	Atualize os atributos mutáveis do conjunto de dados no workspace e retorne o conjunto de dados atualizado do workspace. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update_definition	Atualize a definição do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

auto_read_files

Analisa os arquivos no caminho especificado e retorna um novo conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

É recomendável usar os métodos Dataset.Tabular.from_* para ler arquivos. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parâmetros

Nome	Description
path Obrigatório	DataReference ou str Um caminho de dados em um armazenamento de dados registrado, um caminho local ou uma URL HTTP (CSV/TSV).
include_path Obrigatório	bool Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Útil ao ler vários arquivos e deseja saber de qual arquivo um registro específico se originou. Também útil se houver informações no caminho do arquivo ou nome que você deseja em uma coluna.
partition_format Obrigatório	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime.

Retornos

Tipo	Description
Dataset	Objeto de conjunto de dados.

Comentários

Use esse método quando os formatos de arquivo e delimitadores forem detectados automaticamente.

Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna.

O conjunto de dados retornado não está registrado no workspace.

compare_profiles

Compare o perfil do conjunto de dados atual com outro perfil de conjunto de dados.

Isso mostra as diferenças nas estatísticas resumidas entre dois conjuntos de dados. O parâmetro 'rhs_dataset' significa "lado direito" e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto de conjunto de dados atual) é considerado o "lado esquerdo".

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

Nome	Description
rhs_dataset Obrigatório	Dataset Um segundo conjunto de dados, também chamado de conjunto de dados "lado direito" para comparação.
profile_arguments Obrigatório	dict Argumentos para tentar novamente um perfil específico.
include_columns Obrigatório	list[str] Lista de nomes de coluna a serem incluídos em comparação.
exclude_columns Obrigatório	list[str] Lista de nomes de coluna a serem excluídos em comparação.
histogram_compare_method Obrigatório	HistogramCompareMethod Enumeração que descreve o método de comparação, ex: Wasserstein ou Energy

Retornos

Tipo	Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	Diferença entre os dois perfis de conjunto de dados.

Comentários

Isso é somente para conjuntos de dados registrados. Gerará uma exceção se o perfil do conjunto de dados atual não existir. Para conjuntos de dados não registrados, use o método profile.compare.

create_snapshot

Crie um instantâneo do conjunto de dados registrado.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Nome	Description
snapshot_name Obrigatório	str O nome do instantâneo. Os nomes de instantâneo devem ser exclusivos em um conjunto de dados.
compute_target Obrigatório	Union[ComputeTarget, str] Destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, a computação local será usada.
create_data_snapshot Obrigatório	bool Se True, uma cópia materializada dos dados será criada.
target_datastore Obrigatório	Union[AbstractAzureStorageDatastore, str] Armazenamento de dados de destino para salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace.

Retornos

Tipo	Description
DatasetSnapshot	Objeto de instantâneo do conjunto de dados.

Comentários

Instantâneos capturam estatísticas de resumo pontual dos dados subjacentes e uma cópia opcional dos dados em si. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Exclua o instantâneo do conjunto de dados pelo nome.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parâmetros

Nome	Description
snapshot_name Obrigatório	str O nome do instantâneo.

Retornos

Tipo	Description
None	Nenhum.

Comentários

Use isso para liberar o armazenamento consumido pelos dados salvos em instantâneos que você não precisa mais.

deprecate

Preterir um conjunto de dados ativo em um workspace por outro conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parâmetros

Nome	Description
deprecate_by_dataset_id Obrigatório	str A ID do conjunto de dados que é a substituição pretendida para esse conjunto de dados.

Retornos

Tipo	Description
None	Nenhum.

Comentários

Os conjuntos de dados preteridos registrarão avisos quando forem consumidos. A substituição de um conjunto de dados preteri todas as suas definições.

Conjuntos de dados preteridos ainda podem ser consumidos. Para impedir completamente que um conjunto de dados seja consumido, arquive-o.

Se for preterido por acidente, a reativação o ativará.

diff

Difame o conjunto de dados atual com rhs_dataset.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parâmetros

Nome	Description
rhs_dataset Obrigatório	Dataset Outro conjunto de dados também chamado de conjunto de dados do lado direito para comparação
compute_target Obrigatório	Union[ComputeTarget, str] destino de computação para executar a diferença. Se omitido, a computação local será usada.
columns Obrigatório	list[str] Lista de nomes de coluna a serem incluídos na comparação.

Retornos

Tipo	Description
DatasetActionRun	Objeto de execução de ação do conjunto de dados.

from_binary_files

Crie um conjunto de dados não registrado na memória a partir de arquivos binários.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar Dataset.File.from_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parâmetros

Nome	Description
path Obrigatório	DataReference ou str Um caminho de dados em um armazenamento de dados registrado ou em um caminho local.

Retornos

Tipo	Description
Dataset	O objeto Dataset.

Comentários

Use esse método para ler arquivos como fluxos de dados binários. Retorna um objeto de fluxo de arquivo por leitura de arquivo. Use esse método ao ler imagens, vídeos, áudio ou outros dados binários.

get_profile e create_snapshot não funcionará conforme o esperado para um conjunto de dados criado por esse método.

O conjunto de dados retornado não está registrado no workspace.

from_delimited_files

Crie um conjunto de dados não registrado na memória com base em arquivos delimitados.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar Dataset.Tabular.from_delimited_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parâmetros

Nome	Description
path Obrigatório	DataReference ou str Um caminho de dados em um armazenamento de dados registrado, um caminho local ou uma URL HTTP.
separator Obrigatório	str O separador usado para dividir colunas.
header Obrigatório	PromoteHeadersBehavior Controla como os cabeçalhos de coluna são promovidos durante a leitura de arquivos.
encoding Obrigatório	FileEncoding A codificação dos arquivos que estão sendo lidos.
quoting Obrigatório	bool Especifique como lidar com novos caracteres de linha entre aspas. O padrão (False) é interpretar novos caracteres de linha como iniciando novas linhas, independentemente de os novos caracteres de linha estarem entre aspas ou não. Se definido como True, novos caracteres de linha dentro das aspas não resultarão em novas linhas e a velocidade de leitura do arquivo diminuirá.
infer_column_types Obrigatório	bool Indica se os tipos de dados de coluna são inferidos.
skip_rows Obrigatório	int Quantas linhas ignorar nos arquivos que estão sendo lidos.
skip_mode Obrigatório	SkipLinesBehavior Controla como as linhas são ignoradas ao ler arquivos.
comment Obrigatório	str Caractere usado para indicar linhas de comentário nos arquivos que estão sendo lidos. As linhas que começam com essa cadeia de caracteres serão ignoradas.
include_path Obrigatório	bool Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo.
archive_options Obrigatório	<xref:azureml.dataprep.ArchiveOptions> Opções para arquivo morto, incluindo tipo de arquivo morto e padrão glob de entrada. Só damos suporte ao ZIP como tipo de arquivo morto no momento. Por exemplo, especificando `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` lê todos os arquivos com o nome terminando com "10-20.csv" no ZIP.
partition_format Obrigatório	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime.

Retornos

Tipo	Description
Dataset	Objeto de conjunto de dados.

Comentários

Use esse método para ler arquivos de texto delimitados quando quiser controlar as opções usadas.

Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna.

O conjunto de dados retornado não está registrado no workspace.

from_excel_files

Crie um conjunto de dados não registrado na memória a partir de arquivos do Excel.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parâmetros

Nome	Description
path Obrigatório	DataReference ou str Um caminho de dados em um armazenamento de dados registrado ou em um caminho local.
sheet_name Obrigatório	str O nome da planilha do Excel a ser carregada. Por padrão, lemos a primeira planilha de cada arquivo do Excel.
use_column_headers Obrigatório	bool Controla se a primeira linha deve ser usada como cabeçalhos de coluna.
skip_rows Obrigatório	int Quantas linhas ignorar nos arquivos que estão sendo lidos.
include_path Obrigatório	bool Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo.
infer_column_types Obrigatório	bool Se for true, os tipos de dados de coluna serão inferidos.
partition_format Obrigatório	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.xlsx' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime.

Retornos

Tipo	Description
Dataset	Objeto de conjunto de dados.

Comentários

Use este método para ler arquivos do Excel no formato .xlsx. Os dados podem ser lidos de uma planilha em cada arquivo do Excel. Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna. O conjunto de dados retornado não está registrado no workspace.

from_json_files

Crie um conjunto de dados não registrado na memória a partir de arquivos JSON.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar Dataset.Tabular.from_json_lines_files para ler do arquivo de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parâmetros

Nome	Description
path Obrigatório	DataReference ou str O caminho para os arquivos ou pastas que você deseja carregar e analisar. Pode ser um caminho local ou uma URL de Blob do Azure. Há suporte para o Globbing. Por exemplo, você pode usar path = "./data*" para ler todos os arquivos com o nome começando com "data".
encoding Obrigatório	FileEncoding A codificação dos arquivos que estão sendo lidos.
flatten_nested_arrays Obrigatório	bool Propriedade que controla a manipulação de matrizes aninhadas pelo programa. Se você optar por mesclar matrizes JSON aninhadas, isso poderá resultar em um número muito maior de linhas.
include_path Obrigatório	bool Se deve incluir uma coluna que contém o caminho do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e pode querer saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo.
partition_format Obrigatório	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.json' e os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime.

Retornos

Tipo	Description
Dataset	O objeto dataset local.

from_pandas_dataframe

Crie um conjunto de dados não registrado na memória a partir de um dataframe do Pandas.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parâmetros

Nome	Description
dataframe Obrigatório	DataFrame O DataFrame do Pandas.
path Obrigatório	Union[DataReference, str] Um caminho de dados no armazenamento de dados registrado ou no caminho da pasta local.
in_memory Obrigatório	bool Se deseja ler o DataFrame da memória em vez de persistir no disco.

Retornos

Tipo	Description
Dataset	Um objeto de conjunto de dados.

Comentários

Use esse método para converter um dataframe do Pandas em um objeto de conjunto de dados. Um conjunto de dados criado por esse método não pode ser registrado, pois os dados são da memória.

Se in_memory for False, o DataFrame do Pandas será convertido em um arquivo CSV localmente. Se pat for do tipo DataReference, o quadro Pandas será carregado no armazenamento de dados e o conjunto de dados será baseado na DataReference. Se 'path' for uma pasta local, o conjunto de dados será criado com base no arquivo local que não pode ser excluído.

Gerará uma exceção se o DataReference atual não for um caminho de pasta.

from_parquet_files

Crie um conjunto de dados não registrado na memória a partir de arquivos parquet.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar Dataset.Tabular.from_parquet_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parâmetros

Nome	Description
path Obrigatório	DataReference ou str Um caminho de dados em um armazenamento de dados registrado ou em um caminho local.
include_path Obrigatório	bool Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo.
partition_format Obrigatório	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.parquet' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyyy/MM/dd}/data.parquet' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime.

Retornos

Tipo	Description
Dataset	Objeto de conjunto de dados.

Comentários

Use este método para ler arquivos Parquet.

Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna.

O conjunto de dados retornado não está registrado no workspace.

from_sql_query

Crie um conjunto de dados não registrado na memória a partir de uma consulta SQL.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar Dataset.Tabular.from_sql_query. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parâmetros

Nome	Description
data_source Obrigatório	AzureSqlDatabaseDatastore Os detalhes do armazenamento de dados SQL do Azure.
query Obrigatório	str A consulta a ser executada para ler dados.

Retornos

Tipo	Description
Dataset	O objeto dataset local.

generate_profile

Gere um novo perfil para o conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parâmetros

Nome	Description
compute_target Obrigatório	Union[ComputeTarget, str] Um destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, a computação local será usada.
workspace Obrigatório	Workspace Workspace, necessário para conjuntos de dados transitórios (não registrados).
arguments Obrigatório	dict[str, object] Argumentos de perfil. Os argumentos válidos são: 'include_stype_counts' do tipo bool. Verifique se os valores se parecem com alguns tipos semânticos conhecidos, como endereço de email, Endereço IP (V4/V6), número de telefone dos EUA, CEP dos EUA, Latitude/Longitude. Habilitar isso afeta o desempenho. 'number_of_histogram_bins' do tipo int. Representa o número de compartimentos de histograma a serem usados para dados numéricos. O valor padrão é 10.

Retornos

Tipo	Description
DatasetActionRun	Objeto de execução de ação do conjunto de dados.

Comentários

A chamada síncrona será bloqueada até que ela seja concluída. Chame get_result para obter o resultado da ação.

get

Obtenha um conjunto de dados que já existe no workspace especificando seu nome ou ID.

Observação

Esse método foi preterido e não terá mais suporte.

É recomendável usar get_by_name e get_by_id , em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML existente no qual o conjunto de dados foi criado.
name Obrigatório	str O nome do conjunto de dados a ser recuperado.
id Obrigatório	str Um identificador exclusivo do conjunto de dados no workspace.

Retornos

Tipo	Description
Dataset	O conjunto de dados com o nome ou a ID especificados.

Comentários

Você pode fornecer um name ou id. Uma exceção será gerada se:

ambos name e id são especificados, mas não correspondem.
o conjunto de dados com o especificado name ou id não pode ser encontrado no workspace.

get_all

Obtenha todos os conjuntos de dados registrados no workspace.

get_all()

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML existente no qual os conjuntos de dados foram registrados.

Retornos

Tipo	Description
dict[str, Union[TabularDataset, FileDataset]]	Um dicionário de objetos TabularDataset e FileDataset chaveados pelo nome de registro.

get_all_snapshots

Obtenha todos os instantâneos do conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_all_snapshots()

Retornos

Tipo	Description
list[DatasetSnapshot]	Lista de instantâneos do conjunto de dados.

get_by_id

Obtenha um conjunto de dados que é salvo no workspace.

get_by_id(id, **kwargs)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML existente no qual o conjunto de dados é salvo.
id Obrigatório	str A ID do conjunto de dados.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto do conjunto de dados. Se o conjunto de dados for registrado, seu nome de registro e versão também serão retornados.

get_by_name

Obtenha um conjunto de dados registrado do workspace pelo nome de registro.

get_by_name(name, version='latest', **kwargs)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML existente no qual o conjunto de dados foi registrado.
name Obrigatório	str O nome do registro.
version Obrigatório	int A versão de registro. O padrão é 'latest'.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto de conjunto de dados registrado.

get_definition

Obtenha uma definição específica do conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parâmetros

Nome	Description
version_id Obrigatório	str A ID da versão da definição do conjunto de dados

Retornos

Tipo	Description
DatasetDefinition	A definição do conjunto de dados.

Comentários

Se version_id for fornecido, o Azure Machine Learning tentará obter a definição correspondente a essa versão. Se essa versão não existir, uma exceção será gerada. Se version_id for omitido, a versão mais recente será recuperada.

get_definitions

Obtenha todas as definições do conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_definitions()

Retornos

Tipo	Description
dict[str, DatasetDefinition]	Um dicionário de definições de conjunto de dados.

Comentários

Para conjuntos de dados não registrados, existe apenas uma definição.

get_profile

Obtenha estatísticas resumidas sobre o conjunto de dados calculado anteriormente.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parâmetros

Nome	Description
arguments Obrigatório	dict[str, object] Argumentos de perfil.
generate_if_not_exist Obrigatório	bool Indica se um perfil deve ser gerado se ele não existir.
workspace Obrigatório	Workspace Workspace, necessário para conjuntos de dados transitórios (não registrados).
compute_target Obrigatório	Union[ComputeTarget, str] Um destino de computação para executar a ação de perfil.

Retornos

Tipo	Description
<xref:azureml.dataprep.DataProfile>	DataProfile do conjunto de dados.

Comentários

Para um conjunto de dados registrado com um workspace do Azure Machine Learning, esse método recupera um perfil existente que foi criado anteriormente chamando get_profile se ele ainda for válido. Os perfis são invalidados quando dados alterados são detectados no conjunto de dados ou os argumentos para get_profile serem diferentes dos usados quando o perfil foi gerado. Se o perfil não estiver presente ou invalidado, generate_if_not_exist determinará se um novo perfil é gerado.

Para um conjunto de dados que não está registrado em um workspace do Azure Machine Learning, esse método sempre executa generate_profile e retorna o resultado.

get_snapshot

Obtenha um instantâneo do conjunto de dados pelo nome.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parâmetros

Nome	Description
snapshot_name Obrigatório	str O nome do instantâneo.

Retornos

Tipo	Description
DatasetSnapshot	Objeto de instantâneo do conjunto de dados.

head

Efetue pull do número especificado de registros especificados desse conjunto de dados e os retorna como um DataFrame.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

head(count)

Parâmetros

Nome	Description
count Obrigatório	int O número de registros a serem extraídos.

Retornos

Tipo	Description
DataFrame	Um DataFrame do Pandas.

list

Liste todos os conjuntos de dados no workspace, incluindo os que têm is_visible propriedade igual a False.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar get_all . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static list(workspace)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace para o qual você deseja recuperar a lista de conjuntos de dados.

Retornos

Tipo	Description
list[Dataset]	Uma lista de objetos do conjunto de dados.

reactivate

Reativar um conjunto de dados arquivado ou preterido.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

reactivate()

Retornos

Tipo	Description
None	Nenhum.

register

Registre o conjunto de dados no workspace, disponibilizando-o para outros usuários do workspace.

Observação

Esse método foi preterido e não terá mais suporte.

Em vez disso, é recomendável usar register . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML no qual o conjunto de dados deve ser registrado.
name Obrigatório	str O nome do conjunto de dados no workspace.
description Obrigatório	str Uma descrição do conjunto de dados.
tags Obrigatório	dict[str, str] Marcas a serem associadas ao conjunto de dados.
visible Obrigatório	bool Indica se o conjunto de dados está visível na interface do usuário. Se False, o conjunto de dados ficará oculto na interface do usuário e disponível por meio do SDK.
exist_ok Obrigatório	bool Se true, o método retornará o conjunto de dados se ele já existir no workspace fornecido, caso contrário, erro.
update_if_exist Obrigatório	bool Se `exist_ok` for True e `update_if_exist` for True, esse método atualizará a definição e retornará o conjunto de dados atualizado.

Retornos

Tipo	Description
Dataset	Um objeto de conjunto de dados registrado no workspace.

sample

Gere um novo exemplo do conjunto de dados de origem usando a estratégia de amostragem e os parâmetros fornecidos.

Observação

Esse método foi preterido e não terá mais suporte.

Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o take_sample método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parâmetros

Nome	Description
sample_strategy Obrigatório	str Estratégia de exemplo a ser usada. Os valores aceitos são "top_n", "simple_random" ou "estratificados".
arguments Obrigatório	dict[str, object] Um dicionário com chaves do "argumento opcional" na lista mostrada acima e valores da coluna tye "Type". Somente argumentos do método de amostragem correspondente podem ser usados. Por exemplo, para um tipo de exemplo "simple_random", você só pode especificar um dicionário com chaves "probabilidade" e "semente".

Retornos

Tipo	Description
Dataset	Objeto de conjunto de dados como um exemplo do conjunto de dados original.

Comentários

Os exemplos são gerados executando o pipeline de transformação definido por esse conjunto de dados e, em seguida, aplicando a estratégia de amostragem e os parâmetros aos dados de saída. Cada método de amostragem dá suporte aos seguintes argumentos opcionais:

top_n
- Argumentos opcionais
  - n, digite inteiro. Selecione as linhas N superiores como sua amostra.
simple_random
- Argumentos opcionais
  - probabilidade, tipo float. Amostragem aleatória simples em que cada linha tem a mesma probabilidade de ser selecionada. A probabilidade deve ser um número entre 0 e 1.
  - semente, tipo float. Usado pelo gerador de número aleatório. Use para repetibilidade.
Estratificada
- Argumentos opcionais
  - colunas, lista de tipos[str]. Lista de colunas de estratos nos dados.
  - semente, tipo float. Usado pelo gerador de número aleatório. Use para repetibilidade.
  - frações, tipo dict[tupla, float]. Tupla: os valores de coluna que definem um estrato devem estar na mesma ordem que os nomes de coluna. Float: peso anexado a um estrato durante a amostragem.

Os snippets de código a seguir são padrões de design de exemplo para diferentes métodos de exemplo.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Crie um dataframe do Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_pandas_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Retornos

Tipo	Description
DataFrame	Um DataFrame do Pandas.

Comentários

Retornar um DataFrame pandas totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por essa definição de conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_spark_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Retornos

Tipo	Description
DataFrame	Um DataFrame do Spark.

Comentários

O Dataframe do Spark retornado é apenas um plano de execução e não contém dados, pois os Dataframes do Spark são avaliados lentamente.

update

Atualize os atributos mutáveis do conjunto de dados no workspace e retorne o conjunto de dados atualizado do workspace.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parâmetros

Nome	Description
name Obrigatório	str O nome do conjunto de dados no workspace.
description Obrigatório	str Uma descrição dos dados.
tags Obrigatório	dict[str, str] Marcas às qual associar o conjunto de dados.
visible Obrigatório	bool Indica se o conjunto de dados está visível na interface do usuário.

Retornos

Tipo	Description
Dataset	Um objeto dataset atualizado do workspace.

update_definition

Atualize a definição do conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parâmetros

Nome	Description
definition Obrigatório	DatasetDefinition A nova definição desse conjunto de dados.
definition_update_message Obrigatório	str A mensagem de atualização de definição.

Retornos

Tipo	Description
Dataset	Um objeto dataset atualizado do workspace.

Comentários

Para consumir o conjunto de dados atualizado, use o objeto retornado por esse método.

Atributos

definition

Retorne a definição atual do conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Retornos

Tipo	Description
DatasetDefinition	A definição do conjunto de dados.

Comentários

Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.

Um conjunto de dados registrado em um workspace do AzureML pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. Ter várias definições permite que você faça alterações em conjuntos de dados existentes sem quebrar modelos e pipelines que dependem da definição mais antiga.

Para conjuntos de dados não registrados, existe apenas uma definição.

definition_version

Retorne a versão da definição atual do conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Retornos

Tipo	Description
str	A versão de definição do conjunto de dados.

Comentários

Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.

Um conjunto de dados registrado em um workspace do AzureML pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada, cuja ID é retornada por isso.

Para conjuntos de dados não registrados, existe apenas uma definição.

description

Retorne a descrição do conjunto de dados.

Retornos

Tipo	Description
str	A descrição do conjunto de dados.

Comentários

Especificar uma descrição dos dados no conjunto de dados permite que os usuários do workspace entendam o que os dados representam e como eles podem usá-los.

id

Se o conjunto de dados tiver sido registrado em um workspace, retorne a ID do conjunto de dados. Caso contrário, retorne None.

Retornos

Tipo	Description
str	A ID do conjunto de dados.

is_visible

Controlar a visibilidade de um conjunto de dados registrado na interface do usuário do workspace do Azure ML.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Retornos

Tipo	Description
bool	A visibilidade do conjunto de dados.

Comentários

Valores retornados:

True: o conjunto de dados está visível na interface do usuário do workspace. Padrão.
False: o conjunto de dados está oculto na interface do usuário do workspace.

Não tem efeito sobre conjuntos de dados não registrados.

name

Retornar o nome do conjunto de dados.

Retornos

Tipo	Description
str	O nome do conjunto de dados.

state

Retornar o estado do conjunto de dados.

Observação

Esse método foi preterido e não terá mais suporte.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Retornos

Tipo	Description
str	O estado do conjunto de dados.

Comentários

O significado e o efeito dos estados são os seguintes:

Ativo. Definições ativas são exatamente o que parecem, todas as ações podem ser executadas em definições ativas.
Preterido. A definição preterida pode ser usada, mas resultará em um aviso sendo registrado nos logs sempre que os dados subjacentes forem acessados.
Arquivados. Uma definição arquivada não pode ser usada para executar qualquer ação. Para executar ações em uma definição arquivada, ela deve ser reativada.

workspace

Se o conjunto de dados tiver sido registrado em um workspace, retorne-o. Caso contrário, retorne None.

Retornos

Tipo	Description
Workspace	O workspace.

Comentários

Esta página foi útil?

Compartilhar via

Dataset Classe

Construtor

Parâmetros

Comentários

Variáveis

Métodos

archive

Retornos

Comentários

auto_read_files

Parâmetros

Retornos

Comentários

compare_profiles

Parâmetros

Retornos

Comentários

create_snapshot

Parâmetros

Retornos

Comentários

delete_snapshot

Parâmetros

Retornos

Comentários

deprecate

Parâmetros

Retornos

Comentários

diff

Parâmetros

Retornos

from_binary_files

Parâmetros

Retornos

Comentários

from_delimited_files

Parâmetros

Retornos

Comentários

from_excel_files

Parâmetros

Retornos

Comentários

from_json_files

Parâmetros

Retornos

from_pandas_dataframe

Parâmetros

Retornos

Comentários

from_parquet_files

Parâmetros

Retornos

Comentários

from_sql_query

Parâmetros

Retornos

generate_profile

Parâmetros

Retornos

Comentários

get

Parâmetros

Retornos

Comentários

get_all

Parâmetros

Retornos

get_all_snapshots

Retornos

get_by_id

Parâmetros

Retornos

get_by_name

Parâmetros

Retornos

get_definition

Parâmetros