Dataset Classe
Representa um recurso para explorar, transformar e gerenciar dados no Azure Machine Learning.
Um conjunto de dados é uma referência a dados em uma Datastore ou por trás de URLs da Web públicas.
Para métodos preteridos nesta classe, verifique AbstractDataset a classe para obter as APIs aprimoradas.
Há suporte para os seguintes tipos de conjuntos de dados:
TabularDataset representa dados em um formato tabular criado analisando o arquivo fornecido ou a lista de arquivos.
FileDataset faz referência a arquivos únicos ou múltiplos em armazenamentos de dados ou de URLs públicas.
Para começar a usar conjuntos de dados, consulte o artigo Adicionar ®istrar conjuntos de dados ou ver os blocos https://aka.ms/tabulardataset-samplenotebook de anotações e https://aka.ms/filedataset-samplenotebook.
Inicialize o objeto Dataset.
Para obter um conjunto de dados que já foi registrado no workspace, use o método get.
Construtor
Dataset(definition, workspace=None, name=None, id=None)
Parâmetros
| Nome | Description |
|---|---|
|
definition
Obrigatório
|
<xref:azureml.data.DatasetDefinition>
A definição do conjunto de dados. |
|
workspace
Obrigatório
|
O workspace no qual o conjunto de dados existe. |
|
name
Obrigatório
|
O nome do conjunto de dados. |
|
id
Obrigatório
|
O identificador exclusivo do conjunto de dados. |
Comentários
A classe Dataset expõe dois atributos de classe de conveniência (File e Tabular) que você pode usar para criar um conjunto de dados sem trabalhar com os métodos de fábrica correspondentes. Por exemplo, para criar um conjunto de dados usando estes atributos:
Dataset.Tabular.from_delimited_files()Dataset.File.from_files()
Você também pode criar um novo TabularDataset ou FileDataset chamando diretamente os métodos de fábrica correspondentes da classe definida em TabularDatasetFactory e FileDatasetFactory.
O exemplo a seguir mostra como criar um TabularDataset apontando para um único caminho em um armazenamento de dados.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Variáveis
| Nome | Description |
|---|---|
|
azureml.core.Dataset.File
|
Um atributo de classe que fornece acesso aos métodos FileDatasetFactory para criar novos objetos FileDataset. Uso: Dataset.File.from_files(). |
|
azureml.core.Dataset.Tabular
|
Um atributo de classe que fornece acesso aos métodos TabularDatasetFactory para criar novos objetos TabularDataset. Uso: Dataset.Tabular.from_delimited_files(). |
Métodos
| archive |
Arquive um conjunto de dados ativo ou preterido. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| auto_read_files |
Analisa os arquivos no caminho especificado e retorna um novo conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. É recomendável usar os métodos Dataset.Tabular.from_* para ler arquivos. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| compare_profiles |
Compare o perfil do conjunto de dados atual com outro perfil de conjunto de dados. Isso mostra as diferenças nas estatísticas resumidas entre dois conjuntos de dados. O parâmetro 'rhs_dataset' significa "lado direito" e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto de conjunto de dados atual) é considerado o "lado esquerdo". Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| create_snapshot |
Crie um instantâneo do conjunto de dados registrado. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| delete_snapshot |
Exclua o instantâneo do conjunto de dados pelo nome. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| deprecate |
Preterir um conjunto de dados ativo em um workspace por outro conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| diff |
Difame o conjunto de dados atual com rhs_dataset. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| from_binary_files |
Crie um conjunto de dados não registrado na memória a partir de arquivos binários. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.File.from_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| from_delimited_files |
Crie um conjunto de dados não registrado na memória com base em arquivos delimitados. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_delimited_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
|
| from_excel_files |
Crie um conjunto de dados não registrado na memória a partir de arquivos do Excel. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| from_json_files |
Crie um conjunto de dados não registrado na memória a partir de arquivos JSON. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_json_lines_files para ler do arquivo de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| from_pandas_dataframe |
Crie um conjunto de dados não registrado na memória a partir de um dataframe do Pandas. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| from_parquet_files |
Crie um conjunto de dados não registrado na memória a partir de arquivos parquet. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_parquet_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| from_sql_query |
Crie um conjunto de dados não registrado na memória a partir de uma consulta SQL. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar Dataset.Tabular.from_sql_query. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| generate_profile |
Gere um novo perfil para o conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| get |
Obtenha um conjunto de dados que já existe no workspace especificando seu nome ou ID. Observação Esse método foi preterido e não terá mais suporte. É recomendável usar get_by_name e get_by_id , em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| get_all |
Obtenha todos os conjuntos de dados registrados no workspace. |
| get_all_snapshots |
Obtenha todos os instantâneos do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| get_by_id |
Obtenha um conjunto de dados que é salvo no workspace. |
| get_by_name |
Obtenha um conjunto de dados registrado do workspace pelo nome de registro. |
| get_definition |
Obtenha uma definição específica do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| get_definitions |
Obtenha todas as definições do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| get_profile |
Obtenha estatísticas resumidas sobre o conjunto de dados calculado anteriormente. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| get_snapshot |
Obtenha um instantâneo do conjunto de dados pelo nome. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| head |
Efetue pull do número especificado de registros especificados desse conjunto de dados e os retorna como um DataFrame. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| list |
Liste todos os conjuntos de dados no workspace, incluindo os que têm Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar get_all . Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| reactivate |
Reativar um conjunto de dados arquivado ou preterido. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| register |
Registre o conjunto de dados no workspace, disponibilizando-o para outros usuários do workspace. Observação Esse método foi preterido e não terá mais suporte. Em vez disso, é recomendável usar register . Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| sample |
Gere um novo exemplo do conjunto de dados de origem usando a estratégia de amostragem e os parâmetros fornecidos. Observação Esse método foi preterido e não terá mais suporte. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o take_sample método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| to_pandas_dataframe |
Crie um dataframe do Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_pandas_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| to_spark_dataframe |
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por essa definição de conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_spark_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| update |
Atualize os atributos mutáveis do conjunto de dados no workspace e retorne o conjunto de dados atualizado do workspace. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
| update_definition |
Atualize a definição do conjunto de dados. Observação Esse método foi preterido e não terá mais suporte. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. |
archive
Arquive um conjunto de dados ativo ou preterido.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
archive()
Retornos
| Tipo | Description |
|---|---|
|
Nenhum. |
Comentários
Após o arquivamento, qualquer tentativa de consumir o conjunto de dados resultará em um erro. Se arquivado por acidente, a reativação o ativará.
auto_read_files
Analisa os arquivos no caminho especificado e retorna um novo conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
É recomendável usar os métodos Dataset.Tabular.from_* para ler arquivos. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parâmetros
| Nome | Description |
|---|---|
|
path
Obrigatório
|
DataReference ou
str
Um caminho de dados em um armazenamento de dados registrado, um caminho local ou uma URL HTTP (CSV/TSV). |
|
include_path
Obrigatório
|
Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Útil ao ler vários arquivos e deseja saber de qual arquivo um registro específico se originou. Também útil se houver informações no caminho do arquivo ou nome que você deseja em uma coluna. |
|
partition_format
Obrigatório
|
Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime. |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de conjunto de dados. |
Comentários
Use esse método quando os formatos de arquivo e delimitadores forem detectados automaticamente.
Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna.
O conjunto de dados retornado não está registrado no workspace.
compare_profiles
Compare o perfil do conjunto de dados atual com outro perfil de conjunto de dados.
Isso mostra as diferenças nas estatísticas resumidas entre dois conjuntos de dados. O parâmetro 'rhs_dataset' significa "lado direito" e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto de conjunto de dados atual) é considerado o "lado esquerdo".
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parâmetros
| Nome | Description |
|---|---|
|
rhs_dataset
Obrigatório
|
Um segundo conjunto de dados, também chamado de conjunto de dados "lado direito" para comparação. |
|
profile_arguments
Obrigatório
|
Argumentos para tentar novamente um perfil específico. |
|
include_columns
Obrigatório
|
Lista de nomes de coluna a serem incluídos em comparação. |
|
exclude_columns
Obrigatório
|
Lista de nomes de coluna a serem excluídos em comparação. |
|
histogram_compare_method
Obrigatório
|
Enumeração que descreve o método de comparação, ex: Wasserstein ou Energy |
Retornos
| Tipo | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Diferença entre os dois perfis de conjunto de dados. |
Comentários
Isso é somente para conjuntos de dados registrados. Gerará uma exceção se o perfil do conjunto de dados atual não existir. Para conjuntos de dados não registrados, use o método profile.compare.
create_snapshot
Crie um instantâneo do conjunto de dados registrado.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parâmetros
| Nome | Description |
|---|---|
|
snapshot_name
Obrigatório
|
O nome do instantâneo. Os nomes de instantâneo devem ser exclusivos em um conjunto de dados. |
|
compute_target
Obrigatório
|
Destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, a computação local será usada. |
|
create_data_snapshot
Obrigatório
|
Se True, uma cópia materializada dos dados será criada. |
|
target_datastore
Obrigatório
|
Armazenamento de dados de destino para salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace. |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de instantâneo do conjunto de dados. |
Comentários
Instantâneos capturam estatísticas de resumo pontual dos dados subjacentes e uma cópia opcional dos dados em si. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Exclua o instantâneo do conjunto de dados pelo nome.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parâmetros
| Nome | Description |
|---|---|
|
snapshot_name
Obrigatório
|
O nome do instantâneo. |
Retornos
| Tipo | Description |
|---|---|
|
Nenhum. |
Comentários
Use isso para liberar o armazenamento consumido pelos dados salvos em instantâneos que você não precisa mais.
deprecate
Preterir um conjunto de dados ativo em um workspace por outro conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parâmetros
| Nome | Description |
|---|---|
|
deprecate_by_dataset_id
Obrigatório
|
A ID do conjunto de dados que é a substituição pretendida para esse conjunto de dados. |
Retornos
| Tipo | Description |
|---|---|
|
Nenhum. |
Comentários
Os conjuntos de dados preteridos registrarão avisos quando forem consumidos. A substituição de um conjunto de dados preteri todas as suas definições.
Conjuntos de dados preteridos ainda podem ser consumidos. Para impedir completamente que um conjunto de dados seja consumido, arquive-o.
Se for preterido por acidente, a reativação o ativará.
diff
Difame o conjunto de dados atual com rhs_dataset.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parâmetros
| Nome | Description |
|---|---|
|
rhs_dataset
Obrigatório
|
Outro conjunto de dados também chamado de conjunto de dados do lado direito para comparação |
|
compute_target
Obrigatório
|
destino de computação para executar a diferença. Se omitido, a computação local será usada. |
|
columns
Obrigatório
|
Lista de nomes de coluna a serem incluídos na comparação. |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de execução de ação do conjunto de dados. |
from_binary_files
Crie um conjunto de dados não registrado na memória a partir de arquivos binários.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar Dataset.File.from_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parâmetros
| Nome | Description |
|---|---|
|
path
Obrigatório
|
DataReference ou
str
Um caminho de dados em um armazenamento de dados registrado ou em um caminho local. |
Retornos
| Tipo | Description |
|---|---|
|
O objeto Dataset. |
Comentários
Use esse método para ler arquivos como fluxos de dados binários. Retorna um objeto de fluxo de arquivo por leitura de arquivo. Use esse método ao ler imagens, vídeos, áudio ou outros dados binários.
get_profile e create_snapshot não funcionará conforme o esperado para um conjunto de dados criado por esse método.
O conjunto de dados retornado não está registrado no workspace.
from_delimited_files
Crie um conjunto de dados não registrado na memória com base em arquivos delimitados.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar Dataset.Tabular.from_delimited_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parâmetros
| Nome | Description |
|---|---|
|
path
Obrigatório
|
DataReference ou
str
Um caminho de dados em um armazenamento de dados registrado, um caminho local ou uma URL HTTP. |
|
separator
Obrigatório
|
O separador usado para dividir colunas. |
|
header
Obrigatório
|
Controla como os cabeçalhos de coluna são promovidos durante a leitura de arquivos. |
|
encoding
Obrigatório
|
A codificação dos arquivos que estão sendo lidos. |
|
quoting
Obrigatório
|
Especifique como lidar com novos caracteres de linha entre aspas. O padrão (False) é interpretar novos caracteres de linha como iniciando novas linhas, independentemente de os novos caracteres de linha estarem entre aspas ou não. Se definido como True, novos caracteres de linha dentro das aspas não resultarão em novas linhas e a velocidade de leitura do arquivo diminuirá. |
|
infer_column_types
Obrigatório
|
Indica se os tipos de dados de coluna são inferidos. |
|
skip_rows
Obrigatório
|
Quantas linhas ignorar nos arquivos que estão sendo lidos. |
|
skip_mode
Obrigatório
|
Controla como as linhas são ignoradas ao ler arquivos. |
|
comment
Obrigatório
|
Caractere usado para indicar linhas de comentário nos arquivos que estão sendo lidos. As linhas que começam com essa cadeia de caracteres serão ignoradas. |
|
include_path
Obrigatório
|
Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo. |
|
archive_options
Obrigatório
|
<xref:azureml.dataprep.ArchiveOptions>
Opções para arquivo morto, incluindo tipo de arquivo morto e padrão glob de entrada. Só damos suporte ao ZIP como tipo de arquivo morto no momento. Por exemplo, especificando
lê todos os arquivos com o nome terminando com "10-20.csv" no ZIP. |
|
partition_format
Obrigatório
|
Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime. |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de conjunto de dados. |
Comentários
Use esse método para ler arquivos de texto delimitados quando quiser controlar as opções usadas.
Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna.
O conjunto de dados retornado não está registrado no workspace.
from_excel_files
Crie um conjunto de dados não registrado na memória a partir de arquivos do Excel.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parâmetros
| Nome | Description |
|---|---|
|
path
Obrigatório
|
DataReference ou
str
Um caminho de dados em um armazenamento de dados registrado ou em um caminho local. |
|
sheet_name
Obrigatório
|
O nome da planilha do Excel a ser carregada. Por padrão, lemos a primeira planilha de cada arquivo do Excel. |
|
use_column_headers
Obrigatório
|
Controla se a primeira linha deve ser usada como cabeçalhos de coluna. |
|
skip_rows
Obrigatório
|
Quantas linhas ignorar nos arquivos que estão sendo lidos. |
|
include_path
Obrigatório
|
Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo. |
|
infer_column_types
Obrigatório
|
Se for true, os tipos de dados de coluna serão inferidos. |
|
partition_format
Obrigatório
|
Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.xlsx' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime. |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de conjunto de dados. |
Comentários
Use este método para ler arquivos do Excel no formato .xlsx. Os dados podem ser lidos de uma planilha em cada arquivo do Excel. Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna. O conjunto de dados retornado não está registrado no workspace.
from_json_files
Crie um conjunto de dados não registrado na memória a partir de arquivos JSON.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar Dataset.Tabular.from_json_lines_files para ler do arquivo de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parâmetros
| Nome | Description |
|---|---|
|
path
Obrigatório
|
DataReference ou
str
O caminho para os arquivos ou pastas que você deseja carregar e analisar. Pode ser um caminho local ou uma URL de Blob do Azure. Há suporte para o Globbing. Por exemplo, você pode usar path = "./data*" para ler todos os arquivos com o nome começando com "data". |
|
encoding
Obrigatório
|
A codificação dos arquivos que estão sendo lidos. |
|
flatten_nested_arrays
Obrigatório
|
Propriedade que controla a manipulação de matrizes aninhadas pelo programa. Se você optar por mesclar matrizes JSON aninhadas, isso poderá resultar em um número muito maior de linhas. |
|
include_path
Obrigatório
|
Se deve incluir uma coluna que contém o caminho do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e pode querer saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo. |
|
partition_format
Obrigatório
|
Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.json' e os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime. |
Retornos
| Tipo | Description |
|---|---|
|
O objeto dataset local. |
from_pandas_dataframe
Crie um conjunto de dados não registrado na memória a partir de um dataframe do Pandas.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parâmetros
| Nome | Description |
|---|---|
|
dataframe
Obrigatório
|
O DataFrame do Pandas. |
|
path
Obrigatório
|
Um caminho de dados no armazenamento de dados registrado ou no caminho da pasta local. |
|
in_memory
Obrigatório
|
Se deseja ler o DataFrame da memória em vez de persistir no disco. |
Retornos
| Tipo | Description |
|---|---|
|
Um objeto de conjunto de dados. |
Comentários
Use esse método para converter um dataframe do Pandas em um objeto de conjunto de dados. Um conjunto de dados criado por esse método não pode ser registrado, pois os dados são da memória.
Se in_memory for False, o DataFrame do Pandas será convertido em um arquivo CSV localmente. Se pat for do tipo DataReference, o quadro Pandas será carregado no armazenamento de dados e o conjunto de dados será baseado na DataReference. Se 'path' for uma pasta local, o conjunto de dados será criado com base no arquivo local que não pode ser excluído.
Gerará uma exceção se o DataReference atual não for um caminho de pasta.
from_parquet_files
Crie um conjunto de dados não registrado na memória a partir de arquivos parquet.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar Dataset.Tabular.from_parquet_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parâmetros
| Nome | Description |
|---|---|
|
path
Obrigatório
|
DataReference ou
str
Um caminho de dados em um armazenamento de dados registrado ou em um caminho local. |
|
include_path
Obrigatório
|
Se deve incluir uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um registro específico se originou ou manter informações úteis no caminho do arquivo. |
|
partition_format
Obrigatório
|
Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres do formato '{x}' e da coluna datetime do formato '{x:yyyyy/MM/dd/HH/mm/ss}', em que 'yyyyy', 'MM', 'dd', 'hh', 'mm' e 'ss' são usados para extrat ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.parquet' em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyyy/MM/dd}/data.parquet' para criar colunas 'Departamento' do tipo de cadeia de caracteres e 'PartitionDate' do tipo datetime. |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de conjunto de dados. |
Comentários
Use este método para ler arquivos Parquet.
Depois de criar um conjunto de dados, você deve usar get_profile para listar tipos de coluna detectados e estatísticas de resumo para cada coluna.
O conjunto de dados retornado não está registrado no workspace.
from_sql_query
Crie um conjunto de dados não registrado na memória a partir de uma consulta SQL.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar Dataset.Tabular.from_sql_query. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parâmetros
| Nome | Description |
|---|---|
|
data_source
Obrigatório
|
Os detalhes do armazenamento de dados SQL do Azure. |
|
query
Obrigatório
|
A consulta a ser executada para ler dados. |
Retornos
| Tipo | Description |
|---|---|
|
O objeto dataset local. |
generate_profile
Gere um novo perfil para o conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parâmetros
| Nome | Description |
|---|---|
|
compute_target
Obrigatório
|
Um destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, a computação local será usada. |
|
workspace
Obrigatório
|
Workspace, necessário para conjuntos de dados transitórios (não registrados). |
|
arguments
Obrigatório
|
Argumentos de perfil. Os argumentos válidos são:
|
Retornos
| Tipo | Description |
|---|---|
|
Objeto de execução de ação do conjunto de dados. |
Comentários
A chamada síncrona será bloqueada até que ela seja concluída. Chame get_result para obter o resultado da ação.
get
Obtenha um conjunto de dados que já existe no workspace especificando seu nome ou ID.
Observação
Esse método foi preterido e não terá mais suporte.
É recomendável usar get_by_name e get_by_id , em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace do AzureML existente no qual o conjunto de dados foi criado. |
|
name
Obrigatório
|
O nome do conjunto de dados a ser recuperado. |
|
id
Obrigatório
|
Um identificador exclusivo do conjunto de dados no workspace. |
Retornos
| Tipo | Description |
|---|---|
|
O conjunto de dados com o nome ou a ID especificados. |
Comentários
Você pode fornecer um name ou id. Uma exceção será gerada se:
ambos
nameeidsão especificados, mas não correspondem.o conjunto de dados com o especificado
nameouidnão pode ser encontrado no workspace.
get_all
Obtenha todos os conjuntos de dados registrados no workspace.
get_all()
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace do AzureML existente no qual os conjuntos de dados foram registrados. |
Retornos
| Tipo | Description |
|---|---|
|
Um dicionário de objetos TabularDataset e FileDataset chaveados pelo nome de registro. |
get_all_snapshots
Obtenha todos os instantâneos do conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_all_snapshots()
Retornos
| Tipo | Description |
|---|---|
|
Lista de instantâneos do conjunto de dados. |
get_by_id
Obtenha um conjunto de dados que é salvo no workspace.
get_by_id(id, **kwargs)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace do AzureML existente no qual o conjunto de dados é salvo. |
|
id
Obrigatório
|
A ID do conjunto de dados. |
Retornos
| Tipo | Description |
|---|---|
|
O objeto do conjunto de dados. Se o conjunto de dados for registrado, seu nome de registro e versão também serão retornados. |
get_by_name
Obtenha um conjunto de dados registrado do workspace pelo nome de registro.
get_by_name(name, version='latest', **kwargs)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace do AzureML existente no qual o conjunto de dados foi registrado. |
|
name
Obrigatório
|
O nome do registro. |
|
version
Obrigatório
|
A versão de registro. O padrão é 'latest'. |
Retornos
| Tipo | Description |
|---|---|
|
O objeto de conjunto de dados registrado. |
get_definition
Obtenha uma definição específica do conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parâmetros
| Nome | Description |
|---|---|
|
version_id
Obrigatório
|
A ID da versão da definição do conjunto de dados |
Retornos
| Tipo | Description |
|---|---|
|
A definição do conjunto de dados. |
Comentários
Se version_id for fornecido, o Azure Machine Learning tentará obter a definição correspondente a essa versão. Se essa versão não existir, uma exceção será gerada.
Se version_id for omitido, a versão mais recente será recuperada.
get_definitions
Obtenha todas as definições do conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_definitions()
Retornos
| Tipo | Description |
|---|---|
|
Um dicionário de definições de conjunto de dados. |
Comentários
Um conjunto de dados registrado em um workspace do AzureML pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.
Para conjuntos de dados não registrados, existe apenas uma definição.
get_profile
Obtenha estatísticas resumidas sobre o conjunto de dados calculado anteriormente.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parâmetros
| Nome | Description |
|---|---|
|
arguments
Obrigatório
|
Argumentos de perfil. |
|
generate_if_not_exist
Obrigatório
|
Indica se um perfil deve ser gerado se ele não existir. |
|
workspace
Obrigatório
|
Workspace, necessário para conjuntos de dados transitórios (não registrados). |
|
compute_target
Obrigatório
|
Um destino de computação para executar a ação de perfil. |
Retornos
| Tipo | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
DataProfile do conjunto de dados. |
Comentários
Para um conjunto de dados registrado com um workspace do Azure Machine Learning, esse método recupera um perfil existente que foi criado anteriormente chamando get_profile se ele ainda for válido. Os perfis são invalidados quando dados alterados são detectados no conjunto de dados ou os argumentos para get_profile serem diferentes dos usados quando o perfil foi gerado. Se o perfil não estiver presente ou invalidado, generate_if_not_exist determinará se um novo perfil é gerado.
Para um conjunto de dados que não está registrado em um workspace do Azure Machine Learning, esse método sempre executa generate_profile e retorna o resultado.
get_snapshot
Obtenha um instantâneo do conjunto de dados pelo nome.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parâmetros
| Nome | Description |
|---|---|
|
snapshot_name
Obrigatório
|
O nome do instantâneo. |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de instantâneo do conjunto de dados. |
head
Efetue pull do número especificado de registros especificados desse conjunto de dados e os retorna como um DataFrame.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
head(count)
Parâmetros
| Nome | Description |
|---|---|
|
count
Obrigatório
|
O número de registros a serem extraídos. |
Retornos
| Tipo | Description |
|---|---|
|
Um DataFrame do Pandas. |
list
Liste todos os conjuntos de dados no workspace, incluindo os que têm is_visible propriedade igual a False.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar get_all . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
static list(workspace)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace para o qual você deseja recuperar a lista de conjuntos de dados. |
Retornos
| Tipo | Description |
|---|---|
|
Uma lista de objetos do conjunto de dados. |
reactivate
Reativar um conjunto de dados arquivado ou preterido.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
reactivate()
Retornos
| Tipo | Description |
|---|---|
|
Nenhum. |
register
Registre o conjunto de dados no workspace, disponibilizando-o para outros usuários do workspace.
Observação
Esse método foi preterido e não terá mais suporte.
Em vez disso, é recomendável usar register . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace do AzureML no qual o conjunto de dados deve ser registrado. |
|
name
Obrigatório
|
O nome do conjunto de dados no workspace. |
|
description
Obrigatório
|
Uma descrição do conjunto de dados. |
|
tags
Obrigatório
|
Marcas a serem associadas ao conjunto de dados. |
|
visible
Obrigatório
|
Indica se o conjunto de dados está visível na interface do usuário. Se False, o conjunto de dados ficará oculto na interface do usuário e disponível por meio do SDK. |
|
exist_ok
Obrigatório
|
Se true, o método retornará o conjunto de dados se ele já existir no workspace fornecido, caso contrário, erro. |
|
update_if_exist
Obrigatório
|
Se |
Retornos
| Tipo | Description |
|---|---|
|
Um objeto de conjunto de dados registrado no workspace. |
sample
Gere um novo exemplo do conjunto de dados de origem usando a estratégia de amostragem e os parâmetros fornecidos.
Observação
Esse método foi preterido e não terá mais suporte.
Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o take_sample método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parâmetros
| Nome | Description |
|---|---|
|
sample_strategy
Obrigatório
|
Estratégia de exemplo a ser usada. Os valores aceitos são "top_n", "simple_random" ou "estratificados". |
|
arguments
Obrigatório
|
Um dicionário com chaves do "argumento opcional" na lista mostrada acima e valores da coluna tye "Type". Somente argumentos do método de amostragem correspondente podem ser usados. Por exemplo, para um tipo de exemplo "simple_random", você só pode especificar um dicionário com chaves "probabilidade" e "semente". |
Retornos
| Tipo | Description |
|---|---|
|
Objeto de conjunto de dados como um exemplo do conjunto de dados original. |
Comentários
Os exemplos são gerados executando o pipeline de transformação definido por esse conjunto de dados e, em seguida, aplicando a estratégia de amostragem e os parâmetros aos dados de saída. Cada método de amostragem dá suporte aos seguintes argumentos opcionais:
top_n
Argumentos opcionais
- n, digite inteiro. Selecione as linhas N superiores como sua amostra.
simple_random
Argumentos opcionais
probabilidade, tipo float. Amostragem aleatória simples em que cada linha tem a mesma probabilidade de ser selecionada. A probabilidade deve ser um número entre 0 e 1.
semente, tipo float. Usado pelo gerador de número aleatório. Use para repetibilidade.
Estratificada
Argumentos opcionais
colunas, lista de tipos[str]. Lista de colunas de estratos nos dados.
semente, tipo float. Usado pelo gerador de número aleatório. Use para repetibilidade.
frações, tipo dict[tupla, float]. Tupla: os valores de coluna que definem um estrato devem estar na mesma ordem que os nomes de coluna. Float: peso anexado a um estrato durante a amostragem.
Os snippets de código a seguir são padrões de design de exemplo para diferentes métodos de exemplo.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Crie um dataframe do Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_pandas_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Retornos
| Tipo | Description |
|---|---|
|
Um DataFrame do Pandas. |
Comentários
Retornar um DataFrame pandas totalmente materializado na memória.
to_spark_dataframe
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por essa definição de conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_spark_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Retornos
| Tipo | Description |
|---|---|
|
Um DataFrame do Spark. |
Comentários
O Dataframe do Spark retornado é apenas um plano de execução e não contém dados, pois os Dataframes do Spark são avaliados lentamente.
update
Atualize os atributos mutáveis do conjunto de dados no workspace e retorne o conjunto de dados atualizado do workspace.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parâmetros
| Nome | Description |
|---|---|
|
name
Obrigatório
|
O nome do conjunto de dados no workspace. |
|
description
Obrigatório
|
Uma descrição dos dados. |
|
tags
Obrigatório
|
Marcas às qual associar o conjunto de dados. |
|
visible
Obrigatório
|
Indica se o conjunto de dados está visível na interface do usuário. |
Retornos
| Tipo | Description |
|---|---|
|
Um objeto dataset atualizado do workspace. |
update_definition
Atualize a definição do conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parâmetros
| Nome | Description |
|---|---|
|
definition
Obrigatório
|
A nova definição desse conjunto de dados. |
|
definition_update_message
Obrigatório
|
A mensagem de atualização de definição. |
Retornos
| Tipo | Description |
|---|---|
|
Um objeto dataset atualizado do workspace. |
Comentários
Para consumir o conjunto de dados atualizado, use o objeto retornado por esse método.
Atributos
definition
Retorne a definição atual do conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Retornos
| Tipo | Description |
|---|---|
|
A definição do conjunto de dados. |
Comentários
Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.
Um conjunto de dados registrado em um workspace do AzureML pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. Ter várias definições permite que você faça alterações em conjuntos de dados existentes sem quebrar modelos e pipelines que dependem da definição mais antiga.
Para conjuntos de dados não registrados, existe apenas uma definição.
definition_version
Retorne a versão da definição atual do conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Retornos
| Tipo | Description |
|---|---|
|
A versão de definição do conjunto de dados. |
Comentários
Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.
Um conjunto de dados registrado em um workspace do AzureML pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada, cuja ID é retornada por isso.
Para conjuntos de dados não registrados, existe apenas uma definição.
description
Retorne a descrição do conjunto de dados.
Retornos
| Tipo | Description |
|---|---|
|
A descrição do conjunto de dados. |
Comentários
Especificar uma descrição dos dados no conjunto de dados permite que os usuários do workspace entendam o que os dados representam e como eles podem usá-los.
id
Se o conjunto de dados tiver sido registrado em um workspace, retorne a ID do conjunto de dados. Caso contrário, retorne None.
Retornos
| Tipo | Description |
|---|---|
|
A ID do conjunto de dados. |
is_visible
Controlar a visibilidade de um conjunto de dados registrado na interface do usuário do workspace do Azure ML.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Retornos
| Tipo | Description |
|---|---|
|
A visibilidade do conjunto de dados. |
Comentários
Valores retornados:
True: o conjunto de dados está visível na interface do usuário do workspace. Padrão.
False: o conjunto de dados está oculto na interface do usuário do workspace.
Não tem efeito sobre conjuntos de dados não registrados.
name
state
Retornar o estado do conjunto de dados.
Observação
Esse método foi preterido e não terá mais suporte.
Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Retornos
| Tipo | Description |
|---|---|
|
O estado do conjunto de dados. |
Comentários
O significado e o efeito dos estados são os seguintes:
Ativo. Definições ativas são exatamente o que parecem, todas as ações podem ser executadas em definições ativas.
Preterido. A definição preterida pode ser usada, mas resultará em um aviso sendo registrado nos logs sempre que os dados subjacentes forem acessados.
Arquivados. Uma definição arquivada não pode ser usada para executar qualquer ação. Para executar ações em uma definição arquivada, ela deve ser reativada.
tags
workspace
Se o conjunto de dados tiver sido registrado em um workspace, retorne-o. Caso contrário, retorne None.
Retornos
| Tipo | Description |
|---|---|
|
O workspace. |