Compartilhar via


Datastore Classe

Representa uma abstração de armazenamento em uma conta de armazenamento do Azure Machine Learning.

Os armazenamentos de dados são anexados a workspaces e são usados para armazenar informações de conexão para os serviços de armazenamento do Azure para que você possa se referir a eles pelo nome e não precise lembrar as informações de conexão e o segredo usados para se conectar aos serviços de armazenamento.

Exemplos de serviços de armazenamento do Azure com suporte que podem ser registrados como repositórios de dados são:

  • Contêiner de Blob do Azure

  • Partilha de Ficheiros do Azure

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Banco de Dados SQL do Azure

  • Banco de Dados do Azure para PostgreSQL

  • Sistema de arquivos do Databricks

  • Banco de Dados do Azure para MySQL

Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e remover armazenamentos de dados. Os repositórios de dados para cada serviço são criados com os register* métodos dessa classe. Ao usar um armazenamento de dados para acessar dados, você deve ter permissão para acessar esses dados, o que depende das credenciais registradas com o armazenamento de dados.

Para obter mais informações sobre armazenamentos de dados e como eles podem ser usados no machine learning, consulte os seguintes artigos:

Obtenha um armazenamento de dados pelo nome. Essa chamada fará uma solicitação para o serviço de armazenamento de dados.

Construtor

Datastore(workspace, name=None)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace.

name
str, <xref:optional>

O nome do armazenamento de dados, usa como padrão None, que obtém o armazenamento de dados padrão.

Valor padrão: None

Comentários

Para interagir com dados em seus armazenamentos de dados para tarefas de aprendizado de máquina, como treinamento, crie um conjunto de dados do Azure Machine Learning. Os conjuntos de dados fornecem funções que carregam dados tabulares em um Pandas ou Spark DataFrame. Os conjuntos de dados também fornecem a capacidade de baixar ou montar arquivos de qualquer formato do Armazenamento de Blobs do Azure, dos Arquivos do Azure, do Azure Data Lake Storage Gen1, do Azure Data Lake Storage Gen2, do Banco de Dados SQL do Azure e do Banco de Dados do Azure para PostgreSQL. Saiba mais sobre como treinar com conjuntos de dados.

O exemplo a seguir mostra como criar um Armazenamento de Dados conectado ao Contêiner de Blobs do Azure.


   # from azureml.exceptions import UserErrorException
   #
   # blob_datastore_name='MyBlobDatastore'
   # account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   # container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   # account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
   #
   # try:
   #     blob_datastore = Datastore.get(ws, blob_datastore_name)
   #     print("Found Blob Datastore with name: %s" % blob_datastore_name)
   # except UserErrorException:
   #     blob_datastore = Datastore.register_azure_blob_container(
   #         workspace=ws,
   #         datastore_name=blob_datastore_name,
   #         account_name=account_name, # Storage account name
   #         container_name=container_name, # Name of Azure blob container
   #         account_key=account_key) # Storage account key
   #     print("Registered blob datastore with name: %s" % blob_datastore_name)
   #
   # blob_data_ref = DataReference(
   #     datastore=blob_datastore,
   #     data_reference_name="blob_test_data",
   #     path_on_datastore="testdata")

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Métodos

get

Obtenha um armazenamento de dados pelo nome. Isso é o mesmo que chamar o construtor.

get_default

Obtenha o armazenamento de dados padrão para o workspace.

register_azure_blob_container

Registre um Contêiner de Blobs do Azure no armazenamento de dados.

Há suporte para o acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia), você pode optar por usar o Token SAS ou a Chave da Conta de Armazenamento. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

register_azure_data_lake

Inicialize um novo Azure Data Lake Datastore.

Há suporte para o acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia), você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseados em credencial. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um Datastore.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Inicialize um novo Azure Data Lake Gen2 Datastore.

Há suporte para o acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia), você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseados em credencial. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

register_azure_file_share

Registre um Compartilhamento de Arquivos do Azure no armazenamento de dados.

Você pode optar por usar o Token SAS ou a Chave da Conta de Armazenamento

register_azure_my_sql

Inicialize um novo Azure MySQL Datastore.

O armazenamento de dados MySQL só pode ser usado para criar DataReference como entrada e saída para DataTransferStep em pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui.

Confira abaixo um exemplo de como registrar um banco de dados MySQL do Azure como um Armazenamento de Dados.

register_azure_postgre_sql

Inicialize um novo Azure PostgreSQL Datastore.

Confira abaixo um exemplo de como registrar um banco de dados postgreSQL do Azure como um Armazenamento de Dados.

register_azure_sql_database

Inicialize um novo Datastore do Banco de Dados SQL do Azure.

O acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia) tem suporte, você pode optar por usar a Entidade de Serviço ou o nome de usuário + senha. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Confira abaixo um exemplo de como registrar um banco de dados SQL do Azure como um Armazenamento de Dados.

register_dbfs

Inicialize um novo armazenamento de dados do DBFS (Databricks File System).

O armazenamento de dados DBFS só pode ser usado para criar DataReference como entrada e PipelineData como saída para DatabricksStep em pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui..

register_hdfs

Observação

Esse é um método experimental e pode ser alterado a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Inicialize um novo armazenamento de dados HDFS.

set_as_default

Defina o armazenamento de dados padrão.

unregister

Cancela o registro do armazenamento de dados. o serviço de armazenamento subjacente não será excluído.

get

Obtenha um armazenamento de dados pelo nome. Isso é o mesmo que chamar o construtor.

static get(workspace, datastore_name)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace.

datastore_name
Obrigatório
str, <xref:optional>

O nome do armazenamento de dados, usa como padrão None, que obtém o armazenamento de dados padrão.

Retornos

Tipo Description

O armazenamento de dados correspondente para esse nome.

get_default

Obtenha o armazenamento de dados padrão para o workspace.

static get_default(workspace)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace.

Retornos

Tipo Description

O armazenamento de dados padrão para o workspace

register_azure_blob_container

Registre um Contêiner de Blobs do Azure no armazenamento de dados.

Há suporte para o acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia), você pode optar por usar o Token SAS ou a Chave da Conta de Armazenamento. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace.

datastore_name
Obrigatório
str

O nome do armazenamento de dados, que não diferencia maiúsculas de minúsculas, só pode conter caracteres alfanuméricos e _.

container_name
Obrigatório
str

O nome do contêiner de blob do azure.

account_name
Obrigatório
str

O nome da conta de armazenamento.

sas_token
str, <xref:optional>

Um token SAS de conta, o padrão é None. Para leitura de dados, exigimos um mínimo de permissões de Lista & Leitura para Contêineres &Objetos e, para gravação de dados, também exigimos permissões de Gravação &Adicionar.

Valor padrão: None
account_key
str, <xref:optional>

Chaves de acesso da sua conta de armazenamento, padrão para None.

Valor padrão: None
protocol
str, <xref:optional>

Protocolo a ser usado para se conectar ao contêiner de blob. Se Nenhum, o padrão é https.

Valor padrão: None
endpoint
str, <xref:optional>

O ponto de extremidade da conta de armazenamento. Se Nenhum, o padrão será core.windows.net.

Valor padrão: None
overwrite
bool, <xref:optional>

substitui um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um, o padrão será False

Valor padrão: False
create_if_not_exists
bool, <xref:optional>

criar o contêiner de blob se ele não existir, o padrão será False

Valor padrão: False
skip_validation
bool, <xref:optional>

ignora a validação de chaves de armazenamento, o padrão é False

Valor padrão: False
blob_cache_timeout
int, <xref:optional>

Quando esse blob for montado, defina o tempo limite do cache para esses muitos segundos. Se Nenhum, o padrão será sem tempo limite (ou seja, os blobs serão armazenados em cache durante o trabalho quando lidos).

Valor padrão: None
grant_workspace_access
bool, <xref:optional>

Usa False como padrão. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. Você precisa ser proprietário ou administrador de acesso do usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Valor padrão: False
subscription_id
str, <xref:optional>

A ID da assinatura da conta de armazenamento, padrão para None.

Valor padrão: None
resource_group
str, <xref:optional>

O grupo de recursos da conta de armazenamento, o padrão é None.

Valor padrão: None

Retornos

Tipo Description

O armazenamento de dados de blob.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.

register_azure_data_lake

Inicialize um novo Azure Data Lake Datastore.

Há suporte para o acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia), você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseados em credencial. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um Datastore.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace ao qual este armazenamento de dados pertence.

datastore_name
Obrigatório
str

O nome do armazenamento de dados.

store_name
Obrigatório
str

O nome do repositório do ADLS.

tenant_id
str, <xref:optional>

A ID do diretório/ID do locatário da entidade de serviço usada para acessar dados.

Valor padrão: None
client_id
str, <xref:optional>

A ID do cliente/ID do aplicativo da entidade de serviço usada para acessar dados.

Valor padrão: None
client_secret
str, <xref:optional>

O Segredo do Cliente da entidade de serviço usada para acessar dados.

Valor padrão: None
resource_url
str, <xref:optional>

A URL do recurso, que determina quais operações serão executadas no repositório Data Lake, se Nenhuma, é padrão, o https://datalake.azure.net/ que nos permite executar operações de sistema de arquivos.

Valor padrão: None
authority_url
str, <xref:optional>

A URL de autoridade usada para autenticar o usuário, usa como padrão https://login.microsoftonline.com.

Valor padrão: None
subscription_id
str, <xref:optional>

A ID da assinatura à qual o repositório ADLS pertence.

Valor padrão: None
resource_group
str, <xref:optional>

O grupo de recursos ao qual o repositório ADLS pertence.

Valor padrão: None
overwrite
bool, <xref:optional>

Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

Valor padrão: False
grant_workspace_access
bool, <xref:optional>

Usa False como padrão. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. Você precisa ser Proprietário ou Administrador de Acesso do Usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Valor padrão: False

Retornos

Tipo Description

Retorna o Azure Data Lake Datastore.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.

Observação

O Azure Data Lake Datastore dá suporte à transferência de dados e à execução de trabalhos U-Sql usando o Azure Machine Learning Pipelines.

Você também pode usá-lo como uma fonte de dados para o Conjunto de Dados do Azure Machine Learning que pode ser baixado ou montado em qualquer computação com suporte.

register_azure_data_lake_gen2

Inicialize um novo Azure Data Lake Gen2 Datastore.

Há suporte para o acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia), você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseados em credencial. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace ao qual este armazenamento de dados pertence.

datastore_name
Obrigatório
str

O nome do armazenamento de dados.

filesystem
Obrigatório
str

O nome do sistema de arquivos Data Lake Gen2.

account_name
Obrigatório
str

O nome da conta de armazenamento.

tenant_id
str, <xref:optional>

A ID do diretório/ID do locatário da entidade de serviço.

Valor padrão: None
client_id
str, <xref:optional>

A ID do cliente/ID do aplicativo da entidade de serviço.

Valor padrão: None
client_secret
str, <xref:optional>

O segredo da entidade de serviço.

Valor padrão: None
resource_url
str, <xref:optional>

A URL do recurso, que determina quais operações serão executadas no repositório data lake, usa como padrão o https://storage.azure.com/ que nos permite executar operações de sistema de arquivos.

Valor padrão: None
authority_url
str, <xref:optional>

A URL de autoridade usada para autenticar o usuário, usa como padrão https://login.microsoftonline.com.

Valor padrão: None
protocol
str, <xref:optional>

Protocolo a ser usado para se conectar ao contêiner de blob. Se Nenhum, o padrão é https.

Valor padrão: None
endpoint
str, <xref:optional>

O ponto de extremidade da conta de armazenamento. Se Nenhum, o padrão será core.windows.net.

Valor padrão: None
overwrite
bool, <xref:optional>

Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

Valor padrão: False
subscription_id
str, <xref:optional>

A ID da assinatura à qual o repositório ADLS pertence.

Valor padrão: None
resource_group
str, <xref:optional>

O grupo de recursos ao qual o repositório ADLS pertence.

Valor padrão: None
grant_workspace_access
bool, <xref:optional>

Usa False como padrão. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. Você precisa ser proprietário ou administrador de acesso do usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Valor padrão: False

Retornos

Tipo Description

Retorna o Azure Data Lake Gen2 Datastore.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.

register_azure_file_share

Registre um Compartilhamento de Arquivos do Azure no armazenamento de dados.

Você pode optar por usar o Token SAS ou a Chave da Conta de Armazenamento

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace ao qual este armazenamento de dados pertence.

datastore_name
Obrigatório
str

O nome do armazenamento de dados, que não diferencia maiúsculas de minúsculas, só pode conter caracteres alfanuméricos e _.

file_share_name
Obrigatório
str

O nome do contêiner de arquivos do azure.

account_name
Obrigatório
str

O nome da conta de armazenamento.

sas_token
str, <xref:optional>

Um token SAS de conta, o padrão é None. Para leitura de dados, exigimos um mínimo de permissões de Lista & Leitura para Contêineres &Objetos e, para gravação de dados, também exigimos permissões de Gravação &Adicionar.

Valor padrão: None
account_key
str, <xref:optional>

Chaves de acesso da sua conta de armazenamento, padrão para None.

Valor padrão: None
protocol
str, <xref:optional>

O protocolo a ser usado para se conectar ao compartilhamento de arquivos. Se Nenhum, o padrão é https.

Valor padrão: None
endpoint
str, <xref:optional>

O ponto de extremidade do compartilhamento de arquivos. Se Nenhum, o padrão será core.windows.net.

Valor padrão: None
overwrite
bool, <xref:optional>

Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

Valor padrão: False
create_if_not_exists
bool, <xref:optional>

Se será necessário criar o compartilhamento de arquivos se ele não existir. O padrão é False.

Valor padrão: False
skip_validation
bool, <xref:optional>

Se deseja ignorar a validação de chaves de armazenamento. O padrão é False.

Valor padrão: False

Retornos

Tipo Description

O armazenamento de dados do arquivo.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.

register_azure_my_sql

Inicialize um novo Azure MySQL Datastore.

O armazenamento de dados MySQL só pode ser usado para criar DataReference como entrada e saída para DataTransferStep em pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui.

Confira abaixo um exemplo de como registrar um banco de dados MySQL do Azure como um Armazenamento de Dados.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace ao qual este armazenamento de dados pertence.

datastore_name
Obrigatório
str

O nome do armazenamento de dados.

server_name
Obrigatório
str

O nome do servidor MySQL.

database_name
Obrigatório
str

O nome do banco de dados MySQL.

user_id
Obrigatório
str

A ID de usuário do servidor MySQL.

user_password
Obrigatório
str

A senha do usuário do servidor MySQL.

port_number
str

O número da porta do servidor MySQL.

Valor padrão: None
endpoint
str, <xref:optional>

O ponto de extremidade do servidor MySQL. Se Nenhum, o padrão será mysql.database.azure.com.

Valor padrão: None
overwrite
bool, <xref:optional>

Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

Valor padrão: False

Retornos

Tipo Description

Retorna o Armazenamento de Dados do Banco de Dados MySQL.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Inicialize um novo Azure PostgreSQL Datastore.

Confira abaixo um exemplo de como registrar um banco de dados postgreSQL do Azure como um Armazenamento de Dados.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace ao qual este armazenamento de dados pertence.

datastore_name
Obrigatório
str

O nome do armazenamento de dados.

server_name
Obrigatório
str

O nome do servidor PostgreSQL.

database_name
Obrigatório
str

O nome do banco de dados PostgreSQL.

user_id
Obrigatório
str

A ID de Usuário do servidor PostgreSQL.

user_password
Obrigatório
str

A senha de usuário do servidor PostgreSQL.

port_number
str

O número da porta do servidor PostgreSQL

Valor padrão: None
endpoint
str, <xref:optional>

O ponto de extremidade do servidor PostgreSQL. Se Nenhum, o padrão será postgres.database.azure.com.

Valor padrão: None
overwrite
bool, <xref:optional>

Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

Valor padrão: False
enforce_ssl

Indica o requisito SSL do servidor PostgreSQL. O padrão é True.

Valor padrão: True

Retornos

Tipo Description

Retorna o Datastore do banco de dados PostgreSQL.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Inicialize um novo Datastore do Banco de Dados SQL do Azure.

O acesso a dados baseado em credencial (GA) e baseado em identidade (versão prévia) tem suporte, você pode optar por usar a Entidade de Serviço ou o nome de usuário + senha. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Confira abaixo um exemplo de como registrar um banco de dados SQL do Azure como um Armazenamento de Dados.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace ao qual este armazenamento de dados pertence.

datastore_name
Obrigatório
str

O nome do armazenamento de dados.

server_name
Obrigatório
str

O nome do SQL Server. Para o nome de domínio totalmente qualificado, como "sample.database.windows.net", o valor de server_name deve ser "exemplo" e o valor do ponto de extremidade deve ser "database.windows.net".

database_name
Obrigatório
str

O nome do banco de dados SQL.

tenant_id
str

A ID do diretório/ID do locatário da entidade de serviço.

Valor padrão: None
client_id
str

A ID do cliente/ID do aplicativo da entidade de serviço.

Valor padrão: None
client_secret
str

O segredo da entidade de serviço.

Valor padrão: None
resource_url
str, <xref:optional>

A URL do recurso, que determina quais operações serão executadas no repositório de banco de dados SQL, se Nenhuma, padrão https://database.windows.net/.

Valor padrão: None
authority_url
str, <xref:optional>

A URL de autoridade usada para autenticar o usuário, usa como padrão https://login.microsoftonline.com.

Valor padrão: None
endpoint
str, <xref:optional>

O ponto de extremidade do SQL Server. Se Nenhum, o padrão é database.windows.net.

Valor padrão: None
overwrite
bool, <xref:optional>

Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

Valor padrão: False
username
str

O nome de usuário do usuário do banco de dados para acessar o banco de dados.

Valor padrão: None
password
str

A senha do usuário do banco de dados para acessar o banco de dados.

Valor padrão: None
skip_validation
Obrigatório
bool, <xref:optional>

Se deseja ignorar a validação da conexão com o banco de dados SQL. Usa False como padrão.

subscription_id
str, <xref:optional>

A ID da assinatura à qual o repositório ADLS pertence.

Valor padrão: None
resource_group
str, <xref:optional>

O grupo de recursos ao qual o repositório ADLS pertence.

Valor padrão: None
grant_workspace_access
bool, <xref:optional>

Usa False como padrão. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. Você precisa ser proprietário ou administrador de acesso do usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Valor padrão: False

Retornos

Tipo Description

Retorna o Datastore do banco de dados SQL.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Inicialize um novo armazenamento de dados do DBFS (Databricks File System).

O armazenamento de dados DBFS só pode ser usado para criar DataReference como entrada e PipelineData como saída para DatabricksStep em pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui..

static register_dbfs(workspace, datastore_name)

Parâmetros

Nome Description
workspace
Obrigatório

O workspace ao qual este armazenamento de dados pertence.

datastore_name
Obrigatório
str

O nome do armazenamento de dados.

Retornos

Tipo Description

Retorna o DBFS Datastore.

Comentários

Se você estiver anexando o armazenamento de uma região diferente da região do workspace, isso poderá resultar em maior latência e custos adicionais de uso de rede.

register_hdfs

Observação

Esse é um método experimental e pode ser alterado a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Inicialize um novo armazenamento de dados HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parâmetros

Nome Description
workspace
Obrigatório

o workspace ao qual este armazenamento de dados pertence

datastore_name
Obrigatório
str

o nome do armazenamento de dados

protocol
Obrigatório
str ou <xref:_restclient.models.enum>

O protocolo a ser usado ao se comunicar com o cluster HDFS. http ou https. Os valores possíveis incluem: 'http', 'https'

namenode_address
Obrigatório
str

O endereço IP ou o nome do host DNS do namenode do HDFS. Opcionalmente, inclui uma porta.

hdfs_server_certificate
Obrigatório
str, <xref:optional>

O caminho para o certificado de assinatura TLS do namenode HDFS, se estiver usando TLS com um certificado autoassinado.

kerberos_realm
Obrigatório
str

O reino Kerberos.

kerberos_kdc_address
Obrigatório
str

O endereço IP ou o nome do host DNS do KDC Kerberos.

kerberos_principal
Obrigatório
str

A entidade de segurança Kerberos a ser usada para autenticação e autorização.

kerberos_keytab
Obrigatório
str, <xref:optional>

O caminho para o arquivo de keytab que contém as chaves correspondentes à entidade de segurança Kerberos. Forneça isso ou uma senha.

kerberos_password
Obrigatório
str, <xref:optional>

A senha correspondente à entidade de segurança Kerberos. Forneça isso ou o caminho para um arquivo de keytab.

overwrite
Obrigatório
bool, <xref:optional>

substitui um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. Usa False como padrão.

set_as_default

Defina o armazenamento de dados padrão.

set_as_default()

Parâmetros

Nome Description
datastore_name
Obrigatório
str

O nome do armazenamento de dados.

unregister

Cancela o registro do armazenamento de dados. o serviço de armazenamento subjacente não será excluído.

unregister()