Datastore Classe
Representa uma abstração de armazenamento sobre uma conta de armazenamento do Azure Machine Learning.
Os armazenamentos de dados são anexados a espaços de trabalho e são usados para armazenar informações de conexão aos serviços de armazenamento do Azure para que você possa se referir a eles pelo nome e não precise lembrar as informações de conexão e o segredo usados para se conectar aos serviços de armazenamento.
Exemplos de serviços de armazenamento do Azure com suporte que podem ser registrados como armazenamentos de dados são:
Contentor de Blobs do Azure
Partilha de Ficheiros do Azure
Azure Data Lake
Azure Data Lake Gen2
Base de Dados SQL do Azure
Base de Dados do Azure para PostgreSQL
Sistema de Ficheiros do Databricks
Base de Dados do Azure para MySQL
Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e remover armazenamentos de dados.
Datastores para cada serviço são criados com os register* métodos dessa classe. Ao usar um armazenamento de dados para acessar dados, você deve ter permissão para acessar esses dados, o que depende das credenciais registradas no armazenamento de dados.
Para obter mais informações sobre armazenamentos de dados e como eles podem ser usados no aprendizado de máquina, consulte os seguintes artigos:
Obtenha um armazenamento de dados por nome. Essa chamada fará uma solicitação ao serviço de armazenamento de dados.
Construtor
Datastore(workspace, name=None)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho. |
|
name
|
str, <xref:optional>
O nome do armazenamento de dados assume como padrão Nenhum, que obtém o armazenamento de dados padrão. Default value: None
|
Observações
Para interagir com dados em seus armazenamentos de dados para tarefas de aprendizado de máquina, como treinamento, crie um conjunto de dados do Azure Machine Learning. Os conjuntos de dados fornecem funções que carregam dados tabulares em um pandas ou Spark DataFrame. Os conjuntos de dados também fornecem a capacidade de baixar ou montar arquivos de qualquer formato do armazenamento de Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Banco de Dados SQL do Azure e Banco de Dados do Azure para PostgreSQL. Saiba mais sobre como treinar com conjuntos de dados.
O exemplo a seguir mostra como criar um Datastore conectado ao Contêiner de Blob do Azure.
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
A amostra completa está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Métodos
| get |
Obtenha um armazenamento de dados por nome. Isso é o mesmo que chamar o construtor. |
| get_default |
Obtenha o armazenamento de dados padrão para o espaço de trabalho. |
| register_azure_blob_container |
Registre um Contêiner de Blob do Azure no armazenamento de dados. O acesso a dados baseado em credenciais (GA) e baseado em identidade (visualização) é suportado, você pode optar por usar o token SAS ou a chave de conta de armazenamento. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui. |
| register_azure_data_lake |
Inicialize um novo armazenamento de dados do Azure Data Lake. O acesso a dados baseado em credenciais (GA) e baseado em identidade (visualização) é suportado, Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui. Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um Datastore.
|
| register_azure_data_lake_gen2 |
Inicialize um novo armazenamento de dados do Azure Data Lake Gen2. O acesso a dados baseado em credenciais (GA) e baseado em identidade (visualização) é suportado, Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui. |
| register_azure_file_share |
Registre um Compartilhamento de Arquivos do Azure no armazenamento de dados. Você pode optar por usar o Token SAS ou a Chave de Conta de Armazenamento |
| register_azure_my_sql |
Inicialize um novo Azure MySQL Datastore. O armazenamento de dados MySQL só pode ser usado para criar DataReference como entrada e saída para DataTransferStep nos pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui. Veja abaixo um exemplo de como registrar um banco de dados MySQL do Azure como um armazenamento de dados. |
| register_azure_postgre_sql |
Inicialize um novo repositório de dados PostgreSQL do Azure. Veja abaixo um exemplo de como registrar um banco de dados PostgreSQL do Azure como um Datastore. |
| register_azure_sql_database |
Inicialize um novo armazenamento de dados do banco de dados SQL do Azure. O acesso a dados baseado em credenciais (GA) e baseado em identidade (Visualização) é suportado, você pode optar por usar a Entidade de Serviço ou nome de usuário + senha. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui. Veja abaixo um exemplo de como registrar um banco de dados SQL do Azure como um Datastore. |
| register_dbfs |
Inicialize um novo armazenamento de dados do Sistema de Arquivos Databricks (DBFS). O armazenamento de dados DBFS só pode ser usado para criar DataReference como entrada e PipelineData como saída para DatabricksStep em pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui.. |
| register_hdfs |
Observação Este é um método experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Inicialize um novo armazenamento de dados HDFS. |
| set_as_default |
Defina o armazenamento de dados padrão. |
| unregister |
Cancela o registro do armazenamento de dados. O serviço de armazenamento subjacente não será excluído. |
get
Obtenha um armazenamento de dados por nome. Isso é o mesmo que chamar o construtor.
static get(workspace, datastore_name)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho. |
|
datastore_name
Necessário
|
str, <xref:optional>
O nome do armazenamento de dados assume como padrão Nenhum, que obtém o armazenamento de dados padrão. |
Devoluções
| Tipo | Description |
|---|---|
|
O armazenamento de dados correspondente para esse nome. |
get_default
Obtenha o armazenamento de dados padrão para o espaço de trabalho.
static get_default(workspace)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho. |
Devoluções
| Tipo | Description |
|---|---|
|
O armazenamento de dados padrão para o espaço de trabalho |
register_azure_blob_container
Registre um Contêiner de Blob do Azure no armazenamento de dados.
O acesso a dados baseado em credenciais (GA) e baseado em identidade (visualização) é suportado, você pode optar por usar o token SAS ou a chave de conta de armazenamento. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados, que não diferencia maiúsculas de minúsculas, só pode conter caracteres alfanuméricos e _. |
|
container_name
Necessário
|
O nome do contêiner de blob azure. |
|
account_name
Necessário
|
O nome da conta de armazenamento. |
|
sas_token
|
str, <xref:optional>
Um token SAS de conta, o padrão é Nenhum. Para leitura de dados, exigimos um mínimo de permissões List & Read para Containers & Objects e para gravação de dados também exigimos permissões Write & Add. Default value: None
|
|
account_key
|
str, <xref:optional>
As chaves de acesso da sua conta de armazenamento, por padrão, são Nenhuma. Default value: None
|
|
protocol
|
str, <xref:optional>
Protocolo a ser usado para se conectar ao contêiner de blob. Se Nenhum, o padrão é https. Default value: None
|
|
endpoint
|
str, <xref:optional>
O ponto de extremidade da conta de armazenamento. Se Nenhum, o padrão será core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
substitui um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um, o padrão será False Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
criar o contêiner de blob se ele não existir, o padrão é False Default value: False
|
|
skip_validation
|
bool, <xref:optional>
ignora a validação de chaves de armazenamento, o padrão é False Default value: False
|
|
blob_cache_timeout
|
int, <xref:optional>
Quando esse blob estiver montado, defina o tempo limite do cache para esses segundos. Se Nenhum, o padrão é nenhum tempo limite (ou seja, os blobs serão armazenados em cache durante a duração do trabalho quando lidos). Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
A definição padrão é 'False'. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso aos dados do Machine Learning Studio use a identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como Reader do armazenamento. Você precisa ser proprietário ou administrador de acesso de usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
|
subscription_id
|
str, <xref:optional>
O ID de assinatura da conta de armazenamento assume como padrão Nenhum. Default value: None
|
|
resource_group
|
str, <xref:optional>
O grupo de recursos da conta de armazenamento assume como padrão Nenhum. Default value: None
|
Devoluções
| Tipo | Description |
|---|---|
|
O armazenamento de dados blob. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
register_azure_data_lake
Inicialize um novo armazenamento de dados do Azure Data Lake.
O acesso a dados baseado em credenciais (GA) e baseado em identidade (visualização) é suportado, Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.
Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um Datastore.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados. |
|
store_name
Necessário
|
O nome da loja ADLS. |
|
tenant_id
|
str, <xref:optional>
A ID do diretório/ID do locatário da entidade de serviço usada para acessar os dados. Default value: None
|
|
client_id
|
str, <xref:optional>
A ID do cliente/ID do aplicativo da entidade de serviço usada para acessar os dados. Default value: None
|
|
client_secret
|
str, <xref:optional>
O Segredo do Cliente da entidade de serviço usada para acessar dados. Default value: None
|
|
resource_url
|
str, <xref:optional>
A URL do recurso, que determina quais operações serão executadas no armazenamento Data Lake, se Nenhuma, assume como Default value: None
|
|
authority_url
|
str, <xref:optional>
O URL de autoridade usado para autenticar o usuário, como padrão é Default value: None
|
|
subscription_id
|
str, <xref:optional>
O ID da assinatura à qual a loja ADLS pertence. Default value: None
|
|
resource_group
|
str, <xref:optional>
O grupo de recursos ao qual o repositório ADLS pertence. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False. Default value: False
|
|
grant_workspace_access
|
bool, <xref:optional>
A definição padrão é 'False'. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso aos dados do Machine Learning Studio use a identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como Reader do armazenamento. Tem de ser Proprietário ou Administrador de Acesso de Utilizador do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
Devoluções
| Tipo | Description |
|---|---|
|
Retorna o armazenamento de dados do Azure Data Lake. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
Observação
O Azure Data Lake Datastore dá suporte à transferência de dados e à execução de trabalhos U-Sql usando os Pipelines do Azure Machine Learning.
Você também pode usá-lo como uma fonte de dados para o Conjunto de Dados do Azure Machine Learning, que pode ser baixado ou montado em qualquer computação com suporte.
register_azure_data_lake_gen2
Inicialize um novo armazenamento de dados do Azure Data Lake Gen2.
O acesso a dados baseado em credenciais (GA) e baseado em identidade (visualização) é suportado, Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados. |
|
filesystem
Necessário
|
O nome do sistema de arquivos Data Lake Gen2. |
|
account_name
Necessário
|
O nome da conta de armazenamento. |
|
tenant_id
|
str, <xref:optional>
A ID do diretório/ID do locatário da entidade de serviço. Default value: None
|
|
client_id
|
str, <xref:optional>
A ID do cliente/ID do aplicativo da entidade de serviço. Default value: None
|
|
client_secret
|
str, <xref:optional>
O segredo do responsável pelo serviço. Default value: None
|
|
resource_url
|
str, <xref:optional>
A URL do recurso, que determina quais operações serão executadas no armazenamento do data lake, usa como Default value: None
|
|
authority_url
|
str, <xref:optional>
O URL de autoridade usado para autenticar o usuário, como padrão é Default value: None
|
|
protocol
|
str, <xref:optional>
Protocolo a ser usado para se conectar ao contêiner de blob. Se Nenhum, o padrão é https. Default value: None
|
|
endpoint
|
str, <xref:optional>
O ponto de extremidade da conta de armazenamento. Se Nenhum, o padrão será core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False. Default value: False
|
|
subscription_id
|
str, <xref:optional>
O ID da assinatura à qual a loja ADLS pertence. Default value: None
|
|
resource_group
|
str, <xref:optional>
O grupo de recursos ao qual o repositório ADLS pertence. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
A definição padrão é 'False'. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso aos dados do Machine Learning Studio use a identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como Reader do armazenamento. Você precisa ser proprietário ou administrador de acesso de usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
Devoluções
| Tipo | Description |
|---|---|
|
Retorna o armazenamento de dados do Azure Data Lake Gen2. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
register_azure_file_share
Registre um Compartilhamento de Arquivos do Azure no armazenamento de dados.
Você pode optar por usar o Token SAS ou a Chave de Conta de Armazenamento
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados, que não diferencia maiúsculas de minúsculas, só pode conter caracteres alfanuméricos e _. |
|
file_share_name
Necessário
|
O nome do contêiner de arquivo azure. |
|
account_name
Necessário
|
O nome da conta de armazenamento. |
|
sas_token
|
str, <xref:optional>
Um token SAS de conta, o padrão é Nenhum. Para leitura de dados, exigimos um mínimo de permissões List & Read para Containers & Objects e para gravação de dados também exigimos permissões Write & Add. Default value: None
|
|
account_key
|
str, <xref:optional>
As chaves de acesso da sua conta de armazenamento, por padrão, são Nenhuma. Default value: None
|
|
protocol
|
str, <xref:optional>
O protocolo a ser usado para se conectar ao compartilhamento de arquivos. Se Nenhum, o padrão é https. Default value: None
|
|
endpoint
|
str, <xref:optional>
O ponto de extremidade do compartilhamento de arquivos. Se Nenhum, o padrão será core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False. Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
Se deseja criar o compartilhamento de arquivos se ele não existir. O padrão é False. Default value: False
|
|
skip_validation
|
bool, <xref:optional>
Se deve ignorar a validação de chaves de armazenamento. O padrão é False. Default value: False
|
Devoluções
| Tipo | Description |
|---|---|
|
O armazenamento de dados do arquivo. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
register_azure_my_sql
Inicialize um novo Azure MySQL Datastore.
O armazenamento de dados MySQL só pode ser usado para criar DataReference como entrada e saída para DataTransferStep nos pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui.
Veja abaixo um exemplo de como registrar um banco de dados MySQL do Azure como um armazenamento de dados.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados. |
|
server_name
Necessário
|
O nome do servidor MySQL. |
|
database_name
Necessário
|
O nome do banco de dados MySQL. |
|
user_id
Necessário
|
O ID de usuário do servidor MySQL. |
|
user_password
Necessário
|
A senha de usuário do servidor MySQL. |
|
port_number
|
O número da porta do servidor MySQL. Default value: None
|
|
endpoint
|
str, <xref:optional>
O ponto de extremidade do servidor MySQL. Se Nenhum, o padrão será mysql.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False. Default value: False
|
Devoluções
| Tipo | Description |
|---|---|
|
Retorna o Datastore do banco de dados MySQL. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Inicialize um novo repositório de dados PostgreSQL do Azure.
Veja abaixo um exemplo de como registrar um banco de dados PostgreSQL do Azure como um Datastore.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados. |
|
server_name
Necessário
|
O nome do servidor PostgreSQL. |
|
database_name
Necessário
|
O nome do banco de dados PostgreSQL. |
|
user_id
Necessário
|
O ID de usuário do servidor PostgreSQL. |
|
user_password
Necessário
|
A senha de usuário do servidor PostgreSQL. |
|
port_number
|
O número da porta do servidor PostgreSQL Default value: None
|
|
endpoint
|
str, <xref:optional>
O ponto de extremidade do servidor PostgreSQL. Se Nenhum, o padrão será postgres.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False. Default value: False
|
|
enforce_ssl
|
Indica o requisito SSL do servidor PostgreSQL. O padrão é True. Default value: True
|
Devoluções
| Tipo | Description |
|---|---|
|
Retorna o Datastore do banco de dados PostgreSQL. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Inicialize um novo armazenamento de dados do banco de dados SQL do Azure.
O acesso a dados baseado em credenciais (GA) e baseado em identidade (Visualização) é suportado, você pode optar por usar a Entidade de Serviço ou nome de usuário + senha. Se nenhuma credencial for salva com o armazenamento de dados, o token AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.
Veja abaixo um exemplo de como registrar um banco de dados SQL do Azure como um Datastore.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados. |
|
server_name
Necessário
|
O nome do servidor SQL. Para um nome de domínio totalmente qualificado como "sample.database.windows.net", o valor server_name deve ser "sample" e o valor do endpoint deve ser "database.windows.net". |
|
database_name
Necessário
|
O nome do banco de dados SQL. |
|
tenant_id
|
A ID do diretório/ID do locatário da entidade de serviço. Default value: None
|
|
client_id
|
A ID do cliente/ID do aplicativo da entidade de serviço. Default value: None
|
|
client_secret
|
O segredo do responsável pelo serviço. Default value: None
|
|
resource_url
|
str, <xref:optional>
A URL do recurso, que determina quais operações serão executadas no armazenamento do banco de dados SQL, se Nenhuma, assume https://database.windows.net/como padrão . Default value: None
|
|
authority_url
|
str, <xref:optional>
O URL de autoridade usado para autenticar o usuário, como padrão é https://login.microsoftonline.com. Default value: None
|
|
endpoint
|
str, <xref:optional>
O ponto de extremidade do servidor SQL. Se Nenhum, o padrão será database.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Se deseja substituir um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. O padrão é False. Default value: False
|
|
username
|
O nome de usuário do usuário do banco de dados para acessar o banco de dados. Default value: None
|
|
password
|
A senha do usuário do banco de dados para acessar o banco de dados. Default value: None
|
|
skip_validation
Necessário
|
bool, <xref:optional>
Se deve ignorar a validação da conexão com o banco de dados SQL. A definição padrão é 'False'. |
|
subscription_id
|
str, <xref:optional>
O ID da assinatura à qual a loja ADLS pertence. Default value: None
|
|
resource_group
|
str, <xref:optional>
O grupo de recursos ao qual o repositório ADLS pertence. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
A definição padrão é 'False'. Defina-o como True para acessar dados por trás da rede virtual do Machine Learning Studio.Isso faz com que o acesso aos dados do Machine Learning Studio use a identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como Reader do armazenamento. Você precisa ser proprietário ou administrador de acesso de usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
Devoluções
| Tipo | Description |
|---|---|
|
Retorna o Datastore do banco de dados SQL. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Inicialize um novo armazenamento de dados do Sistema de Arquivos Databricks (DBFS).
O armazenamento de dados DBFS só pode ser usado para criar DataReference como entrada e PipelineData como saída para DatabricksStep em pipelines do Azure Machine Learning. Mais detalhes podem ser encontrados aqui..
static register_dbfs(workspace, datastore_name)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence. |
|
datastore_name
Necessário
|
O nome do armazenamento de dados. |
Devoluções
| Tipo | Description |
|---|---|
|
Retorna o DBFS Datastore. |
Observações
Se você estiver anexando armazenamento de uma região diferente da região do espaço de trabalho, isso pode resultar em maior latência e custos adicionais de uso da rede.
register_hdfs
Observação
Este é um método experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.
Inicialize um novo armazenamento de dados HDFS.
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho ao qual este armazenamento de dados pertence |
|
datastore_name
Necessário
|
O nome do armazenamento de dados |
|
protocol
Necessário
|
str ou
<xref:_restclient.models.enum>
O protocolo a ser usado ao se comunicar com o cluster HDFS. http ou https. Os valores possíveis incluem: 'http', 'https' |
|
namenode_address
Necessário
|
O endereço IP ou nome de host DNS do nó de nome HDFS. Opcionalmente inclui uma porta. |
|
hdfs_server_certificate
Necessário
|
str, <xref:optional>
O caminho para o certificado de assinatura TLS do nó de nome HDFS, se estiver usando TLS com um certificado autoassinado. |
|
kerberos_realm
Necessário
|
O reino Kerberos. |
|
kerberos_kdc_address
Necessário
|
O endereço IP ou nome de host DNS do KDC Kerberos. |
|
kerberos_principal
Necessário
|
A entidade Kerberos a ser usada para autenticação e autorização. |
|
kerberos_keytab
Necessário
|
str, <xref:optional>
O caminho para o arquivo keytab que contém a(s) chave(s) correspondente(s) à entidade Kerberos. Forneça isso ou uma senha. |
|
kerberos_password
Necessário
|
str, <xref:optional>
A senha correspondente à entidade de Kerberos. Forneça isso ou o caminho para um arquivo keytab. |
|
overwrite
Necessário
|
bool, <xref:optional>
substitui um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. A definição padrão é 'False'. |
set_as_default
Defina o armazenamento de dados padrão.
set_as_default()
Parâmetros
| Name | Description |
|---|---|
|
datastore_name
Necessário
|
O nome do armazenamento de dados. |
unregister
Cancela o registro do armazenamento de dados. O serviço de armazenamento subjacente não será excluído.
unregister()