Compartilhar via


Ambientes de computação compatíveis com os pipelines do Azure Data Factory e do Synapse

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Tip

Experimente o Data Factory no Microsoft Fabric, uma solução de análise completa para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Important

O suporte para o Estúdio do Azure Machine Learning (clássico) terminará em 31 de agosto de 2024. Recomendamos que você faça a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, não é possível criar novos recursos do Estúdio do Machine Learning (clássico) (workspace e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Estúdio do Machine Learning (clássico). Para obter mais informações, consulte:

A documentação do Estúdio do Machine Learning (clássico) está sendo desativada e poderá não ser atualizada no futuro.

Este artigo explica diferentes ambientes de computação que você pode usar para processar ou transformar dados. Também são fornecidos detalhes sobre as diferentes configurações (sob demanda versus traga a sua própria) com suporte ao configurar serviços vinculados que vinculam esses ambientes de computação.

A tabela a seguir fornece uma lista dos ambientes de computação com suporte e as atividades que podem ser executadas neles.

Ambiente de computação Activities
Cluster HDInsight sob demanda ou seu próprio cluster HDInsight Hive, Pig, Spark, MapReduce, Hadoop Streaming
Lote do Azure Custom
ML Studio (clássico) Atividades do ML Studio (clássico): Execução do lote e Atualização de recurso
Azure Machine Learning Pipeline de execução do Azure Machine Learning
Azure Data Lake Analytics U-SQL da Análise Data Lake
Azure SQL, Azure Synapse Analytics, SQL Server Procedimento armazenado
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (Artifacts) Atividade do Synapse Notebook, Definição de trabalho do Synapse Spark
Função do Azure Atividade do Azure Function

Ambiente de computação HDInsight

Consulte a tabela abaixo para ver detalhes sobre os tipos de serviço vinculado de armazenamento com suporte para a configuração no ambiente sob demanda e BYOC (Traga Seu Próprio Ambiente de Computação).

Em serviço vinculado de computação Nome da propriedade Description Blob ADLS Gen2 BD SQL do Azure ADLS Gen 1
On-demand linkedServiceName Serviço vinculado do Armazenamento do Azure a ser usado pelo cluster sob demanda para armazenar e processar dados. Yes Yes No No
additionalLinkedServiceNames Especifica contas de armazenamento adicionais para o serviço vinculado do HDInsight para que o serviço possa registrá-las em seu nome. Yes No No No
hcatalogLinkedServiceName O nome do serviço vinculado do SQL Azure que aponta para o banco de dados HCatalog. O cluster HDInsight sob demanda é criado usando o banco de dados SQL do Azure como o metastore. No No Yes No
BYOC linkedServiceName Referência de serviço vinculado do Armazenamento do Microsoft Azure. Yes Yes No No
additionalLinkedServiceNames Especifica contas de armazenamento adicionais para o serviço vinculado do HDInsight para que o serviço possa registrá-las em seu nome. No No No No
hcatalogLinkedServiceName Uma referência ao serviço vinculado do SQL do Azure que aponta para o banco de dados do HCatalog. No No No No

Serviço vinculado do Azure HDInsight sob demanda

Nesse tipo de configuração, o ambiente de computação é totalmente gerenciado pelo serviço. Ele é criado automaticamente pelo serviço antes de um trabalho ser enviado para processar os dados e é removido após a conclusão do trabalho. Você pode criar um serviço vinculado para o ambiente de computação sob demanda, configurá-lo e controlar as configurações granulares da execução do trabalho, gerenciamento de cluster e ações de inicialização.

Note

A configuração sob demanda tem suporte somente para clusters do Azure HDInsight. O Azure Databricks também dá suporte a trabalhos sob demanda usando clusters de trabalho. Para obter mais informações, consulte Serviço vinculado do Azure Databricks.

O serviço pode criar automaticamente um cluster HDInsight sob demanda para processar dados. O cluster é criado na mesma região que a conta de armazenamento (propriedade linkedServiceName em JSON) associada ao cluster. A conta de armazenamento must deve ser uma conta de Armazenamento do Azure padrão de uso geral.

Observe os seguintes pontos importantes sobre o serviço vinculado do HDInsight sob demanda:

  • O cluster HDInsight sob demanda é criado sob sua assinatura do Azure. Quando o cluster estiver ativo e em execução, você poderá vê-lo em seu Portal do Azure.
  • Os logs para trabalhos que são executados em um cluster HDInsight sob demanda são copiados para a conta de armazenamento associada ao cluster HDInsight. clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword determinados em sua definição de serviço vinculado são usados para fazer logon no cluster para solução de problemas detalhada durante o ciclo de vida do cluster.
  • Você é cobrado somente pelo tempo em que o cluster HDInsight estiver ativo e executando trabalhos.
  • Você pode usar uma Ação de Script com o serviço vinculado do Azure HDInsight sob demanda.

Important

Normalmente, leva 20 minutos ou mais para provisionar um cluster do Azure HDInsight sob demanda.

Exemplo de uso da Chave da Entidade de serviço

O JSON a seguir define um serviço vinculado HDInsight sob demanda baseado em Linux. O serviço cria automaticamente um cluster HDInsight baseado em Linux para processar a atividade necessária.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "ServicePrincipalKey",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Exemplo usando a Identidade Gerenciada Atribuída pelo Sistema

O JSON a seguir define um serviço vinculado HDInsight sob demanda baseado em Linux. O serviço cria automaticamente um cluster HDInsight baseado em Linux para processar a atividade necessária.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Exemplo usando a identidade gerenciada atribuída pelo usuário

O JSON a seguir define um serviço vinculado HDInsight sob demanda baseado em Linux. O serviço cria automaticamente um cluster HDInsight baseado em Linux para processar a atividade necessária.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
      "credential": {
            "referenceName": "CredentialName",
            "type": "CredentialReference"
       },
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

O cluster HDInsight cria um contêiner padrão no armazenamento de blobs especificado no JSON (linkedServiceName). O HDInsight não exclui esse contêiner quando o cluster é excluído. Este comportamento ocorre por design. Com o serviço vinculado HDInsight sob demanda, um cluster HDInsight é criado sempre que uma fatia precisa ser processada, a menos que haja um cluster ativo existente (timeToLive), e é excluído quando o processamento é concluído.

Conforme mais atividades forem executadas, você verá muitos contêineres no Armazenamento de Blobs do Azure. Se você não precisa deles para solução de problemas dos trabalhos, convém excluí-los para reduzir o custo de armazenamento. Os nomes desses contêineres seguem um padrão: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Use ferramentas como o Gerenciador de Armazenamento do Microsoft Azure para excluir contêineres do armazenamento de blobs do Azure.

Properties

Property Description Required
tipo A propriedade type deve ser definida como HDInsightOnDemand. Yes
clusterSize Número de nós de trabalho/dados no cluster. O cluster HDInsight é criado com 2 nós principais juntamente com o número de nós de trabalho que você especifica para esta propriedade. Os nós são do tamanho Standard_D3 que tem 4 núcleos; portanto, um cluster de 4 nós de trabalho usa 24 núcleos (4*4 = 16 núcleos para nós de trabalho + 2*4 = 8 núcleos para nós de cabeçalho). Consulte Configurar clusters no HDInsight com Hadoop, Spark, Kafka e mais para obter detalhes. Yes
linkedServiceName Serviço vinculado do Armazenamento do Azure a ser usado pelo cluster sob demanda para armazenar e processar dados. O cluster HDInsight é criado na mesma região que essa conta de Armazenamento do Azure. O Azure HDInsight tem uma limitação para o número total de núcleos que você pode usar em cada região do Azure a que ele dá suporte. Verifique se que você tem cotas de núcleo suficientes nessa região do Azure a fim de atender o clusterSize necessário. Para obter detalhes, consulte Configurar clusters no HDInsight com Hadoop, Spark, Kafka e mais

Atualmente, não é possível criar um cluster HDInsight sob demanda que use um Azure Data Lake Storage (Gen 2) como o armazenamento. Se você quiser armazenar os dados resultantes do processamento do HDInsight em um Azure Data Lake Storage (Gen 2), use uma Atividade de Cópia para copiar os dados do Armazenamento de Blobs do Azure para o Azure Data Lake Storage (Gen 2).

Yes
clusterResourceGroup O cluster HDInsight é criado nesse grupo de recursos. Yes
clusterResourceGroupAuthType Especifique o tipo de autenticação do grupo de recursos do cluster sob demanda do HDInsight. Os tipos de autenticação com suporte são "ServicePrincipalKey", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". Necessário para usar a autenticação de Identidade Gerenciada. Se o campo não estiver lá, o padrão será ServicePrincipalKey
credencial Especifique a referência de credencial que contém o objeto Identidade Gerenciada que tem acesso ao grupo de recursos. Necessário apenas para a autenticação "UserAssignedManagedIdentity".
timetolive O tempo ocioso permitido para o cluster HDInsight sob demanda. Especifica quanto tempo o cluster HDInsight sob demanda permanece ativo após a conclusão de uma atividade executada se não há nenhum outro trabalho ativo no cluster. O mínimo valor permitido é de 5 minutos (00:05:00).

Por exemplo, se uma execução de atividade demora 6 minutos e o timetolive é definido como 5 minutos, o cluster fica ativo durante 5 minutos após a execução de 6 minutos de execução da atividade. Se outra atividade é executada com a janela de 6 minutos, ela é processada pelo mesmo cluster.

A criação de um cluster HDInsight sob demanda é uma operação cara (pode demorar um pouco), portanto, use essa configuração conforme o necessário para melhorar o desempenho do serviço com a reutilização de um cluster HDInsight sob demanda.

Se você definir o valor de timetolive como 0, o cluster é excluído assim que a atividade executada é processada. Enquanto que, se você definir um valor alto, o cluster poderá permanecer ocioso para que você faça logon a fim de realizar alguma solução de problemas, mas isso poderá resultar em altos custos. Portanto, é importante que você defina o valor apropriado com base em suas necessidades.

Se o valor da propriedade timetolive foi definido apropriadamente, vários pipelines podem compartilhar a instância do cluster HDInsight sob demanda.
Yes
clusterType O tipo do cluster HDInsight a ser criado. Os valores permitidos são "hadoop" e "spark". Se não for especificado, o valor padrão será hadoop. O cluster habilitado pelo Enterprise Security Package não pode ser criado sob demanda, em vez disso, use um cluster existente/traga sua própria computação. No
versão Versão do cluster HDInsight Se não for especificada, será usada a versão padrão atual definida do HDInsight. No
hostSubscriptionId A ID de assinatura do Azure usada para criar o cluster HDInsight. Se não for especificada, será usada a ID da assinatura de seu contexto de logon do Azure. No
clusterNamePrefix O prefixo do nome do cluster HDI, um carimbo de data/hora, é acrescentado automaticamente ao final do nome do cluster No
sparkVersion A versão do Spark se o tipo de cluster for "Spark" No
additionalLinkedServiceNames Especifica contas de armazenamento adicionais para o serviço vinculado do HDInsight para que o serviço possa registrá-las em seu nome. Essas contas de armazenamento devem estar na mesma região que o cluster HDInsight, que é criado na mesma região que a conta de armazenamento especificada por linkedServiceName. No
osType Tipo do sistema operacional. Os valores permitidos são: Linux e Windows (somente para HDInsight 3.3). O padrão é Linux. No
hcatalogLinkedServiceName O nome do serviço vinculado do SQL Azure que aponta para o banco de dados HCatalog. O cluster HDInsight sob demanda é criado usando o banco de dados SQL do Azure como o metastore. No
connectVia O Integration Runtime a ser usado para distribuir as atividades a esse serviço vinculado do HDInsight. Em relação ao serviço vinculado do HDInsight sob demanda, há suporte apenas para o Integration Runtime do Azure. Se não for especificado, ele usa o Integration Runtime padrão do Azure. No
clusterUserName O nome de usuário para acessar o cluster. No
clusterPassword A senha no tipo de cadeia de caracteres segura para acessar o cluster. No
clusterSshUserName O nome de usuário SSH para conectar-se remotamente ao nó do cluster (para Linux). No
clusterSshPassword A senha no tipo de cadeia de caracteres segura para conectar remotamente o nó do cluster por SSH (para Linux). No
scriptActions Especifique o script para personalizações de cluster do HDInsight durante a criação do cluster sob demanda.
Atualmente, a ferramenta de criação de interface do usuário dá suporte à especificação de apenas uma ação de script, mas você pode superar essa limitação no JSON (especificar várias ações de script no JSON).
No

Important

O HDInsight dá suporte a várias versões do cluster Hadoop que podem ser implantadas. Cada opção de versão cria uma versão específica da distribuição de HDP (Hortonworks Data Platform) e um conjunto de componentes contidos nessa distribuição. A lista de versões com suporte do HDInsight continua sendo atualizada para fornecer as correções e os componentes mais recentes do ecossistema do Hadoop. Verifique sempre as informações mais recentes de Versão e tipo de sistema operacional do HDInsight com suporte a fim de garantir que você use uma versão do HDInsight com suporte.

Important

Atualmente, os serviços vinculados do HDInsight não dão suporte a HBase, Interactive Query (Hive LLAP) e Storm.

  • Exemplo de JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authentication

Autenticação da entidade de serviço

O serviço vinculado do HDInsight sob demanda exige uma autenticação de entidade de serviço para criar clusters HDInsight em seu nome. Para usar a autenticação da entidade de serviço, registre uma entidade de aplicativo no Microsoft Entra ID e a atribua à função Colaborador da assinatura ou do grupo de recursos no qual o cluster do HDInsight foi criado. Para obter as etapas detalhadas, confira Usar o portal para criar um aplicativo do Microsoft Entra e uma entidade de serviço que possa acessar os recursos. Anote os seguintes valores, que são usados para definir o serviço vinculado:

  • ID do aplicativo
  • Chave do aplicativo
  • ID do locatário

Use a autenticação de entidade de serviço especificando as seguintes propriedades:

Property Description Required
servicePrincipalId Especifique a ID do cliente do aplicativo. Yes
servicePrincipalKey Especifique a chave do aplicativo. Yes
tenant Especifique as informações de locatário (domínio nome ou ID do Locatário) em que o aplicativo reside. É possível recuperá-las focalizando o mouse no canto superior direito do Portal do Azure. Yes

Autenticação de Identidade Gerenciada

Ao utilizar autenticação de Identidade Gerenciada para serviços vinculados do Azure HDInsight sob demanda, verifique se o objeto de Identidade Gerenciada tem acesso de função Colaborador ao grupo de recursos.

As contas de armazenamento primário do ADLS Gen2 agora dão suporte à autenticação baseada em UAMI (Identidade Gerenciada Atribuída pelo Usuário), além da autenticação baseada em chave existente. A UAMI deve ter permissões de Proprietário de Dados de Blob de Armazenamento na conta de armazenamento primária.

Limitações:

  • A conta de armazenamento primário do ADLS Gen2 e a interface do usuário devem residir no mesmo grupo de recursos que o grupo de recursos usado para criar o cluster HDInsight sob demanda.
  • O nome do objeto de credencial para a UAMI no Data Factory deve corresponder exatamente ao nome da UAMI.

Para obter mais informações, consulte Criar o Azure HDInsight – Azure Data Lake Storage Gen2 – portal e identidades gerenciadas no Azure HDInsight

Propriedades Avançadas

Você também pode especificar as seguintes propriedades para a configuração granular do cluster HDInsight sob demanda.

Property Description Required
coreConfiguration Especifica os parâmetros de configuração principal (como core-site. xml) para o cluster HDInsight a ser criado. No
hBaseConfiguration Especifica os parâmetros de configuração HBase (hbase-site.xml) para o cluster HDInsight. No
hdfsConfiguration Especifica os parâmetros de configuração HDFS (hdfs-site.xml) para o cluster HDInsight. No
hiveConfiguration Especifica os parâmetros de configuração do hive (hive-site.xml) para o cluster HDInsight. No
mapReduceConfiguration Especifica os parâmetros de configuração do MapReduce (mapred-site.xml) para o cluster HDInsight. No
oozieConfiguration Especifica os parâmetros de configuração do Oozie (oozie-site.xml) para o cluster HDInsight. No
stormConfiguration Especifica os parâmetros de configuração do Storm (storm-site.xml) para o cluster HDInsight. No
yarnConfiguration Especifica os parâmetros de configuração do Yarn (yarn-site.xml) para o cluster HDInsight. No
  • Exemplo - Configuração de cluster HDInsight sob demanda com propriedades avançadas
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Tamanhos dos nós

Você pode especificar os tamanhos de nós de dados, principais e zookeeper usando as seguintes propriedades:

Property Description Required
headNodeSize Especificar o tamanho do nó principal O valor padrão é: Standard_D3. Veja a seção Especificando tamanhos dos nós para obter detalhes. No
dataNodeSize Especifica o tamanho do nó principal O valor padrão é: Standard_D3. No
zookeeperNodeSize Especifica o tamanho do nó Zoo Keeper. O valor padrão é: Standard_D3. No
  • Especificação de tamanhos de nó Veja o artigo Tamanhos de máquinas virtuais para obter valores de cadeia de caracteres que você precisa especificar para as propriedades mencionadas na seção anterior. Os valores precisam estar em conformidade com os CMDLETs e as APIS mencionadas no artigo. Como você pode ver neste artigo, o nó de dados de tamanho Grande (padrão) tem 7 GB de memória, que pode não ser suficiente para seu cenário.

Se você quiser criar nós de cabeçalho do tamanho D4 e nós de trabalho, especifique Standard_D4 como o valor das propriedades headNodeSize e dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Se você especificar um valor incorreto para essas propriedades, poderá receber o seguinte erro: Falha ao criar o cluster. Exceção: Não foi possível concluir operação de criação do cluster. Falha na operação com o código '400'. Cluster deixou para trás estado: ‘Erro’. Mensagem: 'PreClusterCreationValidationFailure'. Quando receber esse erro, verifique se está usando o nome CMDLET e APIS da tabela no artigo Tamanhos de Máquinas Virtuais.

Traga seu próprio ambiente de computação

Nesse tipo de configuração, os usuários podem registrar um ambiente de computação já existente como um serviço vinculado. O ambiente de computação é gerenciado pelo usuário e o serviço o utiliza para executar as atividades.

Esse tipo de configuração tem suporte para os ambientes de computação a seguir:

  • Azure HDInsight
  • Lote do Azure
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Banco de Dados SQL do Azure, Azure Synapse Analytics, SQL Server

Serviço vinculado do Azure HDInsight

Você pode criar um serviço vinculado ao Azure HDInsight para registrar seu próprio cluster com espaço de trabalho de uma data factory ou do Synapse.

Exemplo usando a Autenticação Básica

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Exemplo usando a identidade gerenciada atribuída pelo sistema

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "clusterAuthType": "SystemAssignedManagedIdentity",
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Exemplo usando a identidade gerenciada atribuída pelo usuário

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
         "clusterAuthType": "UserAssignedManagedIdentity",
         "credential": {
                "referenceName": "CredentialName",
                "type": "CredentialReference"
            },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
tipo A propriedade type deve ser definida como HDInsight. Yes
clusterUri A URI do cluster HDInsight. Yes
nome de usuário Especifique o nome do usuário a ser usado para se conectar a um cluster HDInsight existente. Yes
senha Especifique a senha para a conta de usuário. Yes
linkedServiceName Nome do serviço vinculado do Armazenamento do Azure que faz referência ao Armazenamento de Blobs usado pelo cluster HDInsight.

No momento, você não pode especificar um serviço vinculado do Azure Data Lake Storage (Gen 2) para essa propriedade. Você pode acessar dados no Azure Data Lake Storage (Gen 2) usando scripts Hive/Pig se o cluster HDInsight tiver acesso ao Data Lake Store.

Yes
isEspEnabled Especifique 'true' se o cluster HDInsight estiver com o Enterprise Security Package habilitado. O padrão é 'false'. No
connectVia O Integration Runtime a ser usado para distribuir as atividades a esse serviço vinculado. Você pode usar o Integration Runtime do Azure ou Integration Runtime auto-hospedado. Se não for especificado, ele usa o Integration Runtime padrão do Azure.
Para o cluster HDInsight habilitado para o ESP (Enterprise Security Package), use um runtime de integração auto-hospedada que tenha uma linha de visão para o cluster ou ele deve ser implantado dentro da mesma Rede Virtual que o cluster HDInsight ESP.
No
clusterAuthType Especifique o tipo de autenticação de cluster HDInsight. Os tipos de autenticação com suporte são "BasicAuth", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". Necessário para usar a autenticação de Identidade Gerenciada. Se o campo não estiver lá, o padrão será BasicAuth
credencial Especifique a referência de credencial que contém informações de objeto de Identidade Gerenciada para o cluster HDInsight. Apenas necessário para autenticação do tipo UserAssignedManagedIdentity

Authentication

O serviço vinculado do Armazenamento do Azure para ADLS Gen2 agora oferece suporte a identidades gerenciadas atribuídas pelo sistema e pelo usuário, além dos métodos de autenticação existentes. Esse suporte está disponível por padrão ao usar o Azure Integration Runtime (Azure IR) e tem suporte no SHIR (Self-hosted Integration Runtime) a partir da versão 5.55.9306.2 ou posterior. Para o Azure Blob Storage, o serviço vinculado do Armazenamento do Azure continua a suportar apenas a autenticação por chave de conta. A autenticação de identidade gerenciada por cluster também agora está disponível por padrão ao usar o Azure IR e tem suporte no SHIR a partir da versão 5.58 ou posterior. Ao criar um cluster, apenas um método de autenticação pode ser usado por cluster. Para obter detalhes sobre como criar e gerenciar clusters com identidade gerenciada, consulte Criar e gerenciar o cluster do Azure HDInsight com a autenticação de ID do Entra

Important

O HDInsight dá suporte a várias versões do cluster Hadoop que podem ser implantadas. Cada opção de versão cria uma versão específica da distribuição de HDP (Hortonworks Data Platform) e um conjunto de componentes contidos nessa distribuição. A lista de versões com suporte do HDInsight continua sendo atualizada para fornecer as correções e os componentes mais recentes do ecossistema do Hadoop. Verifique sempre as informações mais recentes de Versão e tipo de sistema operacional do HDInsight com suporte a fim de garantir que você use uma versão do HDInsight com suporte.

Important

Atualmente, os serviços vinculados do HDInsight não dão suporte a HBase, Interactive Query (Hive LLAP) e Storm.

Serviço vinculado do Lote do Azure

Note

Recomendamos que você use o módulo Azure Az PowerShell para interagir com o Azure. Para começar, consulte Instalar o Microsoft Azure PowerShell. Para saber como migrar para o módulo Az PowerShell, veja Migrar o Microsoft Azure PowerShell do AzureRM para o Az.

Você pode criar um serviço vinculado do Lote do Azure para registrar um pool de lote de máquinas virtuais (VMs) para um espaço de trabalho de dados ou do Synapse. Você pode executar a atividade personalizada usando o Lote do Azure.

Veja os artigos a seguir se você for novo no serviço de Lote do Azure:

Important

Ao criar um novo pool do Lote do Azure, “VirtualMachineConfiguration” deve ser usado, e NÃO “CloudServiceConfiguration”.

Example

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
tipo A propriedade type deve ser definida como AzureBatch. Yes
accountName Nome da conta do Lote do Azure. Yes
accessKey Tecla de acesso para a conta do Lote do Azure. Yes
batchUri URL para sua conta do Azure Batch, no formato https://batchaccountname.region.batch.azure.com. Yes
poolName Nome do pool de máquinas virtuais. Yes
linkedServiceName Nome do serviço vinculado do Armazenamento do Azure associado ao serviço vinculado de Lote do Azure. Esse serviço vinculado é usado para preparar os arquivos necessários para executar a atividade. Yes
connectVia O Integration Runtime a ser usado para distribuir as atividades a esse serviço vinculado. Você pode usar o Integration Runtime do Azure ou Integration Runtime auto-hospedado. Se não for especificado, ele usa o Integration Runtime padrão do Azure. No

Serviço vinculado do Machine Learning Studio (clássico)

Important

O suporte para o Estúdio do Azure Machine Learning (clássico) terminará em 31 de agosto de 2024. Recomendamos que você faça a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, não é possível criar novos recursos do Estúdio do Machine Learning (clássico) (workspace e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Estúdio do Machine Learning (clássico). Para obter mais informações, consulte:

A documentação do Estúdio do Machine Learning (clássico) está sendo desativada e poderá não ser atualizada no futuro.

Você cria um serviço vinculado do Machine Learning Studio (clássico) para registrar um ponto de extremidade de pontuação do lote do Machine Learning Studio (clássico) em uma data factory ou espaço de trabalho do Synapse.

Example

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property Description Required
Tipo A propriedade type deve ser definida como: AzureML. Yes
mlEndpoint A URL de pontuação do lote. Yes
apiKey A API do modelo de espaço de trabalho publicada. Yes
updateResourceEndpoint A URL do recurso de atualização para um ponto de extremidade de serviço Web do ML Studio (clássico) usado para atualizar o serviço Web preditivo com o arquivo de modelo treinado No
servicePrincipalId Especifique a ID do cliente do aplicativo. Necessária se a updateResourceEndpoint for especificada
servicePrincipalKey Especifique a chave do aplicativo. Necessária se a updateResourceEndpoint for especificada
locatário Especifique as informações de locatário (domínio nome ou ID do Locatário) em que o aplicativo reside. É possível recuperá-las focalizando o mouse no canto superior direito do Portal do Azure. Necessária se a updateResourceEndpoint for especificada
connectVia O Integration Runtime a ser usado para distribuir as atividades a esse serviço vinculado. Você pode usar o Integration Runtime do Azure ou Integration Runtime auto-hospedado. Se não for especificado, ele usa o Integration Runtime padrão do Azure. No

Serviço vinculado do Azure Machine Learning

Você cria um serviço vinculado do Azure Machine Learning para conectar um espaço de trabalho do Azure Machine Learning a uma data factory ou espaço de trabalho do Synapse.

Note

Atualmente, somente a autenticação de entidade de serviço tem suporte para o serviço vinculado do Azure Machine Learning.

Example

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
Tipo A propriedade type deve ser definida como: AzureMLService. Yes
subscriptionId ID de assinatura do Azure Yes
resourceGroupName name Yes
mlWorkspaceName Nome de workspace do Azure Machine Learning Yes
servicePrincipalId Especifique a ID do cliente do aplicativo. Yes
servicePrincipalKey Especifique a chave do aplicativo. Yes
locatário Especifique as informações de locatário (domínio nome ou ID do Locatário) em que o aplicativo reside. É possível recuperá-las focalizando o mouse no canto superior direito do Portal do Azure. Necessária se a updateResourceEndpoint for especificada
connectVia O Integration Runtime a ser usado para distribuir as atividades a esse serviço vinculado. Você pode usar o Integration Runtime do Azure ou Integration Runtime auto-hospedado. Se não for especificado, ele usa o Integration Runtime padrão do Azure. No

Serviço vinculado do Azure Data Lake Analytics

Você cria um serviço vinculado do Azure Data Lake Analytics para vincular um serviço de computação do Azure Data Lake Analytics a uma data factory ou espaço de trabalho do Synapse. A atividade de U-SQL do Data Lake Analytics no pipeline se refere a esse serviço vinculado.

Example

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
tipo A propriedade type deve ser definida como: AzureDataLakeAnalytics. Yes
accountName Nome da conta da Análise Azure Data Lake. Yes
dataLakeAnalyticsUri URI da Análise Azure Data Lake. No
subscriptionId ID de assinatura do Azure No
resourceGroupName Nome do grupo de recursos do Azure No
servicePrincipalId Especifique a ID do cliente do aplicativo. Yes
servicePrincipalKey Especifique a chave do aplicativo. Yes
locatário Especifique as informações de locatário (domínio nome ou ID do Locatário) em que o aplicativo reside. É possível recuperá-las focalizando o mouse no canto superior direito do Portal do Azure. Yes
connectVia O Integration Runtime a ser usado para distribuir as atividades a esse serviço vinculado. Você pode usar o Integration Runtime do Azure ou Integration Runtime auto-hospedado. Se não for especificado, ele usa o Integration Runtime padrão do Azure. No

Serviço vinculado do Azure Databricks

É possível criar o serviço vinculado do Azure Databricks para registrar o workspace do Databricks que você usa para executar as cargas de trabalho do Databricks (blocos de notas, jar, python).

Important

Os serviços vinculados do Databricks dão suporte a pools de instâncias e autenticação de identidade gerenciada atribuída pelo sistema.

Exemplo - Usar o novo cluster de trabalho no Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Exemplo - Usar o cluster interativo existente no Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property Description Required
name Nome do serviço vinculado Yes
tipo A propriedade type deve ser definida como: Azure Databricks. Yes
domínio Especifique a Região do Azure de acordo com a região do workspace do Databricks. Exemplo: https://eastus.azuredatabricks.net Yes
accessToken O token de acesso é necessário para que o serviço seja autenticado no Azure Databricks. O token de acesso precisa ser gerado a partir do workspace do Databricks. Etapas mais detalhadas para localizar o token de acesso podem ser encontradas aqui No
MSI Use a identidade gerenciada do serviço (atribuída pelo sistema) para autenticar no Azure Databricks. Você não precisa do token de acesso ao usar a autenticação “MSI”. Mais detalhes sobre a autenticação de Identidade Gerenciada podem ser encontrados aqui No
existingClusterId ID do cluster de um cluster existente para executar todos os trabalhos. Esse deve ser um cluster interativo já criado. Talvez seja necessário reiniciar manualmente o cluster se ele parar de responder. O Databricks sugerem a execução de trabalhos em novos clusters para maior confiabilidade. Você pode encontrar a ID do cluster de um cluster interativo no workspace do Databricks –> Clusters –> Nome do Cluster Interativo –> Configuração –> Tags. Mais detalhes No
instancePoolId ID do pool de instâncias de um pool existente no espaço de trabalho do Databricks. No
newClusterVersion A versão do Spark do cluster. Ele cria um cluster de trabalho no Databricks. No
newClusterNumOfWorker Número de nós de trabalho que esse cluster deve ter. Um cluster possui um Spark Driver e um num_workers Executors para um total de num_workers + 1 nós do Spark. Uma cadeia de caracteres no formato Int32, como "1", significa que numOfWorker é 1 ou "1:10" significa dimensionamento automático de 1 como mínimo e 10 como máximo. No
newClusterNodeType Esse campo codifica, por meio de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho intensivas de computação e memória. Esse campo é necessário para um novo cluster No
newClusterSparkConf um conjunto opcional de pares chave-valor de configuração do Spark especificado pelo usuário. Os usuários também podem passar de uma cadeia de caracteres de opções adicionais da JVM para o driver e os executores via spark.driver.extraJavaOptions e spark.executor.extraJavaOptions respectivamente. No
newClusterInitScripts um conjunto de scripts de inicialização opcionais, definidos pelo usuário, para o novo cluster. Você pode especificar os scripts de inicialização nos arquivos do espaço de trabalho (recomendado) ou por meio do caminho DBFS (legado). No

Serviço vinculado para o Banco de Dados SQL do Azure

Você cria um serviço vinculado ao SQL do Azure e o utiliza com a Atividade de Procedimento Armazenado para invocar um procedimento armazenado de um pipeline. Confira o artigo Conector SQL do Azure para saber mais sobre esse serviço vinculado.

Serviço vinculado ao Azure Synapse Analytics

Você cria um serviço vinculado ao Azure Synapse Analytics e o usa com a Atividade de Procedimento Armazenado para invocar um procedimento armazenado de um pipeline. Confira o artigo Conector do Azure Synapse Analytics para saber mais sobre esse serviço vinculado.

Serviço vinculado do SQL Server

Você cria um serviço vinculado do SQL Server e o utiliza com a Atividade de Procedimento Armazenado para invocar um procedimento armazenado de um pipeline. Confira o artigo Conector SQL Server para saber mais sobre esse serviço vinculado.

Serviço vinculado do Azure Synapse Analytics (Artifacts)

Você cria um serviço vinculado ao Azure Synapse Analytics (Artefatos) e o utiliza com a Atividade do Synapse Notebook e a Atividade de definição de trabalho do Synapse Spark.

Example

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
name Nome do serviço vinculado Yes
description descrição do Serviço Vinculado No
annotations anotações do Serviço Vinculado No
tipo A propriedade type deve ser definida como AzureSynapseArtifacts Yes
ponto de extremidade O URL do Azure Synapse Analytics Yes
autenticação A configuração padrão é Identidade Gerenciada Atribuída pelo Sistema Yes
workspaceResourceId ID do recurso do workspace Yes
connectVia O runtime de integração a ser usado para se conectar ao armazenamento de dados. Você pode usar o Azure Integration Runtime. Se não for especificado, ele usa o Integration Runtime padrão do Azure. No momento, não há suporte para o runtime de integração auto-hospedada. Yes

Serviço de função vinculado do Azure

Você cria um serviço vinculado do Azure Functions e o utiliza com a atividade do Azure Functions para executar o Azure Functions em um pipeline. O tipo de retorno da função do Azure deve ser um JObject válido. (Lembre-se de que JArraynão é um JObject.) Qualquer tipo de retorno diferente de JObject falha e gera o erro do usuário O conteúdo da resposta não é um JObject válido.

Property Description Required
tipo A propriedade type deve ser definida como: AzureFunction yes
url do aplicativo de função URL para o Aplicativo de Funções do Azure. O formato é https://<accountname>.azurewebsites.net. Essa URL é o valor na seção URL ao exibir o Aplicativo de funções no portal do Azure yes
tecla de função Tecla de acesso para o Azure Function. Clique na seção Gerenciar para a respectiva função e copie a chave de função ou a chave de host. Saiba mais aqui: Trabalhar com chaves de acesso yes

Para obter uma lista das atividades de transformação com suporte, consulte Transformar dados.