Partilhar via


Trazer o seu próprio Azure Data Lake Storage Gen2

O Process Mining do Power Automate dá-lhe a opção de armazenar e ler dados do registo de eventos diretamente a partir do Azure Data Lake Storage Gen2. Esta caraterística simplifica a gestão de extração, transformação, carga (ETL) ao ligar diretamente à sua conta de armazenamento.

Atualmente, esta caraterística suporta a ingestão do seguinte:

Tabelas

  • Tabelas Delta
    • Única tabela Delta no Fabric Lakehouse.

Ficheiros e pastas

  • CSV
    • Ficheiro CSV único.
    • Pasta com vários ficheiros CSV que têm a mesma estrutura. Todos os ficheiros são ingeridos.
  • Parquet
    • Um ficheiro parquet único.
    • Pasta com vários ficheiros parquet que têm a mesma estrutura. Todos os ficheiros são ingeridos.
  • Delta-parquet
    • Pasta que contém uma estrutura delta-parquet.

Pré-requisitos

  • A conta de armazenamento do Data Lake Storage deve ser de 2ª geração. Pode verificar isto a partir do portal do Azure. As contas de armazenamento do Azure Data Lake Gen1 não são suportadas.

  • A conta de armazenamento do Azure Data Lake tem de ter o espaço de nomes hierárquico ativado.

  • A função de Proprietário (ao nível da conta de armazenamento) tem de ser atribuída ao utilizador que executa a configuração inicial do contentor para o ambiente para os utilizadores que se seguem no mesmo ambiente. Estes utilizadores estão a ligar-se ao mesmo contentor e têm de ter estas atribuições:

    • Função de Leitor de Dados de Blob de Armazenamento ou Contribuidor de Dados de Blob de Armazenamento atribuída
    • Função de Leitor do Azure Resource Manager atribuída, no mínimo.
  • A regra Partilha de Recursos (CORS) para a sua conta de armazenamento deve ser estabelecida para partilhar com o Process Mining do Power Automate.

    • As origens permitidas têm de ser definidas como https://make.powerautomate.com e https://make.powerapps.com.

    • todos permitidos têm de incluir: get, options, put, post.

    • Os cabeçalhos permitidos deverão ser o mais flexíveis possível. Recomendamos que os defina como *.

    • Os cabeçalhos expostos deverão ser o mais flexíveis possível. Recomendamos que os defina como *.

    • A idade máxima deve ser o mais flexível possível. Recomendamos a utilização do 86400.

      Captura de ecrã do exemplo do ecrã de definição do CORS.

  • Os dados CSV no seu Data Lake Storage deverão satisfazer os seguintes requisitos do formato de ficheiro CSV:

    • Tipo de compressão: nenhum
    • Delimitador de colunas: vírgula (,)
    • Delimitador de linhas: predefinição e codificação. Por exemplo, Predefinição (\r,\n ou \r\n)

    Captura de ecrã do ecrã de Definições do formato de ficheiro.

  • Todos os dados têm de estar no formato de registo de eventos final e satisfazerem os requisitos listados em Requisitos de dados. Os dados deverão estar prontos para serem mapeados para o esquema da extração de processos. Não está disponível nenhuma transformação após a ingestão.

  • O tamanho (largura) da linha do cabeçalho está atualmente limitado a 1 MB.

Importante

Certifique-se de que o carimbo de hora representado no seu ficheiro CSV segue o formato da norma ISO 8601 (por exemplo, YYYY-MM-DD HH:MM:SS.sss ou YYYY-MM-DDTHH:MM:SS.sss).

Ligar ao Azure Data Lake Storage

  1. No painel de navegação à esquerda, selecione Process Mining>Começar aqui.

  2. No campo Nome do processo, introduza um nome para o processo.

  3. Sob o título Origem de dados, selecione Importar dados>Azure Data Lake>Continuar. Captura de ecrã do passo Criar um novo processo.

  4. No ecrã Configuração da ligação, selecione o seu ID de Subscrição, Grupo de Recursos, Conta de armazenamento e Contentor dos menus pendentes.

  5. Selecione o ficheiro ou a pasta que contém os dados do registo de eventos.

    Pode selecionar um único ficheiro ou uma pasta com vários ficheiros. Todos os ficheiros têm de ter os mesmos cabeçalhos e formato.

  6. Selecione Seguinte.

  7. No ecrã Mapear os dados, mapeie os dados para o esquema necessário.

    Captura de ecrã do ecrã Mapear os dados.

  8. Conclua a ligação selecionando Guardar e Analisar.

Estabelecer definições de atualização de dados incremental

Pode atualizar um processo ingerido do Azure Data Lake numa agenda, através de uma atualização completa ou de uma atualização incremental. Apesar de não haver políticas de retenção, pode ingerir dados incrementalmente utilizando um dos seguintes métodos:

Se selecionou um único ficheiro na secção anterior, anexe mais dados ao ficheiro selecionado.

Se selecionou uma pasta na secção anterior, adicione ficheiros incrementais à pasta selecionada.

Importante

Quando adiciona ficheiros incrementais a uma pasta ou subpasta selecionada, certifique-se de que indica a ordem de incremento ao nomear ficheiros com datas como AAAMMDD.csv ou AAAAMMDDHHMMSS.csv.

Para atualizar um processo:

  1. Aceda à página Detalhes do processo.

  2. Selecione Definições de Atualização.

  3. No ecrã Agendar atualização, conclua os seguintes passos:

    1. Ative o comutador Manter os seus dados atualizados.
    2. Nas listas pendentes Atualizar dados a cada, selecione a frequência da atualização.
    3. Nos campos Começar às, selecione a data e hora da atualização.
    4. Ative o comutador Atualização incremental.