Partilhar via


Qual é a estrutura de armazenamento para fluxos de dados analíticos?

Os fluxos de dados analíticos armazenam tanto dados como metadados no Azure Data Lake Storage. Os fluxos de dados utilizam uma estrutura padrão para armazenar e descrever os dados criados no lago, chamada pastas do Modelo Comum de Dados. Neste artigo, aprende mais sobre o padrão de armazenamento que os dataflows utilizam nos bastidores.

O armazenamento necessita de uma estrutura para um fluxo de dados analítico

Se o fluxo de dados for padrão, então os dados são armazenados no Dataverse. O Dataverse é como um sistema de bases de dados; Tem o conceito de tabelas, vistas, e assim por diante. O Dataverse é uma opção de armazenamento de dados estruturados utilizada por fluxos de dados padrão.

No entanto, quando o fluxo de dados é analítico, os dados são armazenados no Azure Data Lake Storage. Os dados e metadados de um fluxo de dados são armazenados numa pasta Common Data Model. Como uma conta de armazenamento pode ter múltiplos fluxos de dados armazenados, é introduzida uma hierarquia de pastas e subpastas para ajudar a organizar os dados. Dependendo do produto onde o fluxo de dados foi criado, as pastas e subpastas podem representar espaços de trabalho (ou ambientes), e depois a pasta Common Data Model do fluxo de dados. Dentro da pasta Common Data Model, tanto o esquema como os dados das tabelas de fluxo de dados são armazenados. Esta estrutura segue os padrões definidos para o Common Data Model.

Diagrama de um fluxo de dados analítico que armazena os dados na estrutura do Modelo de Dados Comum.

O que é a estrutura de armazenamento do Common Data Model?

O Common Data Model é uma estrutura de metadados definida para garantir conformidade e consistência na utilização de dados em múltiplas plataformas. O Common Data Model não é armazenamento de dados, é a forma como os dados são armazenados e definidos.

Pastas Common Data Model definem como o esquema de uma tabela e os seus dados devem ser armazenados. No Azure Data Lake Storage, os dados são organizados em pastas. As pastas podem representar um espaço de trabalho ou ambiente. Nessas pastas, são criadas subpastas para cada fluxo de dados.

Captura de ecrã da estrutura das pastas do espaço de trabalho.

O que há numa pasta dataflow?

Cada pasta dataflow contém uma subpasta para cada tabela e um ficheiro de metadados chamado model.json.

Diagrama da pasta Common Data Model com subpastas para cada tabela e ficheiros de dados.

O ficheiro de metadados: model.json

O model.json ficheiro é a definição de metadados do fluxo de dados. Este ficheiro é o único que contém todos os metadados do fluxo de dados. Inclui uma lista de tabelas, as colunas e os seus tipos de dados em cada tabela, a relação entre tabelas, e assim por diante. Pode exportar este ficheiro a partir de um dataflow facilmente, mesmo que não tenha acesso à estrutura de pastas do Common Data Model.

Captura de ecrã de uma lista de dataflow que mostra como exportar o ficheiro model.json a partir de um dataflow.

Pode usar este ficheiro JSON para migrar (ou importar) o seu fluxo de dados para outro espaço de trabalho ou ambiente.

Captura de ecrã da página de criação do fluxo de dados com a seleção de Modelo de Importação enfatizada.

Para saber exatamente o que inclui o ficheiro de metadados model.json, vá ao Ficheiro de metadados (model.json) para Common Data Model.

Ficheiros de dados

Para além do ficheiro de metadados, a pasta dataflow inclui outras subpastas. Um fluxo de dados armazena os dados de cada tabela numa subpasta com o nome da tabela. Os dados para uma tabela podem ser divididos em múltiplas partições de dados, armazenadas em formato CSV.

Como ver ou aceder a pastas do Common Data Model

Se estiveres a usar dataflows que usam armazenamento fornecido pelo produto onde foram criados, não tens acesso direto a essas pastas. Nesses casos, obter dados dos fluxos de dados requer a utilização do conector de fluxo de dados do Microsoft Power Platform disponível na funcionalidade Get data na experiência dos serviços Power BI, Power Apps e Dynamics 365 Customer Insights, ou no Power BI Desktop.

Captura de ecrã da página Escolher a fonte de dados com o conector de fluxos de dados do Power Platform enfatizado.

Para saber como funcionam os dataflows e a integração interna do Data Lake Storage, consulte Dataflows e integração Azure Data Lake (Preview).

Se a sua organização ativou os dataflows para tirar partido da sua conta de Data Lake Storage e foi selecionada como alvo de carga para dataflows, pode ainda assim obter dados do dataflow usando o conector de dataflow do Power Platform, como mencionado anteriormente. Mas também pode aceder diretamente à pasta Common Data Model do fluxo de dados através do lago de dados, mesmo fora das ferramentas e serviços do Power Platform. O acesso ao lago é possível através do portal Azure, do Microsoft Azure Storage Explorer ou de qualquer outro serviço ou experiência que suporte o Azure Data Lake Storage. Para mais informações, consulte Connect Azure Data Lake Storage Gen2 para armazenamento por fluxo de dados.