Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo fornece uma descrição geral das funcionalidades de análise e ingestão no Mapa de Dados do Microsoft Purview. Estas funcionalidades ligam a sua conta do Microsoft Purview às suas origens para preencher o Mapa de Dados e Catálogo unificado para que possa começar a explorar e gerir os seus dados através do Microsoft Purview.
- A análise captura metadados de origens de dados e leva-os para o Microsoft Purview.
-
A ingestão processa metadados e armazena-os em Catálogo unificado de ambos:
- Análises da origem de dados – os metadados digitalizados são adicionados ao Mapa de Dados.
- Ligações de linhagem – os recursos de transformação adicionam metadados sobre as respetivas origens, saídas e atividades ao Mapa de Dados.
Verificação
Depois de registar origens de dados na sua conta do Microsoft Purview, analise as origens de dados. O processo de análise liga-se à origem de dados e captura metadados técnicos, como nomes, tamanho de ficheiro, colunas e muito mais. Também extrai o esquema para origens de dados estruturadas, aplica classificações em esquemas e aplica etiquetas de confidencialidade se o Mapa de Dados estiver ligado ao portal do Microsoft Purview. Pode acionar o processo de análise para ser executado imediatamente ou agende-o para ser executado periodicamente para manter a sua conta do Microsoft Purview atualizada.
Para cada análise, pode personalizar o processo para que só analise as informações de que precisa, em vez de toda a origem.
Escolher um método de autenticação para as suas análises
O Microsoft Purview está seguro por predefinição. Não armazena palavras-passe nem segredos diretamente, pelo que tem de escolher um método de autenticação para as suas origens. Pode autenticar a sua conta do Microsoft Purview de várias formas, mas nem todos os métodos são suportados para cada origem de dados.
- Identidade Gerida
- Principal de Serviço
- Autenticação SQL
- Autenticação do Windows
- ARN da Função
- Autenticação Delegada
- Chave de Consumidor
- Chave da Conta ou Autenticação Básica
Sempre que possível, utilize uma Identidade Gerida porque elimina a necessidade de armazenar e gerir credenciais para origens de dados individuais. Este método pode reduzir significativamente o tempo que você e a sua equipa gastam a configurar e a resolver problemas de autenticação para análises. Quando ativa uma identidade gerida para a sua conta do Microsoft Purview, é criada uma identidade no Microsoft Entra ID (Entra ID) e está associada ao ciclo de vida da sua conta.
Definir o âmbito da análise
Ao analisar uma origem, pode analisar toda a origem de dados ou escolher apenas entidades específicas (pastas ou tabelas) para analisar. As opções disponíveis dependem da origem que está a analisar. Pode definir estas opções para análises únicas e agendadas.
Por exemplo, ao criar e executar uma análise de uma Base de Dados SQL do Azure, pode escolher as tabelas a analisar ou selecionar toda a base de dados.
Para cada entidade (pasta ou tabela), existem três estados de seleção: totalmente selecionados, parcialmente selecionados e não selecionados. No exemplo seguinte, se selecionar Departamento 1 na hierarquia de pastas, o Departamento 1 é considerado como totalmente selecionado. As entidades principais do Departamento 1, que são a Empresa e, por exemplo, são consideradas parcialmente selecionadas, uma vez que as outras entidades no mesmo principal (por exemplo, Departamento 2) não estão selecionadas. São utilizados ícones diferentes na IU para entidades com diferentes estados de seleção.
Depois de executar a análise, é provável que sejam adicionados novos recursos no sistema de origem. Por predefinição, os recursos futuros num determinado elemento principal são selecionados automaticamente se o elemento principal estiver selecionado na totalidade ou parcialmente quando executar a análise novamente. No exemplo anterior, depois de selecionar Departamento 1 e executar a análise, todos os novos recursos na pasta Departamento 1 ou em Empresa e exemplo são incluídos quando executar a análise novamente.
Um botão de alternar, conforme visto na imagem abaixo, permite que os utilizadores controlem a inclusão automática de novos recursos no principal parcialmente selecionado. Por predefinição, o botão de alternar está desativado e o comportamento de inclusão automática de um elemento principal parcialmente selecionado está desativado. Com o botão de alternar desativado, todos os novos ativos em elementos principais parcialmente selecionados, como a Empresa e o exemplo , não são incluídos quando executar a análise novamente; apenas novos recursos no Departamento 1 estão incluídos na análise futura.
Se o botão de alternar estiver ativado, os novos recursos sob um elemento principal são selecionados automaticamente se o elemento principal estiver selecionado na totalidade ou parcialmente quando executar a análise novamente. O comportamento de inclusão é o mesmo que antes da introdução do botão de alternar.
Observação
- A disponibilidade do botão de alternar depende do tipo de origem de dados. Atualmente, está disponível em pré-visualização pública para origens, incluindo Armazenamento de Blobs do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Arquivos do Azure e conjunto de SQL dedicado Azure (anteriormente SQL DW).
- Para quaisquer análises criadas ou agendadas antes de o botão de alternar ser introduzido, o estado de alternar é definido como Ativado e não pode ser alterado. Para quaisquer análises criadas ou agendadas após a introdução do botão de alternar, o estado de alternar não pode ser alterado após a análise ser guardada. Tem de criar uma nova análise para alterar o estado do botão de alternar.
- Quando o botão de alternar está desativado, para origens do tipo de armazenamento como Azure Data Lake Storage Gen2, pode demorar até quatro horas até que a experiência de navegação por tipo de origem fique totalmente disponível após a conclusão da tarefa de análise.
Limitações conhecidas
Quando o botão de alternar está desativado:
- As entidades de ficheiro num elemento principal parcialmente selecionado não são analisadas.
- Se todas as entidades existentes num elemento principal estiverem explicitamente selecionadas, o principal será considerado totalmente selecionado e todos os novos recursos no elemento principal serão incluídos quando executar a análise novamente.
Personalizar o nível de análise
Na terminologia do Mapa de Dados, existem três níveis diferentes de análise com base no âmbito e nas funcionalidades dos metadados:
- Análise L1: extrai informações básicas e metadados como nome de ficheiro, tamanho e nome completamente qualificado
- Análise L2: extrai o esquema para tipos de ficheiro estruturados e tabelas de bases de dados
- Análise L3: extrai o esquema quando aplicável e sujeita o ficheiro de amostragem ao sistema e às regras de classificação personalizadas
Quando configura uma nova análise ou edita uma análise existente, pode personalizar o nível de análise para analisar origens de dados que suportam a configuração do nível de análise.
Por predefinição, a opção "Deteção automática" será selecionada, o que significa que o Microsoft Purview aplica o nível de análise mais elevado disponível para esta origem de dados. Veja SQL do Azure Base de Dados como exemplo, a "Deteção automática" será resolvida como "Nível 3" quando a análise for executada, uma vez que a origem de dados já suporta a classificação no Microsoft Purview. O nível de análise no detalhe da execução da análise mostra o nível real aplicado.
Para todas as execuções de análise no histórico de análise que foram concluídas antes de personalizar o nível de análise como uma nova funcionalidade, o nível de análise é definido e apresentado como Deteção automática.
Quando um nível de análise mais elevado fica disponível para uma origem de dados, as análises guardadas ou agendadas que têm o nível de análise definido como Deteção automática aplicam automaticamente o novo nível de análise. Por exemplo, se a classificação como uma nova funcionalidade estiver ativada para uma determinada origem de dados, todas as análises existentes nesta origem de dados aplicarão automaticamente a classificação.
A definição de nível de análise é apresentada na interface de monitorização de análise para cada execução de análise.
Se selecionar Nível 1, a análise devolve apenas metadados técnicos básicos, como o nome do recurso, o tamanho do recurso, o carimbo de data/hora modificado e muito mais, com base na disponibilidade de metadados existentes de uma origem de dados específica. Para Banco de Dados SQL, o processo cria entidades de recursos como tabelas no Mapa de Dados, mas não extrai o esquema da tabela. (Nota: os utilizadores ainda podem ver o esquema da tabela através da vista dinâmica se tiverem as permissões necessárias no sistema de origem).
Se selecionar Nível 2, a análise devolve esquemas de tabela e metadados técnicos básicos, mas não efetua a amostragem e classificação de dados. Para SQL do Azure Base de Dados, as entidades de recursos de tabela capturam o esquema da tabela sem informações de classificação.
Se selecionar Nível 3, a análise efetua a amostragem e a classificação dos dados. Esta é uma configuração padrão para SQL do Azure Análise da base de dados antes da introdução do nível de análise à medida que é introduzida uma nova funcionalidade.
Se definir uma análise agendada para um nível de análise inferior e, mais tarde, modificá-la para um nível de análise mais elevado, a próxima execução da análise efetua automaticamente uma análise completa e atualiza todos os recursos de dados existentes a partir da origem de dados com metadados introduzidos por uma definição de nível de análise superior. Por exemplo, quando altera um conjunto de análise agendada com o Nível 2 numa Base de Dados SQL do Azure para o Nível 3, a próxima execução de análise é uma análise completa e atualiza todas as tabelas existentes da Base de Dados SQL do Azure e visualiza recursos com informações de classificação. Todas as análises são retomadas posteriormente como análises incrementais definidas com o Nível 3.
Se definir uma análise agendada para um nível de análise mais elevado e, mais tarde, modificá-la para um nível de análise inferior, a próxima execução de análise continuará a efetuar uma análise incremental e todos os novos recursos de dados da origem de dados apenas têm metadados introduzidos por uma definição de nível de análise inferior. Por exemplo, quando altera um conjunto de análise agendada com o Nível 3 numa Base de Dados do SQL do Azure para o Nível 2, a próxima execução de análise é uma análise incremental e todos os novos recursos de tabela e vista da Base de Dados SQL do Azure adicionados no Mapa de Dados não têm informações de classificação. Todos os recursos de dados existentes ainda mantêm as informações de classificação geradas do conjunto de análise anterior com o Nível 3.
Observação
- A personalização do nível de análise está atualmente disponível para as seguintes origens de dados: base de dados SQL do Azure, Instância Gerenciada de SQL do Azure, Azure Cosmos DB para NoSQL, Banco de Dados do Azure para PostgreSQL, Banco de Dados do Azure para MySQL, Azure Data Lake Storage Gen2, Armazenamento de Blobs do Azure, Arquivos do Azure, Azure Synapse Analytics Azure Conjunto de SQL dedicado (anteriormente SQL DW), Azure Data Explorer, Dataverse, Azure Multiple (subscrição Azure), Azure Multiple (Azure Resource Group), Snowflake Azure Catálogo do Unity do Databricks
- Atualmente, a funcionalidade só está disponível no Azure integration runtime e no Runtime de integração do Rede Virtual Gerido v2.
Conjunto de regras de análise
Um conjunto de regras de análise determina os tipos de informações que uma análise procura quando está em execução numa das suas origens. As regras disponíveis dependem do tipo de origem que está a analisar, mas incluem aspetos como os tipos de ficheiro que deve analisar e os tipos de classificações de que precisa.
Muitos tipos de origem de dados já têm conjuntos de regras de análise do sistema, mas também pode criar os seus próprios conjuntos de regras de análise para adaptar as suas análises à sua organização.
Agendar a análise
O Microsoft Purview permite-lhe escolher a análise diária, semanal ou mensal numa hora específica que escolher. Saiba mais sobre as opções de agendamento suportadas. As análises diárias ou semanais podem ser adequadas para origens de dados com estruturas que estão ativamente em desenvolvimento ou que mudam frequentemente. A análise mensal é mais adequada para origens de dados que mudam com pouca frequência. Trabalhe com o administrador da origem que pretende analisar para identificar uma altura em que as exigências de computação na origem são baixas.
Como as análises detetam recursos eliminados
Um catálogo do Microsoft Purview só tem conhecimento do estado de um arquivo de dados quando executa uma análise. Para que o catálogo saiba se um ficheiro, tabela ou contentor foi eliminado, compara a saída da última análise com a saída da análise atual. Por exemplo, suponha que, da última vez que analisou uma conta Azure Data Lake Storage Gen2, esta incluía uma pasta com o nome folder1. Quando a mesma conta for novamente analisada, a pasta1 está em falta. Por conseguinte, o catálogo pressupõe que a pasta foi eliminada.
Dica
Devido à forma como os ficheiros eliminados são detetados, poderá precisar de várias análises com êxito para detetar e resolve recursos eliminados. Se Catálogo unificado não estiver a registar eliminações para uma análise no âmbito, experimente várias análises completas para resolve o problema.
Detetar ficheiros eliminados
A lógica para detetar ficheiros em falta funciona para múltiplas análises pelo mesmo utilizador e por diferentes utilizadores. Por exemplo, suponha que um utilizador executa uma análise única num arquivo de dados Data Lake Storage Gen2 nas pastas A, B e C. Posteriormente, um utilizador diferente na mesma conta executa uma análise única diferente nas pastas C, D e E do mesmo arquivo de dados. Uma vez que a pasta C foi analisada duas vezes, o catálogo verifica se existem possíveis eliminações. No entanto, as pastas A, B, D e E foram analisadas apenas uma vez e o catálogo não as marcar recursos eliminados.
Para manter os ficheiros eliminados fora do seu catálogo, é importante executar análises regulares. O intervalo de análise é importante porque o catálogo não consegue detetar recursos eliminados até ser executada outra análise. Por isso, se executar análises uma vez por mês num arquivo específico, o catálogo não conseguirá detetar quaisquer recursos de dados eliminados nesse arquivo até executar a próxima análise um mês depois.
Quando enumera grandes arquivos de dados, como Data Lake Storage Gen2, existem várias formas (incluindo erros de enumeração e eventos removidos) de perder informações. Uma análise específica pode falhar se um ficheiro tiver sido criado ou eliminado. Portanto, a menos que o catálogo tenha a certeza de que um ficheiro é eliminado, não o elimina do catálogo. Esta estratégia significa que podem existir erros quando um ficheiro que não existe no arquivo de dados analisado ainda existe no catálogo. Em alguns casos, um arquivo de dados poderá ter de ser analisado duas ou três vezes antes de detetar determinados recursos eliminados.
Observação
- Os recursos marcados para eliminação são eliminados após uma análise bem-sucedida. Os recursos eliminados podem continuar a ser visíveis no seu catálogo durante algum tempo antes de serem processados e removidos.
- A deteção de eliminação é suportada apenas para estas origens no Microsoft Purview: áreas de trabalho do Azure Synapse Analytics, Azure SQL Server compatíveis com o Arc, Armazenamento de Blobs do Azure, Arquivos do Azure, Azure Cosmos DB, Azure Data explorer, Banco de Dados do Azure para MySQL, Banco de Dados do Azure para PostgreSQL, Azure Conjunto de SQL dedicado, Azure Machine Learning, Base de Dados SQL do Azure e SQL do Azure Instância gerida. Para estas origens, quando um recurso é eliminado da origem de dados, as análises subsequentes removerão automaticamente os metadados e a linhagem correspondentes no Microsoft Purview.
Ingestão
A ingestão é o processo que preenche o Mapa de Dados com metadados recolhidos através dos seus vários processos.
Observação
A contagem combinada de todos os objetos subordinados (entidades referidas) e contactos (proprietário, especialista) não pode exceder 20 000 entidades.
Ingestão de análises
O processo de análise identifica metadados técnicos ou classificações e envia-os para a ingestão. A ingestão analisa a entrada da análise, aplica padrões de conjuntos de recursos, preenche as informações de linhagem disponíveis e, em seguida, carrega automaticamente o Mapa de Dados. Só pode detetar ou organizar recursos e esquemas após a ingestão estar concluída. Se a análise for concluída, mas não vir os seus recursos no Mapa de Dados ou catálogo, terá de aguardar pela conclusão do processo de ingestão.
Ingestão de ligações de linhagem
Pode ligar recursos como Azure Data Factory e Azure Synapse ao Microsoft Purview para colocar informações de origem e linhagem de dados no Mapa de Dados. Por exemplo, quando um pipeline de cópia é executado num Azure Data Factory que ligou ao Microsoft Purview, o serviço ingere metadados sobre as origens de entrada, a atividade e as origens de saída. As informações são adicionadas ao Mapa de Dados.
Se adicionar uma origem de dados ao Mapa de Dados através de uma análise, as informações de linhagem sobre a atividade são adicionadas à origem existente. Se ainda não adicionou a origem de dados ao Mapa de Dados, o processo de ingestão de linhagem adiciona-a à coleção de raiz com as respetivas informações de linhagem.
Para obter mais informações sobre as ligações de linhagem disponíveis, veja o guia do utilizador da linhagem.
Próximas etapas
Para obter mais informações ou para obter instruções específicas sobre a análise de origens, siga as ligações abaixo.