Partilhar via


Comece com classificadores treináveis

Um classificador treinável do Microsoft Purview é uma ferramenta que pode preparar para reconhecer vários tipos de conteúdo ao fornecer-lhe exemplos para avaliar. Depois de preparado, pode utilizá-lo para identificar itens para a aplicação de etiquetas de confidencialidade do Office, políticas de conformidade de comunicações e políticas de etiquetas de retenção.

A implementação de um classificador treinável personalizado requer dois passos:

  1. Forneça dois conjuntos de dados de exemplo (selecionados por humanos).
    1. Um conjunto que contém apenas itens que pertencem à categoria.
    2. Um conjunto que contém apenas itens que não pertencem à categoria.
  2. Teste a capacidade do classificador de detetar correspondências.

Este artigo explica como criar e testar um classificador personalizado.

Para obter mais informações sobre os diferentes tipos de classificadores, consulte Saiba mais sobre classificadores treináveis.

Importante

Conformidade de Comunicações do Microsoft Purview suporta apenas a utilização dos classificadores treináveis fornecidos pela Microsoft. Os classificadores treináveis personalizados não são suportados.

Pré-requisitos

Licenciamento

Para obter informações sobre o licenciamento, consulte

Permissões

Para utilizar classificadores nos seguintes cenários, precisa das seguintes permissões:

Cenário Permissões de Função Necessárias
Política de etiqueta de retenção Gestão de Registos
Gestão de Retenção
Política de etiquetas de confidencialidade Administrador de Segurança
Administrador de Conformidade
Administrador de Dados de Conformidade
Política de conformidade de comunicações Administrador de Gestão de Riscos Internos
Administrador de Revisão de Supervisão

Importante

Por predefinição, apenas o utilizador que cria um classificador personalizado pode treiná-lo e rever as predições feitas por esse classificador.

Prepare-se para um classificador treinável personalizado

Antes de criar um classificador treinável personalizado, é útil compreender o que está envolvido.

Fluxo de trabalho geral

Para obter mais informações sobre o fluxo de trabalho geral da criação de classificadores treináveis personalizados, veja o fluxo de processos para criar classificadores treináveis personalizados.

Conteúdo de semeadura

Para garantir que o classificador treinável consegue identificar de forma independente e precisa que um item pertence a uma categoria específica de conteúdo, tem de apresentar várias amostras do tipo de conteúdo que está na categoria. Esta alimentação de amostras para o classificador treinável é conhecida como propagação. Um humano tem de selecionar o conteúdo da semente e esse conteúdo tem de incluir dois conjuntos de dados: um conjunto contém apenas itens que representam fortemente o conteúdo que o classificador foi concebido para detetar (amostras positivas) e um segundo conjunto contém itens que claramente não pertencem (amostras negativas).

Precisa de, pelo menos, 50 amostras positivas (até 500) e, pelo menos, 150 amostras negativas (até 1500) para preparar um classificador. Quanto mais exemplos fornecer, mais precisas serão as predições que o classificador faz. O classificador treinável processa até aos 2000 exemplos criados mais recentemente (por data/hora de criação de ficheiros).

Dica

Para obter os melhores resultados, tenha, pelo menos, 200 itens no conjunto de exemplos de teste que inclua, pelo menos, 50 exemplos positivos e, pelo menos, 150 exemplos negativos.

Como criar um classificador treinável

Em pré-visualização: O processo seguinte automatiza o teste de classificadores treináveis e reduz o fluxo de trabalho de criação de 12 dias para dois dias. Em alguns casos, o processo pode demorar apenas algumas horas.

  1. Recolha entre 50 e 500 itens de conteúdo de sementes que representem fortemente os dados que pretende que o classificador identifique positivamente como estando na categoria. Para obter uma lista dos tipos de ficheiro suportados, veja Extensões de nome de ficheiro pesquisadas predefinidas e tipos de ficheiro analisados no SharePoint Server.

  2. Recolha um segundo conjunto de conteúdos de sementes (de 150 a 1500 itens) que representa dados que não pertencem à categoria.

  3. Coloque o conteúdo de seed positivo e negativo em pastas separadas do SharePoint. Cada pasta tem de ser dedicada a conter apenas o conteúdo da semente. Anote o URL do site, da biblioteca e da pasta para cada conjunto.

    Dica

    Se criar um novo site e pasta do SharePoint para os seus dados de sementes, aguarde pelo menos uma hora para que essa localização seja indexada antes de criar o classificador treinável que utiliza esses dados de sementes.

  4. Inicie sessão no portal do Microsoft Purview com o acesso de função de Administrador de conformidade ou Administrador de segurança e navegue paraClassificadores deClassificação> de dados de prevenção> de perda de dados.

Importante

A conta que utiliza tem de ter acesso às pastas de conteúdo de sementes no SharePoint.

  1. Selecione o separador Classificadores treináveis .

  2. Selecione Criar classificador treinável.

  3. Adicione a origem dos seus exemplos positivos : selecione o URL do site, biblioteca e pasta do SharePoint para o conteúdo de seed que o classificador deve detetar e, em seguida, selecione Seguinte.

  4. Adicione a origem dos seus exemplos negativos : selecione o URL do site, biblioteca e pasta do SharePoint para o conteúdo de seed que o classificador deve ignorar e, em seguida, selecione Seguinte.

  5. Examine as configurações e selecione Criar classificador treinável.

  6. Dentro de 24 horas ou menos, o classificador treinável processa os dados de seed e cria um modelo de predição. O status do classificador estará Em andamento enquanto processa os dados iniciais. Quando o classificador concluir o processamento dos dados de seed, a status alterações à Preparação é concluída e os itens foram testados.

  7. Quando a preparação for concluída e os itens forem (automaticamente) testados, publique o classificador ao selecionar Publicar para utilização.

Depois de publicar o classificador, este fica disponível como uma condição na etiquetagem automática do Office com etiquetas de confidencialidade, política de etiquetas de retenção automaticamente com base numa condição e em Conformidade de comunicação.

Testar o classificador

Depois de o classificador treinável processar amostras positivas e negativas suficientes para criar um modelo de predição, teste as predições que faz. Quando testa o classificador, verifica se as predições estão corretas. Depois de o classificador processar todos os dados, pode percorrer os resultados para verificar se cada predição está correta, incorreta ou incerta. A Microsoft utiliza este feedback de forma agregada para melhorar o modelo de predição.

Confira também