Compartilhar via


Saiba mais sobre as definições de pesquisa e análise em casos de Deteção de Dados Eletrónicos

Pode configurar as definições para cada caso de Deteção de Dados Eletrónicos para controlar a seguinte funcionalidade:

  • Duplicatas próximas e threading de email
  • Temas
  • Consulta de conjunto de revisão autogerada
  • Ignorar texto
  • Reconhecimento óptico de caracteres

Dica

Comece a utilizar Microsoft Security Copilot para explorar novas formas de trabalhar de forma mais inteligente e rápida com o poder da IA. Saiba mais sobre Microsoft Security Copilot no Microsoft Purview.

Configurar definições de análise para um caso

Para definir as configurações de pesquisa e análise de um caso:

  1. Aceda ao portal do Microsoft Purview e inicie sessão com as credenciais de uma conta de utilizador com permissões de Deteção de Dados Eletrónicos atribuídas.
  2. Selecione a solução de Deteção de Dados Eletrónicos card e, em seguida, selecione Casos no painel de navegação esquerdo.
  3. Selecione um caso e, em seguida, selecione Definições de caso.
  4. Em Definições de casos, selecione Procurar & análise.
  5. É apresentada a página Pesquisa & análise . Estas definições aplicam-se a todos os conjuntos de revisão num caso.
  6. Depois de selecionar as opções de pesquisa e análise aplicáveis, selecione Guardar.

As secções seguintes descrevem as definições de análise que pode configurar para um caso.

Duplicatas próximas e threading de email

Nesta secção, defina parâmetros para deteção de duplicados, deteção de duplicados e threading de e-mail.

  • Threads de e-mail/duplicados próximos: Quando ativa esta definição, o fluxo de trabalho inclui deteção de duplicados, deteção quase duplicada e threading de e-mail quando executa análises nos dados num conjunto de revisão.
  • Limiar de semelhança entre documentos e e-mails: Se o nível de semelhança para dois documentos estiver acima do limiar, ambos os documentos estão no mesmo conjunto quase duplicado.
  • Número mínimo/máximo de palavras: Estas definições especificam que as análises de threads de e-mail e duplicados próximos são efetuadas apenas em documentos que tenham, pelo menos, o número mínimo de palavras e, no máximo, o número máximo de palavras.

Detecção de duplicata próxima

Considere um conjunto de documentos para rever onde um subconjunto de documentos utiliza o mesmo modelo e, principalmente, o mesmo idioma automático, com algumas diferenças. Se um revisor conseguir identificar este subconjunto, reveja um deles cuidadosamente e reveja as diferenças para o resto, não perderá nenhuma informação exclusiva enquanto demora apenas uma fração do tempo necessário para ler todos os documentos da capa. Detecção de duplicata próxima agrupa documentos textualmente similares para deixar seu processo de avaliação mais eficiente.

Quando é executado perto da deteção de duplicados, o sistema analisa todos os documentos com texto. Depois, ela compara os documento entre si para determinar se suas semelhanças são maiores que o limite definido. Se for, o sistema agrupa os documentos. Depois de todos os documentos serem comparados e agrupados, o sistema marca um documento de cada grupo como o "pivot"; ao rever os seus documentos, pode rever primeiro um pivô e rever os outros documentos no mesmo conjunto quase duplicado, concentrando-se na diferença entre o pivô e o documento que está em revisão.

Threading de emails

Considere uma conversação por e-mail que se mantenha durante algum tempo. Na maioria dos casos, a última mensagem no tópico de e-mail inclui o conteúdo de todas as mensagens anteriores. Por conseguinte, rever a última mensagem dá um contexto completo da conversação que ocorreu no tópico. O encadeamento de emails identifica essas mensagens para que os revisores possam revisar uma fração dos documentos coletados sem perder nenhum contexto.

Email threading na Deteção de Dados Eletrónicos é o processo de organização de uma sequência de e-mails relacionados que fazem parte da mesma conversação. Esta sequência inclui o e-mail inicial e todas as respostas e reencaminhamentos subsequentes ligados ao e-mail original. Ao agrupar estes e-mails em threads, os revisores veem todo o contexto de uma conversação, facilitando a compreensão do fluxo de comunicação. Esta abordagem ajuda os revisores a identificar informações relevantes de forma mais eficiente e elimina a necessidade de rever cada e-mail individualmente. Email mensagens incluídas no processo de análise têm os seguintes metadados preenchidos:

  • É Inclusivo: este campo identifica se um e-mail contém todo o conteúdo exclusivo de um tópico, incluindo todas as respostas anteriores. Garante que apenas o e-mail mais abrangente num tópico é revisto, o que é essencial para compreender todo o contexto da conversação sem ter de rever cada resposta individual.
  • Tem Anexos Exclusivos: este campo marca e-mails que contêm anexos não encontrados noutros e-mails dentro do mesmo tópico. Mesmo que o conteúdo do e-mail seja duplicado, os anexos exclusivos são sinalizados para garantir que todos os documentos relevantes são revistos. Este aspeto é importante no processo de revisão legal para garantir que não são ignoradas provas exclusivas, mesmo que o próprio corpo do e-mail não seja exclusivo.

Como é diferente das conversas no Outlook?

De relance, este processo soa semelhante aos agrupamentos de conversações no Outlook. No entanto, existem algumas distinções importantes. Considere uma conversação por e-mail que forks em duas conversações. Por exemplo, alguém responde a um e-mail que não é o mais recente na conversação, pelo que os dois últimos e-mails na conversação têm conteúdo exclusivo.

O Outlook ainda agrupa os emails em uma única conversa. Ler apenas o último e-mail poderá perder o contexto do último e-mail, que também contém conteúdo exclusivo. Uma vez que o threading de e-mail analisa cada e-mail em componentes individuais e os compara, o threading de e-mail marca ambos os últimos dois e-mails como inclusivos, garantindo que não perde qualquer contexto, desde que leia todos os e-mails marcados como inclusivos.

Vamos também considerar um tópico de e-mail com múltiplas respostas, onde algumas respostas incluem respostas inline que modificam o conteúdo citado. Se uma resposta inline alterar parte do e-mail anterior, a resposta mais recente não abrange totalmente o conteúdo do e-mail anterior. Tanto a resposta mais recente como o e-mail anterior com conteúdo exclusivo são marcados como inclusivos. Esta abordagem garante que todas as informações exclusivas da resposta inline são preservadas e não ignoradas.

Temas

Nesta secção, pode definir os seguintes parâmetros para os temas:

  • Temas: Quando ativado, o fluxo de trabalho executa temas clustering quando executa análises nos dados num conjunto de revisão.
  • Número máximo de temas: Especifica o número máximo de temas que o fluxo de trabalho pode gerar quando executa análises nos dados num conjunto de revisão.
  • Incluir números em temas: Quando ativado, o fluxo de trabalho inclui números que identificam um tema ao gerar temas.
  • Ajustar dinamicamente o número máximo de temas: Em determinadas situações, pode não haver documentos suficientes num conjunto de revisão para produzir o número de temas pretendido. Quando esta configuração está habilitada, a Descoberta Eletrônica ajusta dinamicamente o número máximo de temas em vez de tentar impor.

Quando cria um novo documento, geralmente começa com uma ou mais ideias que pretende transmitir no documento e, em seguida, compõe o documento com palavras alinhadas com estas ideias. Quanto mais prevalente é uma ideia, mais frequentes tendem a ser as palavras relacionadas a essa ideia. Este método também se alinha com a forma como os leitores consomem documentos. As coisas importantes a compreender ao ler um documento são as principais ideias que o documento está a tentar transmitir. Este entendimento também inclui as ideias que aparecem onde e quais são as relações entre as ideias.

Este processo pode ser alargado à forma como um revisor de Deteção de Dados Eletrónicos quer consumir um conjunto de documentos num caso. Querem ver que ideias estão presentes nos conjuntos de revisão e que documentos discutem essas ideias. Se encontrarem um documento de interesse específico, querem ver documentos que abordam ideias semelhantes.

A funcionalidade Temas na Deteção de Dados Eletrónicos tenta imitar a razão dos humanos em relação aos documentos ao analisar os temas que são discutidos num conjunto de revisão e ao atribuir um tema a documentos no conjunto de revisão. Na Deteção de Dados Eletrónicos, os Temas vão um passo mais além e identificam o tema dominante em cada conjunto de revisão e documento. O tema dominante é aquele que aparece mais frequentemente num documento.

Como funcionam os temas?

A funcionalidade Temas analisa documentos com texto num conjunto de revisões para analisar temas comuns que aparecem em todos os documentos no conjunto de revisão. A Descoberta Eletrônica atribui esses temas aos documentos nos quais eles aparecem. Ela também rotula cada tema com as palavras usadas nos documentos que são representantes do tema. Uma vez que um documento pode conter vários tipos de assunto, a Deteção de Dados Eletrónicos atribui frequentemente vários temas para rever conjuntos e documentos. Esta atribuição é referida como a lista Temas. O tema que aparece de forma mais proeminente num conjunto de revisões ou documento é designado como o seu tema dominante.

Configurar Temas

Os temas são suportados para casos e aplicam-se a todos os conjuntos de revisão dentro dos mesmos. Pode configurar as definições para temas quando cria um novo caso ou pode atualizar as definições do tema para um caso existente.

Para configurar temas num caso, conclua os seguintes passos:

  1. Aceda ao portal do Microsoft Purview e inicie sessão com as credenciais de uma conta de utilizador com permissões de Deteção de Dados Eletrónicos atribuídas.
  2. Selecione a solução de Deteção de Dados Eletrónicos card e, em seguida, selecione Casos (pré-visualização) no painel de navegação esquerdo.
  3. Selecione um caso e, em seguida, selecione Definições de caso.
  4. Em Definições de casos, selecione Procurar & análise.
  5. Selecione as seguintes opções de tema, conforme aplicável:
    • Número máximo de temas: Especifica o número máximo de temas que o fluxo de trabalho pode gerar quando executa análises nos dados em conjuntos de revisão incluídos num caso. Para obter mais informações sobre limites, veja Limites na Deteção de Dados Eletrónicos.
    • Incluir números em temas: Os números que identificam um tema são incluídos ao gerar temas.
    • Ajustar dinamicamente o número máximo de temas: Em determinadas situações, pode não haver documentos suficientes num conjunto de revisão para produzir o número pretendido de temas para o caso. Quando esta definição está ativada, o número máximo de temas é ajustado dinamicamente em vez de tentar impor o número máximo de temas.
  6. Se precisar de excluir palavras-chave associadas a temas, introduza o texto ou expressão regular necessária no campo Ignorar texto . No campo Aplicar a , selecione Temas para aplicar o texto ou expressão regular a todos os temas.
  7. Selecione Salvar.

Depois de criar um novo caso, o fluxo de trabalho executa automaticamente análises nos dados quando adiciona os conjuntos de revisão ao caso. O fluxo de trabalho gera temas para os conjuntos de revisão como parte do processamento de análise.

Resumo do conjunto de consulta

Se selecionar a caixa de verificação Criar automaticamente uma pesquisa para Revisão guardada após análise, a Deteção de Dados Eletrónicos gera automaticamente uma consulta de conjunto de revisão denominada Para Revisão.

Esta consulta filtra os itens duplicados do conjunto de revisão, para que possa rever rapidamente os itens exclusivos no conjunto de revisão. Essa consulta é criada apenas quando você executa uma análise de um conjunto de revisão no caso. Para obter mais informações sobre consultas de conjuntos de revisão, veja Consultar os dados num conjunto de revisão.

Ignorar texto

Determinado texto pode diminuir a qualidade da análise, como exclusões de responsabilidade longas que são adicionadas às mensagens de e-mail, independentemente do conteúdo do e-mail. Se souber que texto deve ser ignorado, pode excluí-lo da análise ao especificar a cadeia de texto e a funcionalidade de análise (quase duplicados, threads de e-mail, temas e relevância) para os quais o texto deve ser excluído. A utilização de expressões regulares (RegEx) para texto ignorado também é suportada.

Reconhecimento óptico de caracteres (OCR)

Quando ativa esta definição, o processamento OCR é executado em ficheiros de imagem. Quando o OCR é aplicado a ficheiros de imagem, o texto nestes ficheiros está disponível nos resultados da pesquisa. O OCR é executado apenas em itens processados durante a indexação Avançada (se selecionar esta opção na consulta de pesquisa).

Por exemplo, se um ficheiro PDF grande parcialmente indexado ou com outros erros de indexação for processado durante a indexação Avançada, o OCR é aplicado. O processamento de OCR só ocorre em ficheiros que são reindexados durante o processo de indexação Avançado. Isto significa que podem existir situações em que os conteúdos são adicionados a um conjunto de revisão, mas alguns anexos de e-mail não são processados para OCR porque estes ficheiros não são processados durante a indexação Avançada.

Depois de adicionar dados a um conjunto de revisão, pode rever, procurar, etiquetar e analisar o texto da imagem. Pode ver o texto extraído no Visualizador de texto do ficheiro de imagem selecionado no conjunto de revisão. Para saber mais, confira: