Entender os recursos de análise de texto do Azure Language
A Linguagem do Azure faz parte das ofertas de Ferramentas de Fundação que podem executar o processamento avançado de linguagem natural em texto não estruturado. Os recursos de análise de texto da Linguagem do Azure incluem:
- O reconhecimento de entidade nomeada identifica pessoas, locais, eventos e muito mais. Esse recurso também pode ser personalizado para extrair categorias personalizadas.
- Vinculação de entidades identifica entidades conhecidas junto com um link para a Wikipédia.
- A detecção de PII (informações de identificação pessoal) identifica informações pessoais confidenciais, incluindo informações de integridade pessoal (PHI).
- A detecção de idioma identifica o idioma do texto e retorna um código de idioma como "en" para inglês.
- A análise de sentimento e a mineração de opinião identificam se o texto é positivo ou negativo.
- O resumo resume o texto identificando as informações mais importantes.
- A extração de frase-chave lista os principais conceitos do texto não estruturado.
Vamos dar uma olhada mais de perto em alguns desses recursos.
Reconhecimento e vinculação de entidade
Você pode fornecer à Linguagem do Azure um texto não estruturado e ele retorna uma lista de entidades no texto que ele reconhece. Uma entidade é um item de um tipo específico ou uma categoria; e, em alguns casos, subtipo, por exemplo:
| Tipo | Subtipo | Exemplo |
|---|---|---|
| Pessoa | "Bill Gates", "John" | |
| Localização | "Paris", "Nova Iorque" | |
| Organização | "Microsoft" | |
| Quantidade | Número | "6" ou "seis" |
| Quantidade | Porcentagem | "25%" ou "50 por cento" |
| Quantidade | Ordinal | “1º” ou “primeiro” |
| Quantidade | Idade | "90 dias de idade" ou "30 anos" |
| Quantidade | Moeda | "10.99" |
| Quantidade | Dimensão | "10 milhas", "40 cm" |
| Quantidade | Temperatura | "45 graus" |
| Data e Hora | "18h30 de 4 de fevereiro de 2012" | |
| Data e Hora | Data | "2 de maio de 2017" ou "02/05/2017" |
| Data e Hora | Hora | “8h” ou “8h00” |
| Data e Hora | DateRange | "2 de maio a 5 de maio" |
| Data e Hora | Intervalo de Tempo | “18h às 19h” |
| Data e Hora | Duração | "1 minuto e 45 segundos" |
| Data e Hora | Definir | "toda terça-feira" |
| URL |
https://www.bing.com
|
|
support@microsoft.com
|
||
| Número de telefone baseado nos EUA | "(312) 555-0176" | |
| Endereço IP | "10.0.1.125" |
O Azure Language também dá suporte à vinculação de entidade para ajudar a desambiguar entidades vinculando-se a uma referência específica. Para entidades reconhecidas, o serviço retorna uma URL para um artigo relevante da Wikipédia .
Por exemplo, suponha que você use a Linguagem do Azure para detectar entidades no seguinte extrato de revisão de restaurante:
"Eu comi no restaurante em Seattle na semana passada."
| Entidade | Tipo | Subtipo | URL da Wikipédia |
|---|---|---|---|
| Seattle | Localização | https://en.wikipedia.org/wiki/Seattle | |
| A semana passada | Data e Hora | DateRange |
Detecção de idioma
Você pode identificar o idioma no qual o texto é escrito com o recurso de detecção de idioma da Linguagem do Azure. Para cada documento enviado, o serviço detecta:
- O nome do idioma (por exemplo, "inglês").
- O código de linguagem ISO 6391 (por exemplo, "en").
- Uma pontuação que indica um nível de confiança na detecção de idioma.
Por exemplo, considere um cenário em que você possui e opera um restaurante. Os clientes podem concluir pesquisas e fornecer comentários sobre a comida, o serviço, a equipe e assim por diante. Suponha que você tenha recebido as seguintes revisões dos clientes:
Revisão 1: "A fantastic place for lunch. The soup was delicious."
Revisão 2: "Comida maravillosa y gran servicio."
Revisão 3: "The croque monsieur avec frites was terrific. Bon appetit!"
Você pode usar os recursos de análise de texto no Idioma do Azure para detectar o idioma de cada uma dessas revisões; e pode responder com os seguintes resultados:
| Documento | Nome da linguagem | Código ISO 6391 | Pontuação |
|---|---|---|---|
| Revisão 1 | Inglês | en | 1,0 |
| Revisão 2 | Espanhol | es | 1,0 |
| Revisão 3 | Inglês | en | 0,9 |
Observe que o idioma detectado para a revisão 3 é inglês, apesar do texto que contém uma mistura de inglês e francês. O serviço de detecção de idioma se concentra no idioma predominante no texto. O serviço usa um algoritmo para determinar o idioma predominante, como comprimento de frases ou quantidade total de texto para o idioma em comparação com outros idiomas no texto. O idioma predominante é o valor retornado, juntamente com o código de idioma. A pontuação de confiança pode ser menor que 1 como resultado do texto de idioma misto.
Pode haver um texto ambíguo por natureza ou que tenha conteúdo de linguagem misturada. Essas situações podem apresentar um desafio. Um exemplo de conteúdo ambíguo seria um caso em que o documento contém texto limitado ou apenas pontuação. Por exemplo, usar a Linguagem do Azure para analisar o texto ":-)", resulta em um valor desconhecido para o nome do idioma e o identificador de idioma e uma pontuação de NaN (que é usada para indicar que não é um número).
Análise de sentimento e mineração de opiniões
Os recursos de análise de texto no Idioma do Azure podem avaliar o texto e retornar pontuações de sentimento e rótulos para cada frase. Essa funcionalidade é útil para detectar sentimentos positivos e negativos nas mídias sociais, revisões de clientes, fóruns de discussão e muito mais.
O Azure Language usa um modelo de classificação de machine learning predefinido para avaliar o texto. O serviço retorna pontuações de sentimento em três categorias: positivas, neutras e negativas. Em cada uma das categorias, uma pontuação entre 0 e 1 é fornecida. As pontuações indicam a probabilidade de o texto fornecido ser um sentimento específico. Um sentimento de documento também é fornecido.
Por exemplo, as duas revisões de restaurante a seguir podem ser analisadas quanto ao sentimento:
Revisão 1: "Jantamos neste restaurante ontem à noite e a primeira coisa que notei foi o quão cortês o pessoal foi. Fomos recebidos de forma amigável e levados para nossa mesa imediatamente. A mesa estava limpa, as cadeiras estavam confortáveis, e a comida era incrível."
e
Revisão 2: "Nossa experiência gastronômica neste restaurante foi uma das piores que já tive. O serviço estava lento, e a comida era horrível. Eu nunca vou comer neste estabelecimento novamente.
A pontuação de sentimento da primeira revisão pode ser: Sentimento do documento: pontuação positiva: 0,90 Pontuação neutra: 0,10 Pontuação negativa: 0,00
A segunda revisão pode retornar uma resposta: Sentimento do documento: pontuação positiva negativa: 0,00 Pontuação neutra: 0,00 Pontuação negativa: 0,99
Extração de frase-chave
A extração de frase-chave identifica os principais pontos do texto. Considere o cenário de restaurante discutido anteriormente. Se você tiver um grande número de pesquisas, pode levar muito tempo para ler as revisões. Em vez disso, você pode usar os recursos para extrair frases-chave do serviço de linguagem para resumir os pontos principais.
Você pode receber uma revisão como:
"Jantamos aqui para uma celebração de aniversário e tivemos uma experiência fantástica. Fomos recebidos por uma hostess amigável e levados para nossa mesa imediatamente. O ambiente estava relaxado, a comida era incrível, e o serviço era fantástico. Se você gosta de ótima comida e serviço atento, você deve experimentar este lugar."
A extração de frase-chave pode fornecer algum contexto para esta revisão extraindo as seguintes frases:
- celebração de aniversário
- experiência fantástica
- anfitriã amigável
- ótima comida
- serviço atento
- jantar
- tabela
- ambiente
- lugar
Em seguida, vamos examinar os recursos de IA de conversação do Azure Language.