Partilhar via


Suporte nativo de documentos para Azure Language no Foundry Tools (pré-visualização)

Importante

  • A Linguagem Azure nas versões públicas de pré-visualização do Foundry Tools proporciona acesso antecipado a funcionalidades que estão em desenvolvimento ativo.
  • Funcionalidades, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base no feedback dos utilizadores.

Language é um serviço baseado na cloud que aplica funcionalidades de Processamento de Linguagem Natural (PLN) a dados baseados em texto. O recurso nativo de suporte a documentos permite que você envie solicitações de API de forma assíncrona, usando um corpo de solicitação HTTP POST para enviar seus dados e uma cadeia de caracteres de consulta de solicitação HTTP GET para recuperar os resultados de status. Seus documentos processados estão localizados em seu contêiner de destino do Armazenamento de Blobs do Azure.

Um documento nativo refere-se ao formato de arquivo usado para criar o documento original, como o Microsoft Word (docx) ou um arquivo de documento portátil (pdf). O suporte nativo a documentos elimina a necessidade de pré-processamento de texto antes de utilizar as capacidades de recursos da Linguagem. Atualmente, o suporte nativo a documentos está disponível para os seguintes recursos:

  • Informações de identificação pessoal (PII). O recurso de deteção de PII pode identificar, categorizar e redigir informações confidenciais em texto não estruturado. A PiiEntityRecognition API suporta processamento nativo de documentos.

  • Resumo de documentos. A sumarização de documentos usa processamento de linguagem natural para gerar resumos extrativos (extração de frases salientes) ou abstratos (extração contextual de palavras) para documentos. Ambas as APIs AbstractiveSummarization e ExtractiveSummarization suportam o processamento nativo de documentos.

Formatos de documento suportados

Os aplicativos usam formatos de arquivo nativos para criar, salvar ou abrir documentos nativos. Atualmente, a capacidade de PII e de resumo de documentos suporta os seguintes formatos de documento nativo:

Tipo de ficheiro Extensão do arquivo Description
Texto .txt Um documento de texto não formatado.
Adobe PDF .pdf Um documento formatado como ficheiro PDF.
Microsoft Word .docx Um arquivo de documento do Microsoft Word.

Diretrizes de entrada

Formatos de ficheiro suportados

Tipo Suporte e Limitações
PDFs Não há suporte para PDFs totalmente digitalizados.
Texto dentro de imagens Não há suporte para imagens digitais com texto incorporado.
Mesas digitais Não há suporte para tabelas em documentos digitalizados.

Tamanho do documento

Attribute Limite de entrada
Número total de documentos por pedido ≤ 20
Tamanho total do conteúdo por solicitação ≤ 10 MB

Solicitar cabeçalhos e parâmetros

parâmetro Description
-X POST <endpoint> Especifica o seu endpoint de recurso de idioma para aceder à API.
--header Content-Type: application/json O tipo de conteúdo para enviar dados JSON.
--header "Ocp-Apim-Subscription-Key:<key> Especifica a chave de recurso Azure Language para aceder à API.
-data O arquivo JSON que contém os dados que você deseja passar com sua solicitação.