Compartilhar via


Tipos de dados com suporte (Azure AI Search)

Este artigo descreve os tipos de dados compatíveis com o Azure AI Search. Os campos e os valores usados em expressões de filtro são digitados de acordo com o EDM (Modelo de Dados de Entidade). Especificar um tipo de dados EDM é um requisito para a definição de campo.

Nota

Se você estiver usando indexadores, consulte Mapa de tipo de dados para indexadores no Azure AI Search para obter mais informações sobre como os indexadores mapeiam tipos de dados específicos da origem para tipos de dados EDM em um índice de pesquisa.

Tipos de dados EDM para campos de vetor

Um tipo de campo vetorial deve ser válido para a saída do modelo de incorporação. Por exemplo, se você usar text-embedding-ada-002, o formato de saída será Float32 ou Collection(Edm.Single). Nesse cenário, você não pode atribuir um Int8 tipo de dados porque a conversão de float para int primitivos é proibida. No entanto, você pode lançar de Float32 para Float16 ou (Collection(Edm.Half)).

Os campos de vetor são uma matriz de inserções. No EDM, uma matriz é uma coleção.

Tipo de dado Tipo de vetor Descrição Uso recomendado
Collection(Edm.Byte) Binário Binário sem sinal de 1 bit. Disponível em Criar ou Atualizar Índice. Suporta integração com modelos que emitem incorporações binárias, como os modelos de incorporação binária v3 da Cohere. ou lógica de quantização personalizada que emite saída binária não assinada de 1 bit. Para campos do tipo Collection(Edm.Byte), consulte Indexar dados binários para obter ajuda com a especificação da definição de campo e algoritmos de pesquisa vetorial para dados binários.
Collection(Edm.Single) Float32 Ponto flutuante de 32 bits. Disponível em Criar ou Atualizar Índice. Tipo de dados padrão nas ferramentas da Microsoft que criam campos de vetor em seu nome. Atinge um equilíbrio entre precisão e eficiência. A maioria dos modelos de incorporação emite vetores como Float32.
Collection(Edm.Half) Float16 Ponto flutuante de 16 bits com precisão e intervalo inferiores. Disponível em Criar ou Atualizar Índice. Útil para cenários em que a memória e a eficiência computacional são críticas e onde sacrificar alguma precisão é aceitável. Muitas vezes, leva a tempos de consulta mais rápidos e volume de memória reduzido em comparação com o Float32, embora com precisão ligeiramente reduzida. Você pode atribuir um Float16 tipo a incorporações de índice Float32 como Float16. Você também pode usar Float16 para incorporar modelos ou processos de quantização personalizados que emitem Float16 nativamente.
Collection(Edm.Int16) Int16 Inteiro com sinal de 16 bits. Disponível em Criar ou Atualizar Índice. Oferece consumo de memória reduzido em comparação com métodos Float32 de quantização de alta precisão, mantendo precisão suficiente para muitos aplicativos. Adequado para casos em que a eficiência de memória é importante. Requer que você tenha uma quantização personalizada que gere vetores como Int16.
Collection(Edm.SByte) Int8 Inteiro com sinal de 8 bits. Disponível em Criar ou Atualizar Índice. Fornece ganhos significativos de memória e eficiência computacional em comparação com Float32 ou Float16. No entanto, provavelmente requer técnicas complementares (como quantização e sobrecarga) para compensar a redução da precisão e do recall adequadamente. Requer que você tenha uma quantização personalizada que gere vetores como Int8.

Tipos de dados do EDM para campos não vetores

Tipo de dado Descrição
Edm.String Dados de texto.
Edm.Boolean Contém valores verdadeiros/falsos.
Edm.Int32 Valores inteiros de 32 bits.
Edm.Int64 Valores inteiros de 64 bits.
Edm.Double Valores de ponto flutuante IEEE 754 de precisão dupla.
Edm.DateTimeOffset Valores de data e hora representados no formato OData V4: yyyy-MM-ddTHH:mm:ss.fffZ ou yyyy-MM-ddTHH:mm:ss.fff[+|-]HH:mm. A precisão dos DateTimeOffset campos é limitada a milissegundos. Se você carregar DateTimeOffset valores com precisão de submilissegundos, o valor retornado será arredondado para milissegundos (por exemplo, 2024-04-15T10:30:09.7552052Z é retornado como 2024-04-15T10:30:09.7550000Z). Quando você carrega valores de DateTimeOffset com informações de fuso horário no índice, a Pesquisa de IA do Azure normaliza esses valores para UTC. Por exemplo, 2024-01-13T14:03:00-08:00 é armazenado como 2024-01-13T22:03:00Z. Se você precisar armazenar informações de fuso horário, adicione um campo extra ao índice.
Edm.GeographyPoint Um ponto que representa uma localização geográfica no globo. Para os corpos de solicitação e resposta, a representação de valores desse tipo segue o formato de tipo "Point" GeoJSON. Para URLs, o OData usa um formulário literal com base no padrão WKT. Um literal de ponto é construído como geography'POINT(lon lat)'.
Edm.ComplexType Objetos cujas propriedades são mapeadas para subcampos que podem ser de qualquer outro tipo de dados com suporte. Esse tipo permite a indexação de dados hierárquicos estruturados, como JSON. Os objetos em um campo de tipo Edm.ComplexType podem conter objetos aninhados, mas o nível de aninhamento é limitado. Os limites são descritos em Limites de serviço.
Collection(Edm.String) Uma lista de cadeias de caracteres.
Collection(Edm.Boolean) Uma lista de valores boolianos.
Collection(Edm.Int32) Uma lista de valores inteiros de 32 bits.
Collection(Edm.Int64) Uma lista de valores inteiros de 64 bits.
Collection(Edm.Double) Uma lista de valores numéricos de precisão dupla.
Collection(Edm.DateTimeOffset) Uma lista de valores de data e hora.
Collection(Edm.GeographyPoint) Uma lista de pontos que representam localizações geográficas.
Collection(Edm.ComplexType) Uma lista de objetos do tipo Edm.ComplexType. Há um limite para o número máximo de elementos em todas as coleções de tipo Edm.ComplexType em um documento. Consulte Limites de serviço para obter detalhes.

Todos os tipos acima são anuláveis, exceto para coleções de tipos primitivos e complexos, por exemplo, Collection(Edm.String). Campos que permitem valor nulo podem ser definidos explicitamente como nulos. Eles são automaticamente definidos como nulos quando omitidos de um documento carregado em um índice do Azure AI Search. Os campos de coleção são definidos automaticamente como vazios ([] em JSON) quando são omitidos de um documento. Além disso, não é possível armazenar um valor nulo em um campo de coleção.

Ao contrário de coleções complexas, não há limite superior especificamente para o número de itens em uma coleção de tipos primitivos, mas o limite superior de 16 MB no tamanho da carga se aplica a todas as partes dos documentos, incluindo coleções.

Tipo de dados geoespaciais usado em expressões de filtro

No Azure AI Search, a pesquisa geoespacial é expressa como um filtro.

Edm.GeographyPolygon é um polígono que representa uma região geográfica no globo. Embora esse tipo não possa ser usado em campos de documento, ele pode ser usado como um argumento para a geo.intersects função. A forma literal para URLs no OData é baseada nos padrões de acesso a recursos simples do WKT (Well-known text) e do OGC. Um literal de polígono é construído como geography'POLYGON((lon lat, lon lat, ...)'.

Importante

Os pontos em um polígono devem estar no sentido anti-horário. Os pontos em um polígono são interpretados na ordem anti-horário, em relação ao interior do polígono. Por exemplo, um polígono fechado de 4 pontos ao redor de Londres seria -0,3°W 51,6°N [canto superior esquerdo] , -0,3°W 51,4°N [inferior esquerdo], 0,1°E 51,4°N [inferior direito], 0,1°E 51,6°N [canto superior direito], -0,3°W 51,6°N [ponto de partida].

Consulte também