IndexingParametersConfiguration interface
Um dicionário de propriedades de configuração específicas do indexador. Cada nome é o nome de uma propriedade específica. Cada valor deve ser de um tipo primitivo.
Propriedades
| allow |
Se verdadeiro, criará um caminho //document//file_data que é um objeto que representa os dados do arquivo original baixados da fonte de dados de blob. Isso permite que você passe os dados do arquivo original para uma habilidade personalizada para processamento dentro do pipeline de enriquecimento ou para a habilidade Extração de Documentos. |
| data |
Especifica os dados a serem extraídos do armazenamento de blob do Azure e informa ao indexador quais dados extrair do conteúdo da imagem quando "imageAction" é definido como um valor diferente de "none". Isso se aplica ao conteúdo de imagem incorporado em um .PDF ou outro aplicativo, ou a arquivos de imagem, como .jpg e .png, em blobs do Azure. |
| delimited |
Para blobs CSV, especifica o delimitador de caracteres únicos de fim de linha para arquivos CSV em que cada linha inicia um novo documento (por exemplo, "|"). |
| delimited |
Para blobs CSV, especifica uma lista delimitada por vírgulas de cabeçalhos de coluna, útil para mapear campos de origem para campos de destino em um índice. |
| document |
Para matrizes JSON, dado um documento estruturado ou semiestruturado, você pode especificar um caminho para a matriz usando essa propriedade. |
| excluded |
Lista delimitada por vírgulas de extensões de nome de arquivo a serem ignoradas ao processar a partir do armazenamento de blobs do Azure. Por exemplo, você pode excluir ".png, .mp4" para ignorar esses arquivos durante a indexação. |
| execution |
Especifica o ambiente no qual o indexador deve ser executado. |
| fail |
Para blobs do Azure, defina como false se quiser continuar a indexação se um documento falhar na indexação. |
| fail |
Para blobs do Azure, defina como false se quiser continuar a indexação quando um tipo de conteúdo sem suporte for encontrado e não souber todos os tipos de conteúdo (extensões de arquivo) com antecedência. |
| first |
Para blobs CSV, indica que a primeira linha (não em branco) de cada blob contém cabeçalhos. |
| image |
Determina como processar imagens incorporadas e arquivos de imagem no armazenamento de blobs do Azure. Definir a configuração "imageAction" para qualquer valor diferente de "none" requer que um conjunto de habilidades também seja anexado a esse indexador. |
| indexed |
Lista delimitada por vírgulas de extensões de nome de arquivo a serem selecionadas ao processar a partir do armazenamento de blobs do Azure. Por exemplo, você pode focar a indexação em arquivos de aplicativo específicos ".docx, .pptx, .msg" para incluir especificamente esses tipos de arquivo. |
| index |
Para blobs do Azure, defina essa propriedade como true para ainda indexar metadados de armazenamento para conteúdo de blob que é muito grande para processar. Blobs superdimensionados são tratados como erros por padrão. Para obter limites no tamanho do blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
| parsing |
Representa o modo de análise para indexação de uma fonte de dados de blob do Azure. |
| pdf |
Determina o algoritmo para extração de texto de arquivos PDF no armazenamento de blobs do Azure. |
| query |
Aumenta o tempo limite além do padrão de 5 minutos para fontes de dados do banco de dados SQL do Azure, especificadas no formato "hh:mm:ss". |
Detalhes de Propriedade
allowSkillsetToReadFileData
Se verdadeiro, criará um caminho //document//file_data que é um objeto que representa os dados do arquivo original baixados da fonte de dados de blob. Isso permite que você passe os dados do arquivo original para uma habilidade personalizada para processamento dentro do pipeline de enriquecimento ou para a habilidade Extração de Documentos.
allowSkillsetToReadFileData?: boolean
Valor de Propriedade
boolean
dataToExtract
Especifica os dados a serem extraídos do armazenamento de blob do Azure e informa ao indexador quais dados extrair do conteúdo da imagem quando "imageAction" é definido como um valor diferente de "none". Isso se aplica ao conteúdo de imagem incorporado em um .PDF ou outro aplicativo, ou a arquivos de imagem, como .jpg e .png, em blobs do Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Valor de Propriedade
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Para blobs CSV, especifica o delimitador de caracteres únicos de fim de linha para arquivos CSV em que cada linha inicia um novo documento (por exemplo, "|").
delimitedTextDelimiter?: string
Valor de Propriedade
string
delimitedTextHeaders
Para blobs CSV, especifica uma lista delimitada por vírgulas de cabeçalhos de coluna, útil para mapear campos de origem para campos de destino em um índice.
delimitedTextHeaders?: string
Valor de Propriedade
string
documentRoot
Para matrizes JSON, dado um documento estruturado ou semiestruturado, você pode especificar um caminho para a matriz usando essa propriedade.
documentRoot?: string
Valor de Propriedade
string
excludedFileNameExtensions
Lista delimitada por vírgulas de extensões de nome de arquivo a serem ignoradas ao processar a partir do armazenamento de blobs do Azure. Por exemplo, você pode excluir ".png, .mp4" para ignorar esses arquivos durante a indexação.
excludedFileNameExtensions?: string
Valor de Propriedade
string
executionEnvironment
Especifica o ambiente no qual o indexador deve ser executado.
executionEnvironment?: "standard" | "private"
Valor de Propriedade
"standard" | "private"
failOnUnprocessableDocument
Para blobs do Azure, defina como false se quiser continuar a indexação se um documento falhar na indexação.
failOnUnprocessableDocument?: boolean
Valor de Propriedade
boolean
failOnUnsupportedContentType
Para blobs do Azure, defina como false se quiser continuar a indexação quando um tipo de conteúdo sem suporte for encontrado e não souber todos os tipos de conteúdo (extensões de arquivo) com antecedência.
failOnUnsupportedContentType?: boolean
Valor de Propriedade
boolean
firstLineContainsHeaders
Para blobs CSV, indica que a primeira linha (não em branco) de cada blob contém cabeçalhos.
firstLineContainsHeaders?: boolean
Valor de Propriedade
boolean
imageAction
Determina como processar imagens incorporadas e arquivos de imagem no armazenamento de blobs do Azure. Definir a configuração "imageAction" para qualquer valor diferente de "none" requer que um conjunto de habilidades também seja anexado a esse indexador.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Valor de Propriedade
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Lista delimitada por vírgulas de extensões de nome de arquivo a serem selecionadas ao processar a partir do armazenamento de blobs do Azure. Por exemplo, você pode focar a indexação em arquivos de aplicativo específicos ".docx, .pptx, .msg" para incluir especificamente esses tipos de arquivo.
indexedFileNameExtensions?: string
Valor de Propriedade
string
indexStorageMetadataOnlyForOversizedDocuments
Para blobs do Azure, defina essa propriedade como true para ainda indexar metadados de armazenamento para conteúdo de blob que é muito grande para processar. Blobs superdimensionados são tratados como erros por padrão. Para obter limites no tamanho do blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Valor de Propriedade
boolean
parsingMode
Representa o modo de análise para indexação de uma fonte de dados de blob do Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Valor de Propriedade
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Determina o algoritmo para extração de texto de arquivos PDF no armazenamento de blobs do Azure.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Valor de Propriedade
"none" | "detectAngles"
queryTimeout
Aumenta o tempo limite além do padrão de 5 minutos para fontes de dados do banco de dados SQL do Azure, especificadas no formato "hh:mm:ss".
queryTimeout?: string
Valor de Propriedade
string