Usar ai.inbed com pySpark

A ai.embed função usa IA generativa para converter texto em inserções de vetor. Esses vetores permitem que a IA entenda as relações entre textos, para que você possa pesquisar, agrupar e comparar conteúdo com base no significado em vez da redação exata. Com uma única linha de código, você pode gerar inserções de vetor de uma coluna em um DataFrame.

Observação

Este artigo aborda o uso de ai.inbed com o PySpark. Para usar ai.inbed com pandas, consulte este artigo.
Consulte outras funções de IA neste artigo de visão geral.
Saiba como personalizar a configuração das funções de IA.

Visão geral

A ai.embed função está disponível para DataFrames do Spark. Você deve especificar o nome de uma coluna de entrada existente como um parâmetro.

A função retorna um novo DataFrame que inclui inserções para cada linha de texto de entrada, em uma coluna de saída.

Sintaxe

df.ai.embed(input_col="col1", output_col="embed")

Parâmetros

Nome	Description
`input_col` Obrigatório	Uma string que contém o nome de uma coluna existente com valores de texto de entrada a serem usados para o cálculo de incorporações.
`output_col` Opcional	Uma string que contém o nome de uma nova coluna para armazenar embeddings calculados para cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de saída.
`error_col` Opcional	Uma cadeia de caracteres que contém o nome de uma nova coluna que armazena quaisquer erros OpenAI resultantes do processamento de cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de erro. Se uma linha de entrada não tiver erros, essa coluna terá um valor `null`.

Devoluções

A função retorna um DataFrame do Spark que inclui uma nova coluna que contém inserções geradas para cada linha de texto de entrada. As inserções são do tipo [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). O número de elementos no DenseVector depende das dimensões do modelo de inserção, que são configuráveis em funções de IA

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Esta célula de código de exemplo fornece a seguinte saída:

Use ai.inbed com pandas.
Detectar sentimento com ai.analyze_sentiment.
Categorizar texto com ai.classify.
Extraia entidades com ai_extract.
Corrija a gramática com ai.fix_grammar.
Responda aos prompts de usuário personalizados com ai.generate_response.
Calcule a similaridade com ai.similaridade.
Resumir texto com ai.summarize.
Traduzir texto com ai.translate.
Saiba mais sobre o conjunto completo de funções de IA.
Personalize a configuração das funções de IA.
Perdemos um recurso de que você precisa? Sugira-o no fórum de Ideias do Fabric.

Comentários

Esta página foi útil?

Last updated on 2025-11-21