Compartilhar via


Usar ai.inbed com pySpark

A ai.embed função usa IA generativa para converter texto em inserções de vetor. Esses vetores permitem que a IA entenda as relações entre textos, para que você possa pesquisar, agrupar e comparar conteúdo com base no significado em vez da redação exata. Com uma única linha de código, você pode gerar inserções de vetor de uma coluna em um DataFrame.

Observação

Visão geral

A ai.embed função está disponível para DataFrames do Spark. Você deve especificar o nome de uma coluna de entrada existente como um parâmetro.

A função retorna um novo DataFrame que inclui inserções para cada linha de texto de entrada, em uma coluna de saída.

Sintaxe

df.ai.embed(input_col="col1", output_col="embed")

Parâmetros

Nome Description
input_col
Obrigatório
Uma string que contém o nome de uma coluna existente com valores de texto de entrada a serem usados para o cálculo de incorporações.
output_col
Opcional
Uma string que contém o nome de uma nova coluna para armazenar embeddings calculados para cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de saída.
error_col
Opcional
Uma cadeia de caracteres que contém o nome de uma nova coluna que armazena quaisquer erros OpenAI resultantes do processamento de cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de erro. Se uma linha de entrada não tiver erros, essa coluna terá um valor null.

Devoluções

A função retorna um DataFrame do Spark que inclui uma nova coluna que contém inserções geradas para cada linha de texto de entrada. As inserções são do tipo [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). O número de elementos no DenseVector depende das dimensões do modelo de inserção, que são configuráveis em funções de IA

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Esta célula de código de exemplo fornece a seguinte saída:

Captura de tela de um quadro de dados com as colunas 'descriptions' e 'inserção'. A coluna 'inserção' contém inserções para as descrições.