Compartilhar via


Usar ai.classify com pySpark

A ai.classify função usa IA generativa para categorizar o texto de entrada de acordo com os rótulos personalizados escolhidos, com uma única linha de código.

Observação

Visão geral

A ai.classify função está disponível para DataFrames do Spark. Você deve especificar o nome de uma coluna de entrada existente como um parâmetro, juntamente com uma lista de rótulos de classificação.

A função retorna um novo DataFrame com rótulos que correspondem a cada linha de texto de entrada, armazenada em uma coluna de saída.

Sintaxe

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parâmetros

Nome Description
labels
Obrigatório
Uma matriz de cadeias de caracteres que representa o conjunto de rótulos de classificação a serem correspondentes aos valores de texto na coluna de entrada.
input_col
Obrigatório
Uma cadeia de caracteres que contém o nome de uma coluna existente com valores de texto de entrada a serem classificados de acordo com os rótulos personalizados.
output_col
Opcional
Uma cadeia de caracteres que contém o nome de uma nova coluna em que você deseja armazenar um rótulo de classificação para cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de saída.
error_col
Opcional
Uma cadeia de caracteres que contém o nome de uma nova coluna. A nova coluna armazena todos os erros openai resultantes do processamento de cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de erro. Se não houver erros para uma linha de entrada, o valor nesta coluna será null.

Devoluções

A função retorna um DataFrame do Spark que inclui uma nova coluna que contém rótulos de classificação que correspondem a cada linha de texto de entrada. Se um valor de texto não puder ser classificado, o rótulo correspondente será null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Esta célula de código de exemplo fornece a seguinte saída:

Captura de tela de um quadro de dados com colunas