Partilhar via


Use ai.classify com PySpark

A ai.classify função usa IA generativa para categorizar o texto de entrada de acordo com rótulos personalizados que você escolher, com uma única linha de código.

Observação

Visão geral

A ai.classify função está disponível para Spark DataFrames. Você deve especificar o nome de uma coluna de entrada existente como um parâmetro, juntamente com uma lista de rótulos de classificação.

A função retorna um novo DataFrame com rótulos que correspondem a cada linha de texto de entrada, armazenado em uma coluna de saída.

Sintaxe

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parâmetros

Nome Description
labels
Obrigatório
Uma matriz de cadeias de caracteres que representa o conjunto de rótulos de classificação para corresponder aos valores de texto na coluna de entrada.
input_col
Obrigatório
Uma cadeia de caracteres que contém o nome de uma coluna existente com valores de texto de entrada para classificar de acordo com os rótulos personalizados.
output_col
Opcional
Uma cadeia de caracteres que contém o nome de uma nova coluna onde você deseja armazenar um rótulo de classificação para cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de saída.
error_col
Opcional
Uma cadeia de caracteres que contém o nome de uma nova coluna. A nova coluna armazena quaisquer erros OpenAI resultantes do processamento de cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de erro. Se não houver erros para uma linha de entrada, o valor nesta coluna será null.

Devoluções

A função retorna um Spark DataFrame que inclui uma nova coluna que contém rótulos de classificação que correspondem a cada linha de texto de entrada. Se um valor de texto não puder ser classificado, o rótulo correspondente será null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Esta célula de código de exemplo fornece a seguinte saída:

Captura de ecrã de uma moldura de dados com colunas 'descrições' e 'categoria'. A coluna «categoria» indica o nome da categoria de cada descrição.