Usar ai.classify com pySpark

A ai.classify função usa IA generativa para categorizar o texto de entrada de acordo com os rótulos personalizados escolhidos, com uma única linha de código.

Observação

Este artigo aborda o uso de ai.classify com o PySpark. Para usar ai.classify com pandas, consulte este artigo.
Consulte outras funções de IA neste artigo de visão geral.
Saiba como personalizar a configuração das funções de IA.

Visão geral

A ai.classify função está disponível para DataFrames do Spark. Você deve especificar o nome de uma coluna de entrada existente como um parâmetro, juntamente com uma lista de rótulos de classificação.

A função retorna um novo DataFrame com rótulos que correspondem a cada linha de texto de entrada, armazenada em uma coluna de saída.

Sintaxe

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parâmetros

Nome	Description
`labels` Obrigatório	Uma matriz de cadeias de caracteres que representa o conjunto de rótulos de classificação a serem correspondentes aos valores de texto na coluna de entrada.
`input_col` Obrigatório	Uma cadeia de caracteres que contém o nome de uma coluna existente com valores de texto de entrada a serem classificados de acordo com os rótulos personalizados.
`output_col` Opcional	Uma cadeia de caracteres que contém o nome de uma nova coluna em que você deseja armazenar um rótulo de classificação para cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de saída.
`error_col` Opcional	Uma cadeia de caracteres que contém o nome de uma nova coluna. A nova coluna armazena todos os erros openai resultantes do processamento de cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de erro. Se não houver erros para uma linha de entrada, o valor nesta coluna será `null`.

Devoluções

A função retorna um DataFrame do Spark que inclui uma nova coluna que contém rótulos de classificação que correspondem a cada linha de texto de entrada. Se um valor de texto não puder ser classificado, o rótulo correspondente será null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Esta célula de código de exemplo fornece a seguinte saída:

Use ai.classify com pandas.
Detectar sentimento com ai.analyze_sentiment.
Gerar inserções de vetor com ai.inbed.
Extraia entidades com ai_extract.
Corrija a gramática com ai.fix_grammar.
Responda aos prompts de usuário personalizados com ai.generate_response.
Calcule a similaridade com ai.similaridade.
Resumir texto com ai.summarize.
Traduzir texto com ai.translate.
Saiba mais sobre o conjunto completo de funções de IA.
Personalize a configuração das funções de IA.
Perdemos um recurso de que você precisa? Sugira-o no fórum de Ideias do Fabric.

Comentários

Esta página foi útil?

Last updated on 2025-11-13