Use ai.classify com PySpark

A ai.classify função usa IA generativa para categorizar o texto de entrada de acordo com rótulos personalizados que você escolher, com uma única linha de código.

Observação

Este artigo aborda o uso do ai.classify com o PySpark. Para usar ai.classify com pandas, consulte este artigo.
Veja outras funções de IA neste artigo de visão geral.
Saiba como personalizar a configuração das funções de IA.

Visão geral

A ai.classify função está disponível para Spark DataFrames. Você deve especificar o nome de uma coluna de entrada existente como um parâmetro, juntamente com uma lista de rótulos de classificação.

A função retorna um novo DataFrame com rótulos que correspondem a cada linha de texto de entrada, armazenado em uma coluna de saída.

Sintaxe

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parâmetros

Nome	Description
`labels` Obrigatório	Uma matriz de cadeias de caracteres que representa o conjunto de rótulos de classificação para corresponder aos valores de texto na coluna de entrada.
`input_col` Obrigatório	Uma cadeia de caracteres que contém o nome de uma coluna existente com valores de texto de entrada para classificar de acordo com os rótulos personalizados.
`output_col` Opcional	Uma cadeia de caracteres que contém o nome de uma nova coluna onde você deseja armazenar um rótulo de classificação para cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de saída.
`error_col` Opcional	Uma cadeia de caracteres que contém o nome de uma nova coluna. A nova coluna armazena quaisquer erros OpenAI resultantes do processamento de cada linha de texto de entrada. Se você não definir esse parâmetro, um nome padrão será gerado para a coluna de erro. Se não houver erros para uma linha de entrada, o valor nesta coluna será `null`.

Devoluções

A função retorna um Spark DataFrame que inclui uma nova coluna que contém rótulos de classificação que correspondem a cada linha de texto de entrada. Se um valor de texto não puder ser classificado, o rótulo correspondente será null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Esta célula de código de exemplo fornece a seguinte saída:

Use ai.classify com pandas.
Detete sentimentos com ai.analyze_sentiment.
Gere embeddings vetoriais com ai.embed.
Extraia entidades com ai_extract.
Corrija a gramática com ai.fix_grammar.
Responda a solicitações personalizadas do usuário com ai.generate_response.
Calcule a semelhança com ai.similarity.
Resuma o texto com ai.summarize.
Traduzir texto com ai.translate.
Saiba mais sobre o conjunto completo de funções de IA.
Personalize a configuração das funções de IA.
Perdemos um recurso que você precisa? Sugira a sua ideia no fórum Fabric Ideas.

Feedback

Esta página foi útil?

Last updated on 2025-11-13