Udostępnij przez


Używanie biblioteki ai.classify z rozwiązaniem PySpark

Funkcja ai.classify używa generowania sztucznej inteligencji do kategoryzowania tekstu wejściowego zgodnie z wybranymi etykietami niestandardowymi z jednym wierszem kodu.

Uwaga / Notatka

Przegląd

Funkcja ai.classify jest dostępna dla ramek danych platformy Spark. Musisz określić nazwę istniejącej kolumny wejściowej jako parametr wraz z listą etykiet klasyfikacji.

Funkcja zwraca nową ramkę danych z etykietami, które pasują do każdego wiersza tekstu wejściowego przechowywanego w kolumnie wyjściowej.

Składnia

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametry

Name Description
labels
Required
Tablicaciągów reprezentujących zestaw etykiet klasyfikacji, które mają być zgodne z wartościami tekstowymi w kolumnie wejściowej.
input_col
Required
Ciąg zawierający nazwę istniejącej kolumny z wartościami tekstowymi wejściowymi, które mają być klasyfikowane zgodnie z etykietami niestandardowymi.
output_col
Opcjonalnie
Ciąg zawierający nazwę nowej kolumny, w której chcesz przechowywać etykietę klasyfikacji dla każdego wejściowego wiersza tekstu. Jeśli nie ustawisz tego parametru, dla kolumny wyjściowej zostanie wygenerowana domyślna nazwa.
error_col
Opcjonalnie
Ciąg zawierający nazwę nowej kolumny. Nowa kolumna przechowuje wszelkie błędy interfejsu OpenAI, które wynikają z przetwarzania każdego wiersza tekstu wejściowego. Jeśli nie ustawisz tego parametru, zostanie wygenerowana domyślna nazwa kolumny błędu. Jeśli nie ma błędów dla wiersza danych wejściowych, wartość w tej kolumnie jest null.

Zwraca

Funkcja zwraca ramkę danych platformy Spark zawierającą nową kolumnę zawierającą etykiety klasyfikacji pasujące do każdego wejściowego wiersza tekstu. Jeśli nie można sklasyfikować wartości tekstowej, odpowiednia etykieta jest null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Ta przykładowa komórka kodu udostępnia następujące dane wyjściowe:

Zrzut ekranu przedstawiający ramkę danych z kolumnami