다음을 통해 공유


PySpark에서 ai.classify 사용

이 함수는 ai.classify 생성 AI를 사용하여 사용자가 선택한 사용자 지정 레이블에 따라 한 줄의 코드로 입력 텍스트를 분류합니다.

비고

개요

ai.classify 함수는 Spark DataFrames에 사용할 수 있습니다. 분류 레이블 목록과 함께 기존 입력 열의 이름을 매개 변수로 지정해야 합니다.

이 함수는 출력 열에 저장된 입력 텍스트의 각 행과 일치하는 레이블이 있는 새 DataFrame을 반환합니다.

구문

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

매개 변수

이름 Description
labels
필수
입력 열의 텍스트 값과 일치시킬 분류 레이블 집합을 나타내는 문자열배열입니다.
input_col
필수
사용자 지정 레이블에 따라 분류할 입력 텍스트 값이 있는 기존 열의 이름을 포함하는 문자열 입니다.
output_col
선택적
각 입력 텍스트 행에 대한 분류 레이블을 저장하려는 새 열의 이름을 포함하는 문자열 입니다. 이 매개 변수를 설정하지 않으면 출력 열에 대한 기본 이름이 생성됩니다.
error_col
선택적
새 열의 이름을 포함하는 문자열. 새 열은 입력 텍스트의 각 행을 처리하여 발생하는 OpenAI 오류를 저장합니다. 이 매개 변수를 설정하지 않으면 오류 열에 대한 기본 이름이 생성됩니다. 입력 행에 오류가 없으면 이 열의 값이 null.

반환

이 함수는 각 입력 텍스트 행과 일치하는 분류 레이블이 포함된 새 열을 포함하는 Spark DataFrame 을 반환합니다. 텍스트 값을 분류할 수 없는 경우 해당 레이블은 null.

예제

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

이 예제 코드 셀은 다음과 같은 출력을 제공합니다.

'descriptions' 및 'category' 열이 있는 데이터 프레임의 스크린샷 '범주' 열에는 각 설명의 범주 이름이 나열됩니다.