다음을 통해 공유


PySpark와 함께 ai.embed 사용

이 함수는 ai.embed 생성 AI를 사용하여 텍스트를 벡터 포함으로 변환합니다. 이러한 벡터를 통해 AI는 텍스트 간의 관계를 이해할 수 있으므로 정확한 표현이 아닌 의미에 따라 콘텐츠를 검색, 그룹화 및 비교할 수 있습니다. 한 줄의 코드를 사용하여 DataFrame의 열에서 벡터 포함을 생성할 수 있습니다.

비고

개요

ai.embed 함수는 Spark DataFrames에 사용할 수 있습니다. 기존 입력 열의 이름을 매개 변수로 지정해야 합니다.

이 함수는 입력 텍스트의 각 행에 대한 임베딩을 출력 열에 포함하는 새 DataFrame을 반환합니다.

구문

df.ai.embed(input_col="col1", output_col="embed")

매개 변수

이름 Description
input_col
필수
임베딩을 계산하기 위해 입력 텍스트 값이 있는 기존 열의 이름을 포함하는 문자열입니다.
output_col
선택적
각 입력 텍스트 행에 대해 계산된 포함을 저장할 새 열의 이름을 포함하는 문자열 입니다. 이 매개 변수를 설정하지 않으면 출력 열에 대한 기본 이름이 생성됩니다.
error_col
선택적
각 입력 텍스트 행을 처리하여 발생하는 OpenAI 오류를 저장하는 새 열의 이름을 포함하는 문자열. 이 매개 변수를 설정하지 않으면 오류 열에 대한 기본 이름이 생성됩니다. 입력 행에 오류가 없으면 이 열에 null 값이 있습니다.

반환

함수는 각 입력 텍스트 행에 대해 생성된 포함을 포함하는 새 열을 포함하는 Spark DataFrame 을 반환합니다. 임베딩은 [pyspark.ml.linalg.DenseVector] 유형입니다.https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). DenseVector의 요소 수는 AI 함수에서 구성할 수 있는 포함 모델의 차원에 따라 달라집니다.

예제

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

이 예제 코드 셀은 다음과 같은 출력을 제공합니다.

'descriptions' 및 'embed' 열이 있는 데이터 프레임의 스크린샷. 'embed' 열에는 설명에 대한 임베딩이 포함되어 있습니다.