PySpark와 함께 ai.embed 사용

이 함수는 ai.embed 생성 AI를 사용하여 텍스트를 벡터 포함으로 변환합니다. 이러한 벡터를 통해 AI는 텍스트 간의 관계를 이해할 수 있으므로 정확한 표현이 아닌 의미에 따라 콘텐츠를 검색, 그룹화 및 비교할 수 있습니다. 한 줄의 코드를 사용하여 DataFrame의 열에서 벡터 포함을 생성할 수 있습니다.

비고

이 문서에서는 PySpark와 함께 ai.embed 를 사용하는 방법에 대해 설명합니다. pandas와 함께 ai.embed 를 사용하려면 이 문서를 참조하세요.
이 개요 문서에서 다른 AI 함수를 참조하세요.
AI 함수의 구성을 사용자 지정하는 방법을 알아봅니다.

개요

이 ai.embed 함수는 Spark DataFrames에 사용할 수 있습니다. 기존 입력 열의 이름을 매개 변수로 지정해야 합니다.

이 함수는 입력 텍스트의 각 행에 대한 임베딩을 출력 열에 포함하는 새 DataFrame을 반환합니다.

구문

df.ai.embed(input_col="col1", output_col="embed")

매개 변수

이름	Description
`input_col` 필수	임베딩을 계산하기 위해 입력 텍스트 값이 있는 기존 열의 이름을 포함하는 문자열입니다.
`output_col` 선택적	각 입력 텍스트 행에 대해 계산된 포함을 저장할 새 열의 이름을 포함하는 문자열 입니다. 이 매개 변수를 설정하지 않으면 출력 열에 대한 기본 이름이 생성됩니다.
`error_col` 선택적	각 입력 텍스트 행을 처리하여 발생하는 OpenAI 오류를 저장하는 새 열의 이름을 포함하는 문자열. 이 매개 변수를 설정하지 않으면 오류 열에 대한 기본 이름이 생성됩니다. 입력 행에 오류가 없으면 이 열에 `null` 값이 있습니다.

반환

함수는 각 입력 텍스트 행에 대해 생성된 포함을 포함하는 새 열을 포함하는 Spark DataFrame 을 반환합니다. 임베딩은 [pyspark.ml.linalg.DenseVector] 유형입니다.https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). DenseVector의 요소 수는 AI 함수에서 구성할 수 있는 포함 모델의 차원에 따라 달라집니다.

예제

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

이 예제 코드 셀은 다음과 같은 출력을 제공합니다.

pandas와 함께 ai.embed를 사용합니다.
ai.analyze_sentiment 사용하여 감정을 감지합니다.
ai.classify를 사용하여 텍스트를 분류합니다.
ai_extract 사용하여 엔터티를 추출합니다.
ai.fix_grammar 사용하여 문법을 수정합니다.
ai.generate_response 사용하여 사용자 지정 사용자 프롬프트에 응답합니다.
ai.similarity를 사용하여 유사성을 계산합니다.
ai.summarize를 사용하여 텍스트를 요약합니다.
ai.translate를 사용하여 텍스트를 번역합니다.
전체 AI 함수 집합에 대해 자세히 알아봅니다.
AI 함수의 구성을 사용자 지정합니다.
필요한 기능이 누락되었나요? 패브릭 아이디어 포럼에 의견을 남겨보세요.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2025-11-21

다음을 통해 공유

PySpark와 함께 ai.embed 사용

개요

구문

매개 변수

반환

예제

관련 콘텐츠

피드백

추가 리소스