Udostępnij przez


Używanie pliku ai.summarize z rozwiązaniem PySpark

Funkcja ai.summarize używa generatywnej sztucznej inteligencji do tworzenia podsumowań tekstu wejściowego przy użyciu pojedynczego wiersza kodu. Funkcja może podsumowywać wartości z jednej kolumny ramki danych lub wartości we wszystkich kolumnach.

Uwaga / Notatka

Przegląd

Funkcja ai.summarize jest również dostępna dla Spark DataFrames. Jeśli określisz nazwę istniejącej kolumny wejściowej jako parametr, funkcja podsumowuje każdą wartość tylko z tej kolumny. W przeciwnym razie funkcja podsumowuje wartości we wszystkich kolumnach ramki danych, wiersz po wierszu.

Funkcja zwraca nową ramkę danych z podsumowaniami dla każdego wiersza tekstu wejściowego z jednej kolumny lub we wszystkich kolumnach przechowywanych w kolumnie wyjściowej.

Składnia

df.ai.summarize(input_col="text", output_col="summaries")

Parametry

Name Description
input_col
Opcjonalnie
Ciąg zawierający nazwę istniejącej kolumny z wartościami tekstowymi wejściowymi do podsumowania. Jeśli nie ustawisz tego parametru, funkcja podsumowuje wartości we wszystkich kolumnach w ramce danych, a nie wartości z określonej kolumny.
instructions
Opcjonalnie
Ciąg zawierający więcej kontekstu dla modelu sztucznej inteligencji, jak określenie długości danych wyjściowych, tonu czy innych parametrów. Bardziej precyzyjne instrukcje przyniosą lepsze wyniki.
error_col
Opcjonalnie
Ciąg zawierający nazwę nowej kolumny do przechowywania wszelkich błędów OpenAI, które wynikają z przetwarzania każdego wejściowego wiersza tekstu. Jeśli nie ustawisz tego parametru, domyślna nazwa zostanie wygenerowana dla kolumny błędu. Jeśli wiersz wejściowy nie zawiera błędów, wartość w tej kolumnie jest null.
output_col
Opcjonalnie
Ciąg zawierający nazwę nowej kolumny do przechowywania podsumowań dla każdego wejściowego wiersza tekstu. Jeśli nie ustawisz tego parametru, domyślna nazwa zostanie wygenerowana dla kolumny wyjściowej.

Zwraca

Funkcja zwraca ramkę danych platformy Spark zawierającą nową kolumnę zawierającą podsumowany tekst dla każdego wiersza tekstu wejściowego. Jeśli tekst wejściowy jest null, wynik jest null. Jeśli nie określono żadnej kolumny wejściowej, funkcja podsumowuje wartości we wszystkich kolumnach w ramce danych.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Ta przykładowa komórka kodu udostępnia następujące dane wyjściowe:

Zrzut ekranu przedstawiający ramkę danych. Kolumna