Używanie pliku ai.summarize z rozwiązaniem PySpark

Funkcja ai.summarize używa generatywnej sztucznej inteligencji do tworzenia podsumowań tekstu wejściowego przy użyciu pojedynczego wiersza kodu. Funkcja może podsumowywać wartości z jednej kolumny ramki danych lub wartości we wszystkich kolumnach.

Uwaga / Notatka

W tym artykule opisano używanie narzędzia ai.summarize z rozwiązaniem PySpark. Aby użyć ai.summarize z biblioteką pandas, zobacz ten artykuł.
Zobacz inne funkcje sztucznej inteligencji w tym artykule przeglądu.
Dowiedz się, jak dostosować konfigurację funkcji sztucznej inteligencji.

Przegląd

Funkcja ai.summarize jest również dostępna dla Spark DataFrames. Jeśli określisz nazwę istniejącej kolumny wejściowej jako parametr, funkcja podsumowuje każdą wartość tylko z tej kolumny. W przeciwnym razie funkcja podsumowuje wartości we wszystkich kolumnach ramki danych, wiersz po wierszu.

Funkcja zwraca nową ramkę danych z podsumowaniami dla każdego wiersza tekstu wejściowego z jednej kolumny lub we wszystkich kolumnach przechowywanych w kolumnie wyjściowej.

Składnia

Podsumowywanie wartości z jednej kolumny
Podsumowywanie wartości we wszystkich kolumnach

df.ai.summarize(input_col="text", output_col="summaries")

df.ai.summarize(output_col="summaries")

Parametry

Name	Description
`input_col` Opcjonalnie	Ciąg zawierający nazwę istniejącej kolumny z wartościami tekstowymi wejściowymi do podsumowania. Jeśli nie ustawisz tego parametru, funkcja podsumowuje wartości we wszystkich kolumnach w ramce danych, a nie wartości z określonej kolumny.
`instructions` Opcjonalnie	Ciąg zawierający więcej kontekstu dla modelu sztucznej inteligencji, jak określenie długości danych wyjściowych, tonu czy innych parametrów. Bardziej precyzyjne instrukcje przyniosą lepsze wyniki.
`error_col` Opcjonalnie	Ciąg zawierający nazwę nowej kolumny do przechowywania wszelkich błędów OpenAI, które wynikają z przetwarzania każdego wejściowego wiersza tekstu. Jeśli nie ustawisz tego parametru, domyślna nazwa zostanie wygenerowana dla kolumny błędu. Jeśli wiersz wejściowy nie zawiera błędów, wartość w tej kolumnie jest `null`.
`output_col` Opcjonalnie	Ciąg zawierający nazwę nowej kolumny do przechowywania podsumowań dla każdego wejściowego wiersza tekstu. Jeśli nie ustawisz tego parametru, domyślna nazwa zostanie wygenerowana dla kolumny wyjściowej.

Zwraca

Funkcja zwraca ramkę danych platformy Spark zawierającą nową kolumnę zawierającą podsumowany tekst dla każdego wiersza tekstu wejściowego. Jeśli tekst wejściowy jest null, wynik jest null. Jeśli nie określono żadnej kolumny wejściowej, funkcja podsumowuje wartości we wszystkich kolumnach w ramce danych.

Example

Podsumowywanie wartości z jednej kolumny
Podsumowywanie wartości we wszystkich kolumnach

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Ta przykładowa komórka kodu udostępnia następujące dane wyjściowe:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(output_col="summaries")
display(summaries)

Ta przykładowa komórka kodu udostępnia następujące dane wyjściowe:

Użyj pliku ai.summarize z biblioteką pandas.
Wykrywaj sentyment za pomocą ai.analyze_sentiment.
Kategoryzuj tekst za pomocą ai.classify.
Generowanie osadzania wektorów za pomocą pliku ai.embed.
Wyodrębnij jednostki przy użyciu ai_extract.
Popraw gramatykę za pomocą ai.fix_grammar.
Odpowiadaj na niestandardowe monity użytkownika przy użyciu ai.generate_response.
Oblicz podobieństwo za pomocą funkcji ai.similarity.
Tłumaczenie tekstu za pomocą pliku ai.translate.
Dowiedz się więcej o pełnym zestawie funkcji sztucznej inteligencji.
Dostosowywanie konfiguracji funkcji sztucznej inteligencji.
Czy brakowało nam potrzebnej funkcji? Zaproponuj to na forum Fabric Ideas.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-21