Freigeben über


Anwenden von KI auf Daten mithilfe von Azure Databricks AI-Funktionen

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel werden Azure Databricks AI-Funktionen und die unterstützten Funktionen beschrieben.

Was sind KI-Funktionen?

KI-Funktionen sind integrierte Funktionen, mit denen Sie KI wie Textübersetzung oder Stimmungsanalyse auf Ihre Daten anwenden können, die auf Databricks gespeichert sind. Sie können von überall aus auf Databricks ausgeführt werden, einschließlich Databricks SQL, Notizbücher, Lakeflow Spark Declarative Pipelines und Workflows.

KI-Funktionen sind einfach zu verwenden, schnell und skalierbar. Analysten können sie verwenden, um Datenintelligenz auf ihre proprietären Daten anzuwenden, während Data Scientists und Machine Learning-Techniker sie zum Erstellen von Batchpipelines auf Produktionsniveau verwenden können.

KI-Funktionen bieten aufgabenspezifische und allgemeine Funktionen.

  • Aufgabenspezifische Funktionen bieten allgemeine KI-Funktionen für Aufgaben wie das Zusammenfassen von Text und Übersetzung. Diese aufgabenspezifischen Funktionen werden von modernsten generativen KI-Modellen unterstützt, die von Databricks gehostet und verwaltet werden. Informationen zu unterstützten Funktionen und Modellen finden Sie unter Aufgabenspezifische KI-Funktionen .
  • ai_query ist eine allgemeine Funktion, mit der Sie jede Art von KI-Modell auf Ihre Daten anwenden können. Siehe Allgemeine Funktion: ai_query.

Aufgabenspezifische KI-Funktionen

Aufgabenspezifische Funktionen sind für eine bestimmte Aufgabe vorgesehen, sodass Sie Routineaktionen wie einfache Zusammenfassungen und schnelle Übersetzungen automatisieren können. Databricks empfiehlt diese Funktionen für die ersten Schritte, da sie ein hochmodernes generatives KI-Modell aufrufen, das von Databricks verwaltet wird und keine Anpassung erfordert.

Siehe Analysieren von Kundenrezensionen mithilfe von KI-Funktionen als Beispiel.

In der folgenden Tabelle sind unterstützte Funktionen und die aufgabe aufgeführt, die sie ausführen.

Funktion BESCHREIBUNG
ai_analyze_sentiment (Gefühlsanalyse) Durchführen einer Stimmungsanalyse für Eingabetext mithilfe eines hochmodernen generativen KI-Modells.
ai_classify Klassifizieren Sie den Eingabetext mithilfe eines hochmodernen generativen KI-Modells nach den von Ihnen bereitgestellten Kategorien.
ai_extract Extrahieren Sie Entitäten, die von Beschriftungen aus Text angegeben werden, mithilfe eines hochmodernen generativen KI-Modells.
Grammatik Fix Korrigieren Sie Grammatikfehler im Text mithilfe eines hochmodernen generativen KI-Modells.
Konfigurieren Sie den intelligenten Dienst für optimale Leistung. Beantworten Sie die vom Benutzer bereitgestellte Eingabeaufforderung mit einem hochmodernen generativen KI-Modell.
ai_mask Maskieren Sie angegebene Entitäten im Text mithilfe eines hochmodernen generativen KI-Modells.
ai_parse_document Extrahieren Sie strukturierte Inhalte aus unstrukturierten Dokumenten mithilfe eines hochmodernen generativen KI-Modells.
ai_similarity Vergleichen Sie zwei Zeichenfolgen und berechnen Sie die semantische Ähnlichkeitsbewertung mithilfe eines modernen generativen KI-Modells.
ai_summarize Generieren Sie eine Zusammenfassung von Text mithilfe von SQL und modernstem generativen KI-Modell.
ai_translate Übersetzen Sie Text in eine angegebene Zielsprache mithilfe eines hochmodernen generativen KI-Modells.
ai_forecast Prognosedaten bis zu einem angegebenen Horizont. Diese Tabellenwertfunktion wurde entwickelt, um Datenreihen in die Zukunft zu extrapolieren.
vector_search Suchen und Abfragen eines Mosaik-AI-Vektorsuchindex mit einem hochmodernen generativen KI-Modell.

Allgemeine Funktion: ai_query

Mit der ai_query() Funktion können Sie jedes KI-Modell auf Daten für generative KI- und klassische ML-Aufgaben anwenden, einschließlich Extrahieren von Informationen, Zusammenfassen von Inhalten, Identifizieren von Betrug und Prognose von Einnahmen. Informationen zu Syntaxdetails und Parametern finden Sie unter ai_query Funktion.

In der folgenden Tabelle sind die unterstützten Modelltypen, die zugehörigen Modelle sowie die Konfigurationsanforderungen für die Bereitstellung von Endpunkten für jedes Modell zusammengefasst.

Typ BESCHREIBUNG Unterstützte Modelle Anforderungen
Vorab bereitgestellte Modelle Diese Foundation-Modelle werden von Databricks gehostet und bieten vorkonfigurierte Endpunkte an, die Sie mithilfe von ai_queryAbfragen abfragen können. Siehe Unterstützte Foundation-Modelle bei Mosaic AI Model Serving, um zu erfahren, welche Modelle für jedes Modellbereitstellungsfeature und deren regionale Verfügbarkeit unterstützt werden. Diese Modelle werden unterstützt und für die ersten Schritte mit Batch-Ableitungen und Produktionsworkflows optimiert:
  • databricks-claude-haiku-4-5
  • databricks-claude-sonnet-4
  • databricks-gpt-oss-20b
  • databricks-gpt-oss-120b
  • databricks-gemma-3-12b
  • databricks-llama-4-maverick
  • databricks-meta-llama-3-3-70b-instruct
  • databricks-meta-llama-3-1-8b-instruct
  • databricks-gte-large-en

Andere von Databricks gehostete Modelle sind für die Verwendung mit AI-Funktionen verfügbar, werden jedoch nicht für Batchableitungs-Produktionsworkflows im großen Maßstab empfohlen. Diese anderen Modelle werden für die Echtzeit-Ableitung mithilfe von Foundation Model-APIs per Token zur Verfügung gestellt.
Databricks Runtime 15.4 LTS oder höher ist erforderlich, um diese Funktionalität zu verwenden. Erfordert keine Endpunktbereitstellung oder -konfiguration. Ihre Verwendung dieser Modelle unterliegt den anwendbaren Modellentwicklerlizenzen und -bedingungen sowie der Verfügbarkeit von AI-Funktionen.
Bringen Sie Ihr eigenes Modell mit Sie können eigene Modelle mit KI-Funktionen abrufen und abfragen. KI-Funktionen bieten Flexibilität, sodass Sie Abfragemodelle für Echtzeit-Ableitungs- oder Batch-Ableitungsszenarien abfragen können.

Verwenden von ai_query mit Foundationmodellen

Das folgende Beispiel veranschaulicht die Verwendung von ai_query anhand eines von Databricks gehosteten Foundation-Modells.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Beispielnotizbuch: Batchableitung und strukturierte Datenextraktion

Das folgende Beispielnotizbuch veranschaulicht, wie Sie mithilfe der einfachen strukturierten Datenextraktion ai_query rohe, unstrukturierte Daten in organisierte, verwendbare Informationen über automatisierte Extraktionstechniken transformieren. Dieses Notizbuch zeigt auch, wie Sie die Auswertung von Mosaik-KI-Agenten nutzen, um die Genauigkeit mithilfe von Boden-Wahrheitsdaten zu bewerten.

Batch-Inferenz und Notebook zur Extraktion strukturierter Daten

Notebook abrufen

Verwenden Sie ai_query mit herkömmlichen ML-Modellen

ai_query unterstützt herkömmliche ML-Modelle, einschließlich vollständig benutzerdefinierter Modelle. Diese Modelle müssen auf Model Serving-Endpunkten bereitgestellt werden. Informationen zu Syntaxdetails und Parametern finden Sie in der Funktion ai_query.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

Beispielnotizbuch: Batch-Inferenz mit BERT für die Erkennung benannter Entitäten

Das folgende Notizbuch zeigt ein herkömmliches ML-Modellbatch-Ableitungsbeispiel mit BERT.

Batch-Inferenz mithilfe von BERT für die Erkennung benannter Entitäten im Notizbuch

Notebook abrufen

Verwenden von KI-Funktionen in vorhandenen Python-Workflows

KI-Funktionen können einfach in vorhandene Python-Workflows integriert werden.

Im Folgenden wird die Ausgabe von ai_query in eine Ausgabetabelle geschrieben:


df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

Im Folgenden wird der zusammengefasste Text in eine Tabelle geschrieben:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

Verwenden von KI-Funktionen in Produktionsworkflows

Für die Ableitung großer Batchvorgänge können Sie aufgabenspezifische KI-Funktionen oder die allgemeine Funktion ai_query in Ihre Produktionsworkflows integrieren, z. B. Lakeflow Spark Declarative Pipelines, Databricks-Workflows und strukturiertes Streaming. Dies ermöglicht produktionsreife Verarbeitung in großem Maßstab. Beispiele und Details finden Sie unter Bereitstellen von Batch-Ableitungspipelines .

Überwachen des Fortschritts von KI-Funktionen

Um zu verstehen, wie viele Inferenzen abgeschlossen oder fehlgeschlagen sind und um Leistungsschwierigkeiten zu beheben, können Sie den Fortschritt von KI-Funktionen mithilfe der Abfrageprofilfunktion überwachen.

In Databricks Runtime 16.1 ML und höher aus dem SQL-Editor-Abfragefenster in Ihrem Arbeitsbereich:

  1. Wählen Sie den Link Ausführen--- unten im Fenster Rohergebnisse aus. Das Leistungsfenster wird rechts angezeigt.
  2. Klicken Sie auf "Abfrageprofil anzeigen ", um Leistungsdetails anzuzeigen.
  3. Klicken Sie auf KI-Abfrage , um Metriken für diese bestimmte Abfrage anzuzeigen, einschließlich der Anzahl der abgeschlossenen und fehlgeschlagenen Rückschlüsse und der Gesamtzeit, die die Anforderung zum Abschließen benötigt hat.

Überwachen des Fortschritts der KI-Funktion

Anzeigen von Kosten für AI-Funktionsworkloads

AI-Function-Kosten werden als Teil des MODEL_SERVING Produkts unter der BATCH_INFERENCE Angebotsart erfasst. Siehe Anzeigen der Kosten für Batchinference-Workloads für eine Beispielabfrage.

Hinweis

Für ai_parse_document Kosten werden im Rahmen des AI_FUNCTIONS Produkts erfasst. Siehe die Kostenanzeige für ai_parse_document Ausführungen bei einer Beispielabfrage.

Kosten für Batch-Inference-Workloads anzeigen

Die folgenden Beispiele zeigen, wie Batch-Inferenz-Workloads basierend auf Auftrag, Computing, SQL-Warehouses und Lakeflow Spark-Deklarative-Pipelines gefiltert werden.

Allgemeine Beispiele, wie Sie die Kosten für Ihre Batch-Inferenz-Workloads, die KI-Funktionen verwenden, anzeigen können, finden Sie unter Überwachung der Modellbetriebskosten.

Jobs

Die folgende Abfrage zeigt, welche Jobs für die Batch-Inferenz mithilfe der Systemtabelle system.workflow.jobs verwendet werden. Siehe Überwachen von Auftragskosten und Leistung mit Systemtabellen.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Im Folgenden wird gezeigt, welche Cluster für die Batcheinleitung mithilfe der system.compute.clusters Systemtabelle verwendet werden.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Lakeflow Spark Declarative Pipelines

Im Folgenden wird gezeigt, welche Lakeflow Spark Declarative Pipelines mithilfe der system.lakeflow.pipelines-Systemtabelle für die Batch-Inferenz verwendet werden.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL Warehouse

Im Folgenden wird gezeigt, welche SQL-Lagerhäuser für die Batcheinleitung mithilfe der system.compute.warehouses Systemtabelle verwendet werden.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Kosten für ai_parse_document Ausführungen anzeigen

Das folgende Beispiel zeigt, wie Sie Abrechnungssystemtabellen abfragen, um die Kosten für ai_parse_document Läufe anzuzeigen.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";