Udostępnij przez


Stosowanie sztucznej inteligencji na danych przy użyciu usługi Azure Databricks AI Functions

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

W tym artykule opisano funkcje sztucznej inteligencji usługi Azure Databricks i obsługiwane funkcje.

Co to są funkcje sztucznej inteligencji?

Funkcje sztucznej inteligencji to wbudowane funkcje, których można używać do stosowania sztucznej inteligencji, takich jak tłumaczenie tekstu lub analiza tonacji, na danych przechowywanych w usłudze Databricks. Można je uruchamiać z dowolnego miejsca w usłudze Databricks, w tym w usłudze Databricks SQL, notatnikach, potokach deklaratywnych Lakeflow Spark i przepływach pracy Workflows.

Funkcje sztucznej inteligencji są proste w użyciu, szybkie i skalowalne. Analitycy mogą ich używać do stosowania analizy danych do własnych danych, podczas gdy analitycy danych i inżynierowie uczenia maszynowego mogą ich używać do tworzenia potoków wsadowych klasy produkcyjnej.

Funkcje sztucznej inteligencji udostępniają funkcje specyficzne dla zadań i ogólnego przeznaczenia.

  • Funkcje specyficzne dla zadań zapewniają ogólne możliwości sztucznej inteligencji dla zadań, takich jak podsumowywanie tekstu i tłumaczenia. Te funkcje specyficzne dla zadań są obsługiwane przez najnowocześniejsze modele sztucznej inteligencji, które są hostowane i zarządzane przez usługę Databricks. Zobacz Funkcje sztucznej inteligencji specyficzne dla zadań , aby zapoznać się z obsługiwanymi funkcjami i modelami.
  • ai_query to funkcja ogólnego przeznaczenia, która umożliwia stosowanie dowolnego typu modelu sztucznej inteligencji na danych. Zobacz Funkcja ogólnego przeznaczenia: ai_query.

funkcje sztucznej inteligencji specyficzne dla zadań

Funkcje specyficzne dla zadania są ograniczone do określonego zadania, dzięki czemu można zautomatyzować rutynowe akcje, takie jak proste podsumowania i szybkie tłumaczenia. Usługa Databricks zaleca te funkcje do rozpoczęcia pracy, ponieważ wywołują najnowocześniejsze modele generowania sztucznej inteligencji obsługiwane przez usługę Databricks i nie wymagają dostosowania.

Zobacz Analizowanie recenzji klientów za pomocą funkcji sztucznej inteligencji, aby zapoznać się z przykładem.

W poniższej tabeli wymieniono obsługiwane funkcje i zadania, które wykonują.

Funkcja Opis
ai_analiza_nastrojów Przeprowadź analizę sentymentu w tekście wejściowym używając najnowocześniejszego generatywnego modelu sztucznej inteligencji.
ai_classify Klasyfikuj tekst wejściowy zgodnie z etykietami, które udostępniasz przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_extract Wyodrębnij jednostki określone przez etykiety z tekstu przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_popraw_gramatykę Poprawianie błędów gramatycznych w tekście przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_gen Odpowiedz na monit dostarczony przez użytkownika przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_mask Maskuj określone jednostki w tekście przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_parse_document Wyodrębnianie zawartości ustrukturyzowanej z dokumentów bez struktury przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_similarity Porównaj dwa ciągi znaków i oblicz wynik podobieństwa semantycznego przy użyciu najnowocześniejszego generatywnego modelu sztucznej inteligencji.
ai_summarize Wygeneruj podsumowanie tekstu przy użyciu języka SQL i najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_translate Tłumaczenie tekstu na określony język docelowy przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_forecast Prognoza danych na określony horyzont. Ta funkcja o wartości tabeli została zaprojektowana w celu ekstrapolacji danych szeregów czasowych w przyszłości.
vector_search Wyszukiwanie i wykonywanie zapytań względem indeksu Mosaic AI Vector Search przy użyciu najnowocześniejszego generatywnego modelu AI.

funkcja ogólnego przeznaczenia : ai_query

Funkcja ai_query() umożliwia zastosowanie dowolnego modelu sztucznej inteligencji do danych zarówno dla generowania sztucznej inteligencji, jak i klasycznych zadań uczenia maszynowego, w tym wyodrębniania informacji, podsumowywania zawartości, identyfikowania oszustw i prognozowania przychodów. Aby uzyskać szczegółowe informacje o składni i parametry, zobacz ai_query funkcja.

Poniższa tabela zawiera podsumowanie obsługiwanych typów modeli, skojarzonych modeli i modeli obsługujących wymagania dotyczące konfiguracji punktu końcowego dla każdego z nich.

Typ Opis Obsługiwane modele Wymagania
Wstępnie wdrożone modele Te modele podstawowe są hostowane przez usługę Databricks i oferują wstępnie skonfigurowane punkty końcowe, do których można wysyłać zapytania przy użyciu polecenia ai_query. Zobacz Obsługiwane modele podstawowe w usłudze Mosaic AI Model Serving, aby dowiedzieć się, które modele są obsługiwane przez każdą funkcję serwowania modelu i jaka jest ich dostępność regionalna. Te modely są obsługiwane i zoptymalizowane pod kątem rozpoczęcia korzystania z inferencji wsadowej i przepływów pracy produkcyjnej.
  • databricks-claude-haiku-4-5
  • databricks-claude-sonnet-4
  • databricks-gpt-oss-20b
  • databricks-gpt-oss-120b
  • databricks-gemma-3-12b
  • databricks-llama-4-maverick
  • databricks-meta-llama-3-3-70b-instruct
  • databricks-meta-llama-3-1-8b-instruct
  • databricks-gte-large-en

Inne modele obsługiwane przez Databricks są dostępne do użycia z funkcjami sztucznej inteligencji, ale nie są zalecane do wnioskowania wsadowego w procesach produkcyjnych na dużą skalę. Inne te modele są udostępniane do inferencji w czasie rzeczywistym przy użyciu interfejsów API modelu podstawowego zapłata za każdy token.
Do korzystania z tej funkcji jest wymagane środowisko Databricks Runtime 15.4 LTS lub nowsze. Nie wymaga aprowizacji ani konfiguracji punktu końcowego. Korzystanie z tych modeli podlega licencjom dewelopera odpowiedniego modelu oraz warunkom idostępności regionu usługi AI Functions.
Przynieś własny model Możesz korzystać z własnych modeli i wykonywać względem nich zapytania przy użyciu funkcji sztucznej inteligencji. Funkcje sztucznej inteligencji oferują elastyczność, dzięki czemu można wykonywać zapytania dotyczące modeli wnioskowania w czasie rzeczywistym lub scenariuszy wnioskowania wsadowego.

Użyj ai_query z modelami podstawowymi

W poniższym przykładzie pokazano, jak używać ai_query przy użyciu modelu podstawowego hostowanego przez usługę Databricks.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Przykładowy notatnik: wnioskowanie wsadowe i wyodrębnianie danych ustrukturyzowanych

W poniższym przykładowym notesie pokazano, jak wykonać podstawowe wyodrębnianie danych ustrukturyzowanych, używając ai_query, aby przekształcić surowe, nieustrukturyzowane dane w zorganizowane, użyteczne informacje za pomocą zautomatyzowanych technik wyodrębniania. W tym notesie pokazano również, jak korzystać z oceny agenta Mosaic AI w celu oceny dokładności przy użyciu danych prawdziwych.

Wnioskowanie wsadowe i notatnik wyodrębniania danych ustrukturyzowanych

Pobierz laptopa

Użyj ai_query z tradycyjnymi modelami uczenia maszynowego

ai_query obsługuje tradycyjne modele uczenia maszynowego, w tym całkowicie dostosowane. Te modele należy wdrożyć w punktach końcowych obsługujących model. Aby uzyskać szczegółowe informacje o składni i parametrach, zobacz funkcję ai_query function.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

Przykładowy notatnik: wnioskowanie wsadowe przy użyciu BERT do rozpoznawania nazwanych encji (NER)

"W poniższym notatniku przedstawiono przykład tradycyjnego wnioskowania wsadowego modelu uczenia maszynowego przy użyciu BERT."

Wnioskowanie wsadowe przy użyciu BERT dla notebooka rozpoznawania nazwanych jednostek

Pobierz laptopa

Używanie funkcji sztucznej inteligencji w istniejących przepływach pracy języka Python

Funkcje sztucznej inteligencji można łatwo zintegrować z istniejącymi przepływami pracy języka Python.

Następujący proces zapisuje wynik ai_query do tabeli wyjściowej:


df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

Następujący tekst zostanie zapisany w tabeli jako podsumowanie:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

Korzystanie z funkcji sztucznej inteligencji w przepływach pracy produkcyjnych

W przypadku wnioskowania wsadowego na dużą skalę można zintegrować funkcje sztucznej inteligencji specyficzne dla zadań lub funkcję ai_query ogólnego przeznaczenia z przepływami pracy produkcyjnej, takimi jak potoki deklaratywne Lakeflow Spark, przepływy pracy usługi Databricks i przesyłanie strumieniowe ze strukturą. Umożliwia to przetwarzanie klasy produkcyjnej na dużą skalę. Zobacz Wdrażanie potoków wnioskowania wsadowego, aby uzyskać przykłady i szczegóły.

Monitorowanie postępu funkcji sztucznej inteligencji

Aby dowiedzieć się, ile wniosków zostało ukończonych lub zakończonych niepowodzeniem i rozwiązać problemy z wydajnością, możesz monitorować postęp funkcji sztucznej inteligencji przy użyciu funkcji profilu zapytania.

W środowisku Databricks Runtime 16.1 ML lub nowszym w oknie zapytania edytora SQL w obszarze roboczym:

  1. Wybierz link Running--- w dolnej części okna Raw results. Po prawej stronie zostanie wyświetlone okno wydajności .
  2. Kliknij pozycję Zobacz profil zapytania , aby wyświetlić szczegóły wydajności.
  3. Kliknij Zapytanie AI, aby wyświetlić metryki dla tego konkretnego zapytania, w tym liczbę ukończonych i nieudanych wnioskowań oraz całkowity czas realizacji żądania.

Monitorowanie postępu funkcji sztucznej inteligencji

Wyświetlanie kosztów obciążeń funkcji sztucznej inteligencji

Koszty funkcji sztucznej inteligencji są rejestrowane jako część produktu w ramach oferty typu MODEL_SERVING. Zobacz Wyświetlanie kosztów obciążeń wnioskowania wsadowego , aby zapoznać się z przykładowym zapytaniem.

Uwaga / Notatka

W przypadku ai_parse_document koszty są rejestrowane jako część produktu AI_FUNCTIONS. Zobacz Wyświetlanie kosztów przebiegówai_parse_document, aby zapoznać się z przykładowym zapytaniem.

Wyświetlanie kosztów zadań wnioskowania wsadowego

W poniższych przykładach pokazano, jak filtrować obciążenia wnioskowania wsadowego na podstawie zadań, obliczeń, magazynów SQL i potoków deklaratywnych platformy Spark w usłudze Lakeflow.

Zobacz Monitorowanie kosztów serwowania modelu w celu zapoznania się z ogólnymi przykładami wyświetlania kosztów zadań wnioskowania wsadowego wykorzystujących funkcje sztucznej inteligencji.

Jobs

Poniższe zapytanie pokazuje, które zadania są używane do wnioskowania wsadowego przy użyciu tabeli systemów system.workflow.jobs. Zobacz Monitorowanie kosztów zadań i wydajności przy użyciu tabel systemowych.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Poniżej pokazano, które klastry są używane do wnioskowania wsadowego przy użyciu tabeli system.compute.clusters systems.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Potoki deklaratywne platformy Spark w usłudze Lakeflow

Poniżej przedstawiono, które Lakeflow Spark Deklaratywne Linie Przetwarzania są używane do wnioskowania wsadowego przy użyciu tabeli system.lakeflow.pipelines systems.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL Warehouse

Poniżej przedstawiono, które magazyny SQL są używane na potrzeby wnioskowania wsadowego za pomocą tabeli systems system.compute.warehouses.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Wyświetl koszty przebiegów ai_parse_document

W poniższym przykładzie pokazano, jak wykonywać zapytania do tabel systemu rozliczeniowego w celu wyświetlania kosztów uruchomienia ai_parse_document.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";