Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel enthält Empfehlungen für bewährte Methoden für die Verwendung von serverlosem Computing in Ihren Notebooks und Aufträgen.
Anhand dieser Empfehlungen verbessern Sie die Produktivität, Kosteneffizienz und Zuverlässigkeit Ihrer Workloads auf Azure Databricks.
Migrieren von Workloads zu serverloser Berechnung
Um die Isolierung von Benutzercode in der gemeinsam genutzten serverlosen Computeumgebung sicherzustellen, verwendet Azure Databricks Lakeguard , um Benutzercode vom Spark-Modul und von anderen Benutzern zu isolieren.
Aus diesem Gründen erfordern einige Workloads Codeänderungen, um weiterhin auf serverlosem Compute zu arbeiten. Eine Liste der Einschränkungen finden Sie unter Serverlose Compute Limitations.
Bestimmte Workloads sind einfacher zu migrieren als andere. Workloads, welche die folgenden Anforderungen erfüllen, sind am einfachsten zu migrieren:
- Auf die Daten, auf die zugegriffen wird, muss im Unity-Katalog gespeichert werden.
- Die Workload sollte mit der Standardberechnung kompatibel sein.
- Die Workload sollte mit Databricks Runtime 14.3 oder höher kompatibel sein.
Um zu testen, ob eine Workload auf serverlosem Compute funktioniert, führen Sie sie auf einer klassischen Computeressource mit Standardzugriffsmodus und einer Databricks-Runtime von 14.3 oder höher aus. Wenn die Ausführung erfolgreich ist, ist die Workload zur Migration bereit.
Viele ältere Workloads werden nicht nahtlos migriert. Anstatt alles neu zu codieren, empfiehlt Azure Databricks, serverlose Computekompatibilität zu priorisieren, während Sie neue Workloads erstellen.
Angeben von Python-Paketversionen
Wenn Sie zu serverlosem Compute migrieren, heften Sie Ihre Python-Pakete an bestimmte Versionen an, um reproduzierbare Umgebungen sicherzustellen. Wenn Sie keine Version angeben, kann das Paket basierend auf der Serverlosen Umgebungsversion zu einer anderen Version aufgelöst werden, wodurch die Latenz erhöht werden kann, da neue Pakete installiert werden müssen.
Ihre requirements.txt Datei sollte z. B. bestimmte Paketversionen enthalten, wie:
numpy==2.2.2
pandas==2.2.3
Serverlose Umgebungsversionen
Serverless Compute verwendet Umgebungsversionen anstelle herkömmlicher Databricks-Runtime-Versionen. Dies stellt eine Veränderung bei der Verwaltung der Workloadkompatibilität dar:
- Databricks-Runtime-Ansatz: Sie wählen eine bestimmte Databricks-Runtime-Version für Ihre Workload aus und verwalten Upgrades manuell, um die Kompatibilität zu gewährleisten.
- Serverlose Vorgehensweise: Sie schreiben Code für eine Umgebungsversion, und Azure Databricks aktualisiert unabhängig den zugrunde liegenden Server.
Umgebungsversionen bieten eine stabile Client-API, die gewährleistet, dass Ihre Workloads kompatibel bleiben, während Azure Databricks unabhängig Leistungsverbesserungen, Sicherheitsverbesserungen und Fehlerbehebungen liefert, ohne dass Codeänderungen an Ihren Workloads erforderlich sind.
Jede Umgebungsversion enthält aktualisierte Systembibliotheken, Features und Fehlerbehebungen, während die Abwärtskompatibilität für Workloads beibehalten wird. Azure Databricks unterstützt jede Umgebungsversion drei Jahre ab dem Veröffentlichungsdatum, sodass Sie einen vorhersehbaren Lebenszyklus für die Planung von Upgrades erhalten.
Informationen zum Auswählen einer Umgebungsversion für Ihre serverlose Workload finden Sie unter Auswählen einer Umgebungsversion. Ausführliche Informationen zu verfügbaren Umgebungsversionen und deren Features finden Sie unter Serverless-Umgebungsversionen.
Aufnehmen von Daten aus externen Systemen
Da die serverlose Berechnung die JAR-Dateiinstallation nicht unterstützt, können Sie keinen JDBC- oder ODBC-Treiber verwenden, um Daten aus einer externen Datenquelle erfassen.
Zu den alternativen Strategien, die Sie für die Aufnahme verwenden können, gehören:
- SQL-basierte Bausteine wie COPY INTO und Streamingtabellen
- Der Autoloader zum inkrementellen und effizienten Verarbeiten neuer Datendateien, sobald sie im Cloudspeicher empfangen werden. Weitere Informationen finden Sie unter Automatisches Laden.
- Datenerfassungspartnerlösung Siehe Herstellen einer Verbindung mit Erfassungspartnern mittels Partner Connect.
- Fügen Sie die Daten-UI hinzu, um Dateien direkt hochzuladen. Siehe Hochladen von Dateien in Azure Databricks.
Aufnahmealternativen
Wenn Sie serverlose Computes verwenden, können Sie auch die folgenden Features verwenden, um Ihre Daten abzufragen, ohne sie zu verschieben.
- Wenn Sie die Datenduplizierung einschränken möchten oder garantieren möchten, dass Sie die neuesten Daten abfragen, empfiehlt Databricks die Verwendung der Delta-Freigabe. Weitere Informationen finden Sie unter Was ist Delta Sharing?.
- Wenn Sie Ad-hoc-Berichterstellung und Machbarkeitsstudien durchführen möchten, empfiehlt Databricks, die richtige Wahl, die möglicherweise Lakehouse Federation ist, zu treffen. Lakehouse Federation ermöglicht die Synchronisierung ganzer Datenbanken mit Azure Databricks von externen Systemen und wird vom Unity-Katalog gesteuert. Weitere Informationen finden Sie unter Was ist Lakehouse Federation?.
Probieren Sie eines oder beide dieser Features aus und überprüfen Sie, ob sie die Anforderungen an die Abfrageleistung erfüllen.
Unterstützte Spark-Konfigurationen
Um die Konfiguration von Spark bei serverlosem Computing zu automatisieren, hat Azure Databricks die Unterstützung für die manuelle Einstellung der meisten Spark-Konfigurationen entfernt. Eine Liste der unterstützten Spark-Konfigurationsparameter finden Sie unter Konfigurieren von Spark-Eigenschaften für serverlose Notizbücher und Aufträge.
Aufträge auf serverlosen Ressourcen schlagen fehl, wenn Sie eine nicht unterstützte Spark-Konfiguration festlegen.
Überwachen der Kosten für serverlose Berechnung
Es gibt mehrere Features, die Sie verwenden können, um die Kosten für serverloses Computing zu überwachen:
- Verwenden Sie serverlose Budgetrichtlinien , um die Serverlose Computenutzung zu attributieren.
- Verwenden Sie Systemtabellen, um Dashboards zu erstellen, Warnungen einzurichten und Ad-hoc-Abfragen auszuführen. Siehe Überwachen der Kosten für serverloses Computing.
- Richten Sie Budgetwarnungen in Ihrem Konto ein. Siehe Erstellen und Überwachen von Budgets.
- Importieren sie ein vorkonfiguriertes Verbrauchsdashboard. Siehe Importieren eines Nutzungsdashboards.