Udostępnij przez


Ściągawka planowania zadań produkcyjnych

Ten artykuł ma na celu przedstawienie jasnych i dobrze określonych wskazówek dotyczących planowania zadań produkcyjnych. Zastosowanie najlepszych rozwiązań może pomóc zmniejszyć koszty, poprawić wydajność i zaostrzyć zabezpieczenia.

Najlepsze rozwiązanie Wpływ Dokumenty
Używanie klastrów zadań na potrzeby zautomatyzowanych przepływów pracy Koszt: klastry zadań są rozliczane według niższych stawek niż klastry interaktywne.
Ponowne uruchamianie klastrów o długim czasie działania Zabezpieczenia: uruchom ponownie klastry, aby skorzystać z poprawek i poprawek błędów w środowisku Databricks Runtime.
Uruchamianie zadań produkcyjnych przy użyciu jednostek usługi zamiast kont użytkowników Zabezpieczenia: jeśli zadania należą do poszczególnych użytkowników, gdy ci użytkownicy opuszczają grupę, te zadania mogą przestać działać.
Korzystaj z zadań Lakeflow do orkiestracji, zawsze kiedy to możliwe. Koszt: Nie ma potrzeby używania narzędzi zewnętrznych do orkiestracji, jeśli orkiestrujesz tylko obciążenia na platformie Azure Databricks.
Korzystanie z najnowszej wersji LTS środowiska Databricks Runtime Wydajność i koszty: usługa Azure Databricks zawsze ulepsza środowisko Databricks Runtime pod kątem użyteczności, wydajności i zabezpieczeń.
Nie przechowuj danych produkcyjnych w katalogu głównym systemu plików DBFS Zabezpieczenia: gdy dane są przechowywane w katalogu głównym systemu plików DBFS, wszyscy użytkownicy mogą uzyskać do niego dostęp.