Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Na tej stronie opisano sposób wyłączania dostępu do starszego katalogu głównego systemu plików usługi Databricks (DBFS) i instalacji w istniejących obszarach roboczych usługi Azure Databricks. Aby wyłączyć ustawienia root i mounts systemu plików DBFS na poziomie konta dla nowych obszarów roboczych, użyj ustawienia Wyłącz starsze funkcje konta.
Po migracji przepływów pracy opartych na plikach do woluminów Unity Catalog, lokalizacji zewnętrznych lub plików w obszarze roboczym, można uniemożliwić użytkownikom przekazywanie, modyfikowanie lub uzyskiwanie dostępu do danych w katalogu głównym i zamontowanych zasobach DBFS. Wyłączenie katalogu głównego systemu plików DBFS i instalowanie zwiększa poziom zabezpieczeń przez usunięcie dostępu do magazynu udostępnionego, który nie podlega katalogowi aparatu Unity.
Co to są katalog główny i instalacja systemu plików DBFS?
DBFS to rozproszony system plików w obszarach roboczych usługi Databricks dostępny w ramach schematu dbfs: identyfikatora URI i używany do interakcji z magazynem opartym na chmurze. Schemat URI dbfs: służy do uzyskiwania dostępu do kilku obszarów pamięci w przestrzeni roboczej, w tym:
-
Główny system plików DBFS: obszar dostępny bezpośrednio w katalogu głównym systemu plików, na przykład podczas wpisywania polecenia
dbfs:/. Wszyscy użytkownicy obszaru roboczego mogą uzyskać dostęp do zawartości utworzonej bezpośrednio w katalogu głównym systemu plików DBFS, z wyjątkiem zawartości w ramach jednej z poniższych prefiksów zarezerwowanych, z których każda podlega specjalnym warunkom. Zobacz Co to jest katalog główny systemu plików DBFS?. -
Instalacja systemu plików DBFS: starsze podejście do definiowania zewnętrznego dostępu do magazynu w chmurze dostępnego w obszarze
dbfs:/mnt/<mount_name>. Zobacz Montowanie magazynu obiektowego. -
Zastrzeżone prefiksy usługi Azure Databricks: prefiks używany przez woluminy Katalogu Unity i inne ścieżki systemowe Azure Databricks, takie jak
dbfs:/databricks-datasets/i ścieżki zasobów MLflow. Na przykładdbfs:/Volumes/.
Wszystkie ścieżki są również dostępne przy użyciu ścieżek w stylu POSIX. Zobacz Czy muszę podać schemat identyfikatora URI, aby uzyskać dostęp do danych?.
Aby uzyskać więcej informacji na temat DBFS, w tym katalogu głównego DBFS i punktów montowania, zobacz Co to jest DBFS?
Co jest wyłączane?
Po wyłączeniu katalogu głównego DBFS i operacji montowania:
- Cały dostęp do głównego katalogu DBFS oraz jego utrzymywania w istniejących obszarach roboczych jest wyłączony i blokowany we wszystkich interfejsach (UI, API, CLI, FUSE).
- Próby odczytu lub zapisu plików z katalogu głównego systemu plików DBFS i instalacji kończą się niepowodzeniem z powodu błędu. Na przykład komunikat o błędzie Publiczny katalog główny SYSTEMU PLIKÓW DBFS jest wyłączony.
- Przeglądarka DBFS i opcja Przekaż do systemu plików DBFS nie są już dostępne z poziomu interfejsu użytkownika. Zadania, notesy lub skrypty odwołujące się do katalogu głównego systemu plików DBFS i instalacji kończą się niepowodzeniem, chyba że ustawienie zostanie przywrócone.
- Opcja DBFS nie jest już dostępna z typowych funkcji, takich jak:
- Biblioteki klastra
- Dostarczanie logów klastra
- MLflow tracking/model-registry (non-UC)
- Eksperymenty zautomatyzowanego uczenia maszynowego
- Potoki deklaratywne platformy Spark w usłudze Lakeflow
- Osadzanie pliku notesu statycznego przy użyciu
/fileskończy się błędem 500. Zobacz Osadzanie obrazów statycznych w notesach. - Operacje instalacji/odinstalowania są blokowane.
- Operacje magazynu plików są blokowane.
- Wyłączenie katalogu głównego dbFS i instalacji w obszarze roboczym powoduje również wyłączenie wersji środowiska Databricks Runtime poniżej wersji 13.3 LTS.
Note
W obszarach roboczych, w których wyłączono system plików DBFS, ścieżka dbfs:/Workspace zapewnia dostęp do plików w systemie plików obszaru roboczego. Wymaga to środowiska Databricks Runtime 13.3 LTS lub nowszego.
Co nie ma wpływu?
dbfs: Schemat identyfikatora URI pozostaje centralny dla usługi Azure Databricks, a wyłączenie instalacji głównego systemu plików DBFS i dbFS nie powoduje wyłączenia samego identyfikatora dbfs: URI. Następujące czynności nadal działają zgodnie z oczekiwaniami:
-
Woluminy w Unity Catalog: woluminy pozostają dostępne przy użyciu prefiksu
dbfs:/Volumesi ścieżki w stylu POSIX/Volumes. Aby uzyskać więcej informacji, zobacz Czy muszę podać schemat identyfikatora URI, aby uzyskać dostęp do danych? i Co to są volumeny katalogu Unity? Zobacz Nawiązywanie połączenia z lokalizacją zewnętrzną systemu plików DBFS (starsza wersja). -
Ścieżki systemowe: dane tylko do odczytu pozostają dostępne przy użyciu
dbfs:/databricks-datasets/i innych ścieżek systemowych usługi Azure Databricks, takich jak ścieżki zasobów MLflow. - Wewnętrzne dane systemu obszarów roboczych: obejmuje to zawartość generowaną automatycznie przez usługę Azure Databricks, taką jak poprawki notesu, szczegóły uruchomienia zadania, wyniki poleceń i dzienniki platformy Spark. Zobacz Magazyn przestrzeni roboczych.
Note
Istniejące dane w katalogu głównym systemu plików DBFS i na punktach montowania nie są usuwane. Jeśli katalog główny i instalacja systemu plików DBFS są ponownie włączone przy użyciu ustawienia Wyłącz katalog główny systemu DBFS i instalacji systemu plików DBFS , dane staną się ponownie dostępne.
Poniżej przedstawiono kilka przykładów ścieżek, które pozostają dostępne i nie mają wpływu na wyłączenie katalogu głównego systemu plików DBFS i instalacji:
| Category | Path | Description |
|---|---|---|
| Woluminy wykazu aparatu Unity | dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file_name> |
Zarezerwowane dla woluminów UC i dostępne tylko za pośrednictwem API specyficznych dla UC oraz podlegają zasadom zarządzania UC. Aby uzyskać więcej informacji, zobacz Ścieżka dostępu do plików w woluminie. |
| Ścieżka systemowa | dbfs:/databricks/mlflow-registry dbfs:/databricks/mlflow-tracking |
Ścieżki o dostępie tylko do odczytu wskazujące na zawartość napisaną przez wewnętrzne interfejsy API platformy Azure Databricks w danych systemowych obszaru roboczego. |
| Ścieżka systemowa | dbfs:/databricks-datasets/ |
Kolekcja zestawów danych instalowanych domyślnie tylko do odczytu w obszarach roboczych usługi Azure Databricks. Zobacz Przeglądanie zainstalowanych zestawów danych usługi Databricks systemu plików DBFS. |
Prefiks dbfs: (schemat identyfikatora URI) jest opcjonalny i można go pominąć w większości przypadków. Zobacz Czy muszę podać schemat identyfikatora URI, aby uzyskać dostęp do danych?.
Kiedy można wyłączyć katalog główny i instalację systemu plików DBFS?
System DBFS można wyłączyć w dowolnym momencie. Jednak, jeśli istniejące przepływy pracy nadal od niego zależą, mogą się zepsuć. Usługa Databricks zaleca wyłączenie katalogu głównego systemu plików DBFS i instalacji w środowiskach niekrytycznych tylko po:
- Przeprowadzono migrację wszystkich przepływów pracy korzystających z katalogu głównego DBFS lub zamontowań do woluminów Unity Catalog, lokalizacji zewnętrznych lub plików obszaru roboczego.
- Zaktualizowałeś wszystkie zadania i klastry do środowiska Databricks Runtime 13.3 LTS lub nowszego.
Note
Przed kontynuowaniem możesz użyć skryptów obserwacji do skanowania pod kątem pozostałego użycia katalogu głównego systemu plików DBFS i instalacji.
Wyłączanie katalogu głównego i instalacji systemu plików DBFS
Można wyłączyć katalog główny DBFS i punkty montowania zarówno w istniejących, jak i nowych przestrzeniach roboczych.
Jako administrator obszaru roboczego wykonaj następujące kroki, aby wyłączyć katalog główny i instalację systemu PLIKÓW DBFS:
Zaloguj się do obszaru roboczego usługi Azure Databricks.
Kliknij ikonę profilu użytkownika w prawym górnym rogu i wybierz pozycję Ustawienia.
Przejdź do obszaru roboczego administratora i kliknij pozycję Zabezpieczenia.
Ustaw Wyłącz katalog główny i punkty montowania DBFS na Wyłączone: nie można używać katalogu głównego ani punktów montowania DBFS.
Poczekaj do 20 minut, aż ustawienie zostanie zastosowane.
Uruchom ponownie wszystkie uruchomione klastry.
- Opóźnienie propagacji: może upłynąć do 20 minut, aż katalog główny systemu dbFS i wyłączenie instalacji zostaną całkowicie rozpropagowane.
- Ponowne uruchomienie klastra: wszystkie uruchomione obliczenia ogólnego przeznaczenia i magazyny SQL muszą zostać ponownie uruchomione ręcznie . Należy to zrobić po upływie 20-minutowego czasu propagacji, aby zmiany zaczęły obowiązywać. Jeśli nie zostaną uruchomione ponownie, takie klastry będą nadal mogły uzyskiwać dostęp do katalogu głównego i instalacji systemu plików DBFS.
Zobacz Przykład notebooka: znajdowanie długo działających zadań obliczeniowych, aby zapoznać się z przykładem identyfikowania i ponownego uruchamiania zadań obliczeniowych ogólnego przeznaczenia.