Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Jeśli hostujesz prywatny serwer Git (taki jak GitHub Enterprise Server, Bitbucket Server lub GitLab samodzielnie zarządzany) lub serwer Git znajduje się za zaporą, możesz użyć serwera proxy serwera Git, aby połączyć foldery Git usługi Databricks z repozytoriami prywatnymi. Serwer proxy kieruje polecenia Git z obszaru roboczego usługi Azure Databricks za pośrednictwem zasobu obliczeniowego do prywatnego serwera Git.
Informacje o serwerze proxy Git
Serwer pośredniczący Git od Databricks dla folderów Git umożliwia proxowanie poleceń Git z obszaru roboczego Azure Databricks do prywatnego serwera Git, który nie ma dostępu do Internetu.
Foldery Git w Databricks reprezentują połączone repozytoria Git jako foldery. Zawartość tych folderów jest zarządzana wersjami przez synchronizację z połączonym repozytorium Git. Domyślnie foldery Git mogą być synchronizowane tylko z repozytoriami dostępnymi w Internecie. Jeśli hostujesz prywatny serwer Git lub serwer Git znajduje się za zaporą, musisz użyć serwera proxy usługi Git z folderami Git. Serwer Git musi być dostępny z płaszczyzny obliczeniowej usługi Azure Databricks.
Jak działa serwer proxy usługi Git
Serwer proxy Git dla folderów Git na platformie Databricks przekierowuje polecenia Git z płaszczyzny sterowania Databricks do klastra proxy działającego w płaszczyźnie obliczeniowej obszaru roboczego. Klaster proxy jest skonfigurowany do uruchamiania usługi proxy, która odbiera polecenia Git z płaszczyzny sterowania usługi Databricks i przekazuje je do serwera Git. Proxy'owanie nie wpływa na architekturę zabezpieczeń płaszczyzny sterującej Databricks.
Poniżej przedstawiono ogólną architekturę systemu:
Ważne
Usługa Databricks udostępnia notatnik uruchamiania do skonfigurowania wystąpienia serwera Git do poleceń proxy dla folderów Git Databricks. Pobierz notatnik wdrożeniowy na GitHubie Serwer proxy Git usługi Databricks jest przeznaczony do pracy z wersją środowiska Databricks Runtime zawartą w notatniku konfiguracji. Nie aktualizuj wersji środowiska Databricks Runtime klastra proxy.
Konfigurowanie serwera proxy usługi Git Server
Aby włączyć prywatną łączność Git dla folderów Git usługi Databricks, przygotuj wystąpienie serwera Git, uruchom notebook, aby utworzyć serwer proxy i zweryfikuj konfigurację.
Aby skonfigurować proxy serwera Git:
- Przygotuj wystąpienie serwera Git przy użyciu statycznych adresów IP i transportu HTTPS.
- Uruchom notatnik konfiguracji, aby utworzyć klaster proxy.
- Zweryfikuj konfigurację, klonując repozytorium.
- Konfigurowanie poświadczeń usługi Git dla użytkowników.
Wymagania wstępne
Przed włączeniem serwera proxy sprawdź następujące kwestie:
- Obszar roboczy ma włączoną funkcję folderów Git usługi Databricks. Zobacz Włączanie lub wyłączanie folderów Git usługi Databricks.
- Wystąpienie serwera Git jest dostępne z płaszczyzny obliczeniowej sieci wirtualnej (VNet) platformy Azure obszaru roboczego usługi Azure Databricks i ma włączone zarówno HTTPS, jak i osobiste tokeny dostępu (PAT).
Uwaga
Serwer proxy serwera Git dla usługi Databricks działa we wszystkich regionach obsługiwanych przez sieć wirtualną.
Krok 1. Przygotowanie wystąpienia serwera Git
Ważne
Aby utworzyć zasób obliczeniowy i wykonać to zadanie, musisz być administratorem obszaru roboczego z uprawnieniami dostępu.
Skonfiguruj serwer Git tak, aby akceptował połączenia z klastra proxy i włączał transport HTTPS.
Serwer Git przedsiębiorstwa zazwyczaj ma listę dozwolonych adresów IP, z których jest dozwolony dostęp. Aby zezwolić węzłowi sterownika klastra proxy na dostęp do serwera Git, skojarz statyczny wychodzący adres IP dla ruchu pochodzącego z klastra proxy i dodaj go do listy dozwolonych serwera Git.
- Skojarz statyczny adres IP wychodzący dla ruchu pochodzącego z klastra proxy przez zastosowanie usługi Azure Firewall lub urządzenia egress.
- Dodaj adres IP z poprzedniego kroku do listy dozwolonych serwera Git.
Następnie skonfiguruj wystąpienie serwera Git tak, aby zezwalało na transport HTTPS:
- GitHub Enterprise: zobacz , którego zdalnego adresu URL powinienem używać w pomocy usługi GitHub Enterprise.
- Serwer Bitbucket: na stronie administracyjnej serwera Bitbucket kliknij pozycję Ustawienia serwera i wybierz pozycję Http(S) włączone.
Krok 2. Uruchom notatnik aktywacyjny
Aby włączyć serwer proxy:
Zaloguj się do obszaru roboczego usługi Azure Databricks jako administrator obszaru roboczego z uprawnieniami dostępu, aby utworzyć klaster.
Zaimportuj ten notatnik, który wybiera najmniejszy typ wystąpienia dostępny od dostawcy usług w chmurze, w celu uruchomienia serwera proxy Git.
Kliknij Uruchom wszystkie, aby uruchomić notatnik, który wykonuje następujące zadania:
- Tworzy zasób obliczeniowy z jednym węzłem o nazwie "Proxy Git Databricks", który nie kończy działania automatycznie. Ta usługa proxy przetwarza i przekazuje polecenia Git z obszaru roboczego usługi Azure Databricks do prywatnego serwera Git.
- Włącza flagę funkcji, która kontroluje, czy żądania Git w folderach Usługi Git usługi Databricks są kierowane za pośrednictwem wystąpienia obliczeniowego.
Najlepszym rozwiązaniem jest utworzenie zadania uruchamiania zasobu obliczeniowego serwera proxy usługi Git zgodnie z harmonogramem. Dzięki temu usługa serwera proxy Git jest dostępna dla Twoich użytkowników.
Uwaga
Uruchomienie dodatkowego długotrwałego zasobu obliczeniowego wiąże się z dodatkowymi jednostkami Databricks (DBU). Aby zminimalizować koszty, notebook konfiguruje serwer proxy do użycia jednowęzłowego zasobu obliczeniowego z tanim typem węzła. Zmodyfikuj opcje obliczeniowe zgodnie z potrzebami. Aby uzyskać informacje o cenach, zobacz kalkulator cen usługi Databricks.
Krok 3. Weryfikowanie konfiguracji serwera Git
Aby zweryfikować konfigurację serwera Git, sklonuj repozytorium hostowane na prywatnym serwerze Git za pośrednictwem klastra proxy. Pomyślne sklonowanie potwierdza, że serwer proxy Git działa dla Twojego obszaru roboczego.
Krok 4. Tworzenie repozytoriów Git z obsługą serwera proxy
Po skonfigurowaniu poświadczeń usługi Git żadne dalsze kroki nie są wymagane do tworzenia ani synchronizowania repozytoriów. Aby programowo skonfigurować poświadczenia i dostęp do repozytoriów, zobacz Konfigurowanie poświadczeń usługi Git i łączenie repozytorium zdalnego z usługą Azure Databricks.
Usuń globalne uprawnienia CAN ATTACH TO
Serwer proxy Git nie wymaga CAN ATTACH TO uprawnień dla żadnego użytkownika. Aby uniemożliwić użytkownikom uruchamianie dowolnych obciążeń w klastrze proxy, ogranicz uprawnienia listy kontroli dostępu klastra (ACL) na serwerze proxy:
Kliknij pozycję Compute na pasku bocznym, a następnie kliknij
obok wpisu obliczeniowego dla uruchomionego serwera proxy Git Server.
Kliknij pozycję Edytuj uprawnienia.
W oknie dialogowym usuń wpis Can Attach To dla wszystkich użytkowników.
Rozwiązywanie problemów
W tej sekcji opisano typowe problemy i sposoby ich diagnozowania.
Lista kontrolna typowych problemów
Przed rozpoczęciem diagnozowania błędu potwierdź następujące kwestie:
- Klaster proxy jest uruchomiony z tym notesem debugowania serwera proxy Git.
- Jesteś administratorem obszaru roboczego.
Uruchom pozostałą część notesu debugowania i przechwyć wyniki. Jeśli nie możesz rozwiązać problemu lub nie widzisz żadnych zgłoszonych błędów, pomoc techniczna usługi Databricks może przejrzeć wyniki. Jeśli wymagane, wyeksportuj i wyślij notatnik debugowania jako archiwum DBC.
Zmienianie konfiguracji serwera proxy usługi Git
Jeśli usługa serwera proxy Usługi Git nie działa z konfiguracją domyślną, ustaw zmienne środowiskowe tak, aby obsługiwały infrastrukturę sieciową.
Użyj następujących zmiennych środowiskowych, aby zaktualizować konfigurację usługi serwera proxy Git:
| Zmienna środowiskowa | Forma | opis |
|---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true/false |
Ustaw tę wartość na false , jeśli używasz certyfikatu z podpisem własnym dla prywatnego serwera Git. |
GIT_PROXY_CA_CERT_PATH |
Ścieżka pliku (ciąg) | Ustaw tę opcję na ścieżkę do pliku certyfikatu urzędu certyfikacji używanego do weryfikacji protokołu SSL. Przykład: /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Ustaw ten adres URL jako protokół HTTPS dla serwera proxy zapory sieciowej w celu obsługi ruchu HTTP. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Numer portu (liczba całkowita) | Ustaw tę wartość na numer portu przypisany do portu HTTP serwera Git. |
Aby ustawić następujące zmienne środowiskowe:
- Przejdź do karty Obliczenia w obszarze roboczym usługi Azure Databricks.
- Wybierz konfigurację obliczeniową dla usługi serwera proxy Git.
- W dolnej części okienka Konfiguracja rozwiń węzeł Zaawansowane i wybierz kartę Spark .
- Dodaj zmienne środowiskowe do pola Zmienne środowiskowe .
Sprawdzenie dzienników w klastrze proxy
Plik na klastrze proxy w lokalizacji /databricks/git-proxy/git-proxy.log zawiera dzienniki, które są przydatne do celów debugowania.
Plik dziennika powinien zaczynać się od Data-plane proxy server binding to ('', 8000)…. Jeśli tak nie jest, serwer proxy nie został prawidłowo uruchomiony. Uruchom ponownie klaster lub usuń klaster i ponownie uruchom notatnik konfiguracji.
Jeśli plik dziennika rozpoczyna się od tego wiersza, przejrzyj kolejne wpisy dotyczące każdego żądania Git zainicjowanego przez operacje w folderach Git w Databricks.
Na przykład:
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
Dzienniki błędów zapisane w tym pliku mogą być przydatne, aby pomóc Tobie lub zespołowi wsparcia Databricks w rozwiązywaniu problemów.
Błędy certyfikatu SSL
Może zostać wyświetlony następujący błąd:
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SSL problems
Często oznacza to, że używasz repozytorium, które wymaga specjalnych certyfikatów SSL.
/databricks/git-proxy/git-proxy.log Sprawdź plik w klastrze proxy. Jeśli weryfikacja certyfikatu nie powiodła się, dodaj urząd certyfikacji do łańcucha certyfikatów systemowych:
- Wyodrębnij certyfikat główny przy użyciu przeglądarki lub innej metody i przekaż go do systemu plików usługi Databricks.
- Zmodyfikuj klaster Proxy Git folderów Git, aby ustawić zmienną środowiskową
GIT_PROXY_CA_CERT_PATH, która wskaże na plik certyfikatu głównego. Zobacz Zmienne środowiskowe.
Po wykonaniu tych kroków uruchom ponownie klaster.
Często zadawane pytania
Poniżej przedstawiono typowe pytania dotyczące konfiguracji i użycia serwera proxy serwera Git.
Jak sprawdzić, czy serwer proxy usługi Git jest uruchomiony?
Zaimportuj i uruchom notatnik debugowania serwera proxy Git. Wyniki pokazują, czy występują problemy z usługą serwera proxy Git.
Czy obszary robocze mogą udostępniać klastry proxy?
Każdy obszar roboczy usługi Azure Databricks wymaga własnego klastra proxy. Nie można współużytkować klastra serwera proxy w wielu obszarach roboczych, a każdy obszar roboczy może mieć tylko jeden klaster serwera proxy Git.
Czy mogę kierować tylko część ruchu Git przez serwer proxy?
Cały ruch związany z folderami Git usługi Databricks jest kierowany przez klaster proxy, nawet w przypadku publicznych repozytoriów Git. Obszar roboczy usługi Azure Databricks nie rozróżnia repozytoriów proxy i nie-proxy.
Którzy dostawcy usługi Git są obsługiwani?
Foldery Git w Databricks obsługują GitHub Enterprise, Bitbucket Server, Azure DevOps Server oraz GitLab do samodzielnego zarządzania. Inni dostawcy serwerów Git w przedsiębiorstwie powinni również pracować, jeśli są zgodni z typowymi specyfikacjami usługi Git.
Czy podpisywanie zatwierdzeń GNU Privacy Guard (GPG) jest obsługiwane?
Nr
Czy obsługiwany jest transport SSH?
Nr Obsługiwany jest tylko protokół HTTPS.
Czy mogę użyć portu HTTPS innego niż domyślny?
W notesie włączania założono, że serwer Git używa domyślnego portu HTTPS 443. Ustaw zmienną środowiskową GIT_PROXY_CUSTOM_HTTP_PORT , aby używać innego portu.
Czy użytkownicy muszą zmienić adresy URL usługi Git dla serwera proxy?
Nr Użytkownicy wprowadzają normalny adres URL repozytorium Git, na przykład https://git.company.com/org/repo-name.git. Cały ruch Git dla folderów Git w Databricks jest kierowany przez serwer proxy transparentnie.
Jak działa uwierzytelnianie z serwerem proxy?
Tak, serwer proxy używa poświadczeń usługi Git użytkownika do uwierzytelniania na serwerze Git. Dostęp jest ograniczony przez uprawnienia określone w tym poświadczeniu.