Udostępnij przez


Nawiązywanie połączenia z danymi za pomocą usługi Azure Machine Learning studio

Ważne

Ten artykuł zawiera informacje na temat korzystania z zestawu Azure Machine Learning SDK w wersji 1. Zestaw SDK w wersji 1 jest przestarzały od 31 marca 2025 r. Wsparcie dla niego zakończy się 30 czerwca 2026 r. Do tej pory można zainstalować zestaw SDK w wersji 1 i używać go. Istniejące przepływy pracy korzystające z zestawu SDK w wersji 1 będą nadal działać po dacie zakończenia pomocy technicznej. Mogą one jednak być narażone na zagrożenia bezpieczeństwa lub niespójności w przypadku zmian architektury w produkcie.

Zalecamy przejście do zestawu SDK w wersji 2 przed 30 czerwca 2026 r. Aby uzyskać więcej informacji na temat zestawu SDK w wersji 2, zobacz Co to jest interfejs wiersza polecenia usługi Azure Machine Learning i zestaw Python SDK w wersji 2? oraz dokumentacja zestawu SDK w wersji 2.

W tym artykule pokazano, jak uzyskać dostęp do danych za pomocą usługi Azure Machine Learning Studio. Nawiąż połączenie z danymi w usługach Azure Storage przy użyciu magazynów danych usługi Azure Machine Learning. Następnie spakuj te dane dla zadań przepływu pracy uczenia maszynowego przy użyciu zestawów danych usługi Azure Machine Learning.

Ta tabela definiuje i podsumowuje zalety magazynów danych i zestawów danych.

Obiekt opis Świadczenia
Magazyny danych Aby bezpiecznie nawiązać połączenie z usługą magazynu na platformie Azure, zapisz informacje o połączeniu (identyfikator subskrypcji, autoryzację tokenu itp.) w usłudze Key Vault skojarzonej z obszarem roboczym Ponieważ informacje są bezpiecznie przechowywane, poświadczenia uwierzytelniania ani oryginalne źródła danych nie są zagrożone i nie trzeba już kodować tych wartości w skryptach.
Zestawy danych Tworzenie zestawu danych tworzy również odwołanie do lokalizacji źródła danych wraz z kopią metadanych. Zestawy danych umożliwiają uzyskiwanie dostępu do danych podczas trenowania modelu, udostępniania danych, współpracy z innymi użytkownikami i używania bibliotek typu open source, takich jak pandas, na potrzeby eksploracji danych. Ponieważ zestawy danych są obliczane z opóźnieniem, a dane pozostają w istniejącej lokalizacji, przechowujesz pojedynczą kopię danych w magazynie. Ponadto nie ponosisz dodatkowych kosztów magazynowania, unikasz niezamierzonych zmian w oryginalnych źródłach danych, a szybkość wydajności przepływu pracy uczenia maszynowego poprawia się.

Aby uzyskać więcej informacji o tym, gdzie magazyny danych i zestawy danych mieszczą się w ogólnym przepływie pracy dostępu do danych usługi Azure Machine Learning, odwiedź stronę Bezpieczne uzyskiwanie dostępu do danych.

Aby uzyskać więcej informacji na temat zestawu SDK języka Python usługi Azure Machine Learning i środowiska opartego na kodzie, odwiedź stronę

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto. Wypróbuj bezpłatną lub płatną wersję usługi Azure Machine Learning

  • Dostęp do usługi Azure Machine Learning Studio

  • Obszar roboczy usługi Azure Machine Learning. Tworzenie zasobów obszaru roboczego

    • Podczas tworzenia obszaru roboczego kontener obiektów blob platformy Azure i udział plików platformy Azure są automatycznie rejestrowane w obszarze roboczym jako magazyny danych. Są one nazwane workspaceblobstore i workspacefilestore, odpowiednio. W przypadku wystarczających zasobów workspaceblobstore magazynu obiektów blob parametr jest ustawiany jako domyślny magazyn danych, który jest już skonfigurowany do użycia. Aby uzyskać więcej zasobów magazynu obiektów blob, potrzebujesz konta usługi Azure Storage z obsługiwanym typem magazynu.

Tworzenie magazynów danych

Magazyny danych można tworzyć na podstawie tych rozwiązań usługi Azure Storage. W przypadku nieobsługiwanych rozwiązań magazynu i zaoszczędzenia kosztów ruchu wychodzącego danych podczas eksperymentów uczenia maszynowego należy przenieść dane do obsługiwanego rozwiązania usługi Azure Storage. Aby uzyskać więcej informacji na temat magazynów danych, odwiedź ten zasób.

Magazyny danych można tworzyć przy użyciu dostępu opartego na poświadczeniach lub dostępu opartego na tożsamościach.

Utwórz nowy magazyn danych za pomocą programu Azure Machine Learning Studio.

Ważne

Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracji, aby upewnić się, że studio może uzyskać dostęp do danych. Odwiedź stronę Izolacja sieci i prywatność , aby uzyskać więcej informacji na temat odpowiednich kroków konfiguracji.

  1. Zaloguj się do usługi Azure Machine Learning Studio.
  2. Wybierz pozycję Dane w okienku po lewej stronie w obszarze Zasoby.
  3. W górnej części wybierz pozycję Magazyny danych.
  4. Wybierz pozycję +Utwórz.
  5. Wypełnij formularz, aby utworzyć i zarejestrować nowy magazyn danych. Formularz jest inteligentnie aktualizowany na podstawie wybranych opcji typu magazynu i typu uwierzytelniania platformy Azure. Aby uzyskać więcej informacji o tym, gdzie znaleźć poświadczenia uwierzytelniania potrzebne do wypełnienia tego formularza, odwiedź sekcję dotyczącą dostępu do magazynu i uprawnień tego dokumentu.

Poniższy zrzut ekranu przedstawia panel tworzenia magazynu danych obiektów blob platformy Azure :

Zrzut ekranu przedstawiający panel tworzenia magazynu danych obiektów blob platformy Azure.

Tworzenie zasobów danych

Po utworzeniu magazynu danych utwórz zestaw danych w celu interakcji z danymi. Zestawy danych pakują dane do przypadkowo ocenianego obiektu eksploatacyjnego dla zadań uczenia maszynowego — na przykład trenowania. Odwiedź stronę Tworzenie zestawów danych usługi Azure Machine Learning, aby uzyskać więcej informacji na temat zestawów danych.

Zestawy danych mają dwa typy: FileDataset i TabularDataset. Zestawy plików tworzą odwołania do pojedynczych lub wielu plików lub publicznych adresów URL. Tabelaryczne zestawy danych reprezentują dane w formacie tabelarycznym. Zestawy danych tabelarycznych można tworzyć na podstawie

  • .csv
  • .tsv
  • .parkiet
  • .json plików i z wyników zapytania SQL.

W poniższych krokach opisano sposób tworzenia zestawu danych w usłudze Azure Machine Learning Studio.

Uwaga

Zestawy danych utworzone za pośrednictwem usługi Azure Machine Learning Studio są automatycznie rejestrowane w obszarze roboczym.

  1. Przejdź do usługi Azure Machine Learning Studio

  2. W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane. Na karcie Zasoby danych wybierz pozycję Utwórz, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający kartę Tworzenie zasobów danych.

  1. Nadaj zasobowi danych nazwę i opcjonalny opis. Następnie w obszarze Typ wybierz typ zestawu danych, plik lub tabelaryczny, jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający ustawienie nazwy, opisu i typu zasobu danych.

  1. Zostanie otwarte okienko Źródło danych , jak pokazano na poniższym zrzucie ekranu:

Ten zrzut ekranu przedstawiający okienko wyboru źródła danych.

Dostępne są różne opcje źródła danych. W przypadku danych już przechowywanych na platformie Azure wybierz pozycję "Z usługi Azure Storage". Aby przekazać dane z dysku lokalnego, wybierz pozycję "Z plików lokalnych". W przypadku danych przechowywanych w publicznej lokalizacji internetowej wybierz pozycję "Z plików internetowych". Zasób danych można również utworzyć na podstawie bazy danych SQL lub z usługi Azure Open Datasets.

  1. W kroku wyboru pliku wybierz lokalizację, w której platforma Azure powinna przechowywać dane, oraz pliki danych, których chcesz użyć.

    1. Włącz walidację pomijania, jeśli dane są w sieci wirtualnej. Aby uzyskać więcej informacji na temat izolacji i prywatności sieci wirtualnej, odwiedź ten zasób.
  2. Wykonaj kroki, aby ustawić ustawienia analizowania danych i schemat zasobu danych. Ustawienia są domyślnie ustawiane na podstawie typu pliku, a przed utworzeniem elementu danych można je dodatkowo skonfigurować.

  3. Po osiągnięciu kroku Przegląd wybierz pozycję Utwórz na ostatniej stronie

Podgląd danych i profil

Po utworzeniu zestawu danych sprawdź, czy możesz wyświetlić podgląd i profil w programie Studio:

  1. Zaloguj się do usługi Azure Machine Learning Studio
  2. W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane , jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu wyróżnia pozycję Utwórz na karcie Zasoby danych.

  1. Wybierz nazwę zestawu danych, który chcesz wyświetlić.
  2. Wybierz kartę Eksploruj.
  3. Wybierz kartę Podgląd , jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawia podgląd zestawu danych.

  1. Wybierz kartę Profil , jak pokazano na poniższym zrzucie ekranu:

Zrzut ekranu przedstawiający metadane kolumny zestawu danych na karcie Profil.

Aby sprawdzić, czy zestaw danych jest gotowy do uczenia maszynowego, możesz użyć statystyk podsumowania w zestawie danych. W przypadku kolumn nieliczbowych te statystyki obejmują tylko podstawowe miary statystyczne — na przykład minimalną, maksymalną i liczbę błędów. Kolumny liczbowe oferują momenty statystyczne i szacowane kwantyle.

Profil danych zestawu danych usługi Azure Machine Learning obejmuje:

Uwaga

Puste wpisy są wyświetlane dla funkcji z nieistotnymi typami.

Statystyka opis
Funkcja Nazwa podsumowania kolumny
Profil Wizualizacja w wierszu oparta na typie wywnioskowanym. Ciągi, wartości logiczne i daty mają liczby wartości. Liczba dziesiętna (liczbowa) przybliżyła histogramy. Te wizualizacje zapewniają szybką wiedzę na temat dystrybucji danych
Rozkład typów Liczba wartości w wierszu typów w kolumnie. Wartości null są własnym typem, więc ta wizualizacja może wykryć dziwne lub brakujące wartości
Typ Wywnioskowany typ kolumny. Możliwe wartości to: ciągi, wartości logiczne, daty i liczby dziesiętne
Minimum Minimalna wartość kolumny. Puste wpisy są wyświetlane dla funkcji, których typ nie ma nieodłącznej kolejności (na przykład wartości logicznych)
Maksimum Maksymalna wartość kolumny.
Liczba Łączna liczba brakujących i niezwiązanych wpisów w kolumnie
Liczba niebrakujących Liczba wpisów w kolumnie, których nie brakuje. Puste ciągi i błędy są traktowane jako wartości, więc nie przyczyniają się do "nie brakuje liczby".
Kwantyle Przybliżone wartości w każdym kwantylu w celu zapewnienia poczucia rozkładu danych
Średnia Średnia arytmetyczna lub średnia kolumny
Odchylenie standardowe Miara ilości rozproszenia lub odmiany danych tej kolumny
Wariancja Miara tego, jak daleko dane tej kolumny rozkładają się na podstawie jej średniej wartości
Skośność Mierzy różnicę danych tej kolumny z rozkładu normalnego
Kurtoza Mierzy stopień "ogona" danych tej kolumny w porównaniu z rozkładem normalnym

Dostęp do magazynu i uprawnienia

Aby zapewnić bezpieczne połączenie z usługą Azure Storage, usługa Azure Machine Learning wymaga uprawnień dostępu do odpowiedniego magazynu danych. Ten dostęp zależy od poświadczeń uwierzytelniania używanych do rejestrowania magazynu danych.

Sieć wirtualna

Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracji, aby upewnić się, że usługa Azure Machine Learning ma dostęp do danych. Odwiedź stronę Korzystanie z usługi Azure Machine Learning Studio w sieci wirtualnej, aby upewnić się, że odpowiednie kroki konfiguracji są stosowane podczas tworzenia i rejestrowania magazynu danych.

Sprawdzanie poprawności dostępu

Ostrzeżenie

Dostęp pomiędzy dzierżawcami do kont pamięci masowej nie jest obsługiwany. Jeśli twój scenariusz wymaga dostępu między dzierżawami, skontaktuj się z zespołem ds. wsparcia danych dla Azure Machine Learning, aby uzyskać pomoc dotyczącą niestandardowego rozwiązania programistycznego.

W ramach początkowego procesu tworzenia i rejestracji magazynu danych usługa Azure Machine Learning automatycznie weryfikuje, czy podstawowa usługa magazynu istnieje i czy jednostka użytkownika (nazwa użytkownika, jednostka usługi lub token SAS) ma dostęp do określonego magazynu.

Po utworzeniu magazynu danych ta walidacja jest wykonywana tylko dla metod, które wymagają dostępu do bazowego kontenera magazynu. Walidacja nie jest wykonywana za każdym razem, gdy są pobierane obiekty magazynu danych. Na przykład walidacja odbywa się podczas pobierania plików z magazynu danych. Jeśli jednak chcesz zmienić domyślny magazyn danych, walidacja nie zostanie wykonana.

Aby uwierzytelnić dostęp do bazowej usługi magazynu, podaj klucz konta, tokeny sygnatur dostępu współdzielonego (SAS) lub jednostkę usługi zgodnie z typem magazynu danych, który chcesz utworzyć. Macierz typów magazynu zawiera listę obsługiwanych typów uwierzytelniania odpowiadających każdemu typowi magazynu danych.

Klucz konta, token SAS i informacje o jednostce usługi można znaleźć w witrynie Azure Portal.

  • Aby uzyskać klucz konta do uwierzytelniania, wybierz pozycję Konta magazynu w okienku po lewej stronie i wybierz konto magazynu, które chcesz zarejestrować

    • Strona Przegląd zawiera informacje, takie jak nazwa konta, kontener i nazwa udziału plików
    • Rozwiń węzeł Zabezpieczenia i sieć w lewym okienku nawigacyjnym
    • Wybierz pozycję Klucze dostępu.
    • Dostępne wartości klucza służą jako wartości klucza konta
  • Aby uzyskać token SAS na potrzeby uwierzytelniania, wybierz pozycję Konta magazynu w okienku po lewej stronie i wybierz konto magazynu, które chcesz

    • Aby uzyskać wartość klucza dostępu, rozwiń węzeł Zabezpieczenia i sieć w lewym okienku nawigacyjnym
    • Wybierz pozycję Sygnatura dostępu współdzielonego
    • Ukończ proces generowania wartości sygnatury dostępu współdzielonego
  • Aby użyć podmiotu usługi do uwierzytelniania, przejdź do Rejestracji aplikacji i wybierz aplikację, której chcesz użyć

    • Odpowiednia strona Przegląd zawiera wymagane informacje, takie jak identyfikator dzierżawy i identyfikator klienta

Ważne

  • Aby zmienić klucze dostępu dla konta usługi Azure Storage (klucz konta lub token SAS), pamiętaj o zsynchronizowaniu nowych poświadczeń zarówno z obszarem roboczym, jak i połączonymi z nim magazynami danych. Aby uzyskać więcej informacji, odwiedź stronę synchronizowania zaktualizowanych poświadczeń.
  • Jeżeli wyrejestrujesz, a następnie ponownie zarejestrujesz magazyn danych o tej samej nazwie i proces rejestracji się nie powiedzie, usługa Azure Key Vault dla twojego obszaru roboczego może nie mieć włączonego trybu miękkiego usuwania. Domyślnie miękkie usuwanie jest włączone dla wystąpienia magazynu kluczy utworzonego przez Twój obszar roboczy. Jednak może nie być włączone, jeśli użyto istniejącego magazynu kluczy lub jeśli dysponujesz obszarem roboczym utworzonym przed październikiem 2020 r. Aby uzyskać więcej informacji na temat włączania usuwania nietrwałego, odwiedź stronę Włączanie usuwania nietrwałego dla istniejącego magazynu kluczy.

Uprawnienia

W przypadku kontenera obiektów blob platformy Azure i magazynu usługi Azure Data Lake Gen 2 upewnij się, że poświadczenia uwierzytelniania mają dostęp do czytnika danych obiektu blob usługi Storage. Dowiedz się więcej o czytniku danych obiektu blob usługi Storage. Domyślnie token SAS konta nie ma uprawnień.

  • W przypadku dostępu do odczytu danych poświadczenia uwierzytelniania muszą mieć co najmniej uprawnienia listy i odczytu dla kontenerów i obiektów.

  • W przypadku dostępu do zapisu danych wymagane są również uprawnienia do zapisu i dodawania.

Szkolenie przy użyciu zestawów danych

Użyj zestawów danych w eksperymentach uczenia maszynowego na potrzeby trenowania modeli uczenia maszynowego. Dowiedz się więcej na temat trenowania za pomocą zestawów danych.

Następne kroki