Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ten artykuł zawiera informacje na temat korzystania z zestawu Azure Machine Learning SDK w wersji 1. Zestaw SDK w wersji 1 jest przestarzały od 31 marca 2025 r. Wsparcie dla niego zakończy się 30 czerwca 2026 r. Do tej pory można zainstalować zestaw SDK w wersji 1 i używać go. Istniejące przepływy pracy korzystające z zestawu SDK w wersji 1 będą nadal działać po dacie zakończenia pomocy technicznej. Mogą one jednak być narażone na zagrożenia bezpieczeństwa lub niespójności w przypadku zmian architektury w produkcie.
Zalecamy przejście do zestawu SDK w wersji 2 przed 30 czerwca 2026 r. Aby uzyskać więcej informacji na temat zestawu SDK w wersji 2, zobacz Co to jest interfejs wiersza polecenia usługi Azure Machine Learning i zestaw Python SDK w wersji 2? oraz dokumentacja zestawu SDK w wersji 2.
W tym artykule pokazano, jak uzyskać dostęp do danych za pomocą usługi Azure Machine Learning Studio. Nawiąż połączenie z danymi w usługach Azure Storage przy użyciu magazynów danych usługi Azure Machine Learning. Następnie spakuj te dane dla zadań przepływu pracy uczenia maszynowego przy użyciu zestawów danych usługi Azure Machine Learning.
Ta tabela definiuje i podsumowuje zalety magazynów danych i zestawów danych.
| Obiekt | opis | Świadczenia |
|---|---|---|
| Magazyny danych | Aby bezpiecznie nawiązać połączenie z usługą magazynu na platformie Azure, zapisz informacje o połączeniu (identyfikator subskrypcji, autoryzację tokenu itp.) w usłudze Key Vault skojarzonej z obszarem roboczym | Ponieważ informacje są bezpiecznie przechowywane, poświadczenia uwierzytelniania ani oryginalne źródła danych nie są zagrożone i nie trzeba już kodować tych wartości w skryptach. |
| Zestawy danych | Tworzenie zestawu danych tworzy również odwołanie do lokalizacji źródła danych wraz z kopią metadanych. Zestawy danych umożliwiają uzyskiwanie dostępu do danych podczas trenowania modelu, udostępniania danych, współpracy z innymi użytkownikami i używania bibliotek typu open source, takich jak pandas, na potrzeby eksploracji danych. | Ponieważ zestawy danych są obliczane z opóźnieniem, a dane pozostają w istniejącej lokalizacji, przechowujesz pojedynczą kopię danych w magazynie. Ponadto nie ponosisz dodatkowych kosztów magazynowania, unikasz niezamierzonych zmian w oryginalnych źródłach danych, a szybkość wydajności przepływu pracy uczenia maszynowego poprawia się. |
Aby uzyskać więcej informacji o tym, gdzie magazyny danych i zestawy danych mieszczą się w ogólnym przepływie pracy dostępu do danych usługi Azure Machine Learning, odwiedź stronę Bezpieczne uzyskiwanie dostępu do danych.
Aby uzyskać więcej informacji na temat zestawu SDK języka Python usługi Azure Machine Learning i środowiska opartego na kodzie, odwiedź stronę
- Nawiązywanie połączenia z usługami magazynu platformy Azure za pomocą magazynów danych
- Tworzenie zestawów danych usługi Azure Machine Learning
Wymagania wstępne
Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto. Wypróbuj bezpłatną lub płatną wersję usługi Azure Machine Learning
Dostęp do usługi Azure Machine Learning Studio
Obszar roboczy usługi Azure Machine Learning. Tworzenie zasobów obszaru roboczego
- Podczas tworzenia obszaru roboczego kontener obiektów blob platformy Azure i udział plików platformy Azure są automatycznie rejestrowane w obszarze roboczym jako magazyny danych. Są one nazwane
workspaceblobstoreiworkspacefilestore, odpowiednio. W przypadku wystarczających zasobówworkspaceblobstoremagazynu obiektów blob parametr jest ustawiany jako domyślny magazyn danych, który jest już skonfigurowany do użycia. Aby uzyskać więcej zasobów magazynu obiektów blob, potrzebujesz konta usługi Azure Storage z obsługiwanym typem magazynu.
- Podczas tworzenia obszaru roboczego kontener obiektów blob platformy Azure i udział plików platformy Azure są automatycznie rejestrowane w obszarze roboczym jako magazyny danych. Są one nazwane
Tworzenie magazynów danych
Magazyny danych można tworzyć na podstawie tych rozwiązań usługi Azure Storage. W przypadku nieobsługiwanych rozwiązań magazynu i zaoszczędzenia kosztów ruchu wychodzącego danych podczas eksperymentów uczenia maszynowego należy przenieść dane do obsługiwanego rozwiązania usługi Azure Storage. Aby uzyskać więcej informacji na temat magazynów danych, odwiedź ten zasób.
Magazyny danych można tworzyć przy użyciu dostępu opartego na poświadczeniach lub dostępu opartego na tożsamościach.
Utwórz nowy magazyn danych za pomocą programu Azure Machine Learning Studio.
Ważne
Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracji, aby upewnić się, że studio może uzyskać dostęp do danych. Odwiedź stronę Izolacja sieci i prywatność , aby uzyskać więcej informacji na temat odpowiednich kroków konfiguracji.
- Zaloguj się do usługi Azure Machine Learning Studio.
- Wybierz pozycję Dane w okienku po lewej stronie w obszarze Zasoby.
- W górnej części wybierz pozycję Magazyny danych.
- Wybierz pozycję +Utwórz.
- Wypełnij formularz, aby utworzyć i zarejestrować nowy magazyn danych. Formularz jest inteligentnie aktualizowany na podstawie wybranych opcji typu magazynu i typu uwierzytelniania platformy Azure. Aby uzyskać więcej informacji o tym, gdzie znaleźć poświadczenia uwierzytelniania potrzebne do wypełnienia tego formularza, odwiedź sekcję dotyczącą dostępu do magazynu i uprawnień tego dokumentu.
Poniższy zrzut ekranu przedstawia panel tworzenia magazynu danych obiektów blob platformy Azure :
Tworzenie zasobów danych
Po utworzeniu magazynu danych utwórz zestaw danych w celu interakcji z danymi. Zestawy danych pakują dane do przypadkowo ocenianego obiektu eksploatacyjnego dla zadań uczenia maszynowego — na przykład trenowania. Odwiedź stronę Tworzenie zestawów danych usługi Azure Machine Learning, aby uzyskać więcej informacji na temat zestawów danych.
Zestawy danych mają dwa typy: FileDataset i TabularDataset. Zestawy plików tworzą odwołania do pojedynczych lub wielu plików lub publicznych adresów URL. Tabelaryczne zestawy danych reprezentują dane w formacie tabelarycznym. Zestawy danych tabelarycznych można tworzyć na podstawie
- .csv
- .tsv
- .parkiet
- .json plików i z wyników zapytania SQL.
W poniższych krokach opisano sposób tworzenia zestawu danych w usłudze Azure Machine Learning Studio.
Uwaga
Zestawy danych utworzone za pośrednictwem usługi Azure Machine Learning Studio są automatycznie rejestrowane w obszarze roboczym.
Przejdź do usługi Azure Machine Learning Studio
W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane. Na karcie Zasoby danych wybierz pozycję Utwórz, jak pokazano na poniższym zrzucie ekranu:
- Nadaj zasobowi danych nazwę i opcjonalny opis. Następnie w obszarze Typ wybierz typ zestawu danych, plik lub tabelaryczny, jak pokazano na poniższym zrzucie ekranu:
- Zostanie otwarte okienko Źródło danych , jak pokazano na poniższym zrzucie ekranu:
Dostępne są różne opcje źródła danych. W przypadku danych już przechowywanych na platformie Azure wybierz pozycję "Z usługi Azure Storage". Aby przekazać dane z dysku lokalnego, wybierz pozycję "Z plików lokalnych". W przypadku danych przechowywanych w publicznej lokalizacji internetowej wybierz pozycję "Z plików internetowych". Zasób danych można również utworzyć na podstawie bazy danych SQL lub z usługi Azure Open Datasets.
W kroku wyboru pliku wybierz lokalizację, w której platforma Azure powinna przechowywać dane, oraz pliki danych, których chcesz użyć.
- Włącz walidację pomijania, jeśli dane są w sieci wirtualnej. Aby uzyskać więcej informacji na temat izolacji i prywatności sieci wirtualnej, odwiedź ten zasób.
Wykonaj kroki, aby ustawić ustawienia analizowania danych i schemat zasobu danych. Ustawienia są domyślnie ustawiane na podstawie typu pliku, a przed utworzeniem elementu danych można je dodatkowo skonfigurować.
Po osiągnięciu kroku Przegląd wybierz pozycję Utwórz na ostatniej stronie
Podgląd danych i profil
Po utworzeniu zestawu danych sprawdź, czy możesz wyświetlić podgląd i profil w programie Studio:
- Zaloguj się do usługi Azure Machine Learning Studio
- W obszarze Zasoby w obszarze nawigacji po lewej stronie wybierz pozycję Dane , jak pokazano na poniższym zrzucie ekranu:
- Wybierz nazwę zestawu danych, który chcesz wyświetlić.
- Wybierz kartę Eksploruj.
- Wybierz kartę Podgląd , jak pokazano na poniższym zrzucie ekranu:
- Wybierz kartę Profil , jak pokazano na poniższym zrzucie ekranu:
Aby sprawdzić, czy zestaw danych jest gotowy do uczenia maszynowego, możesz użyć statystyk podsumowania w zestawie danych. W przypadku kolumn nieliczbowych te statystyki obejmują tylko podstawowe miary statystyczne — na przykład minimalną, maksymalną i liczbę błędów. Kolumny liczbowe oferują momenty statystyczne i szacowane kwantyle.
Profil danych zestawu danych usługi Azure Machine Learning obejmuje:
Uwaga
Puste wpisy są wyświetlane dla funkcji z nieistotnymi typami.
| Statystyka | opis |
|---|---|
| Funkcja | Nazwa podsumowania kolumny |
| Profil | Wizualizacja w wierszu oparta na typie wywnioskowanym. Ciągi, wartości logiczne i daty mają liczby wartości. Liczba dziesiętna (liczbowa) przybliżyła histogramy. Te wizualizacje zapewniają szybką wiedzę na temat dystrybucji danych |
| Rozkład typów | Liczba wartości w wierszu typów w kolumnie. Wartości null są własnym typem, więc ta wizualizacja może wykryć dziwne lub brakujące wartości |
| Typ | Wywnioskowany typ kolumny. Możliwe wartości to: ciągi, wartości logiczne, daty i liczby dziesiętne |
| Minimum | Minimalna wartość kolumny. Puste wpisy są wyświetlane dla funkcji, których typ nie ma nieodłącznej kolejności (na przykład wartości logicznych) |
| Maksimum | Maksymalna wartość kolumny. |
| Liczba | Łączna liczba brakujących i niezwiązanych wpisów w kolumnie |
| Liczba niebrakujących | Liczba wpisów w kolumnie, których nie brakuje. Puste ciągi i błędy są traktowane jako wartości, więc nie przyczyniają się do "nie brakuje liczby". |
| Kwantyle | Przybliżone wartości w każdym kwantylu w celu zapewnienia poczucia rozkładu danych |
| Średnia | Średnia arytmetyczna lub średnia kolumny |
| Odchylenie standardowe | Miara ilości rozproszenia lub odmiany danych tej kolumny |
| Wariancja | Miara tego, jak daleko dane tej kolumny rozkładają się na podstawie jej średniej wartości |
| Skośność | Mierzy różnicę danych tej kolumny z rozkładu normalnego |
| Kurtoza | Mierzy stopień "ogona" danych tej kolumny w porównaniu z rozkładem normalnym |
Dostęp do magazynu i uprawnienia
Aby zapewnić bezpieczne połączenie z usługą Azure Storage, usługa Azure Machine Learning wymaga uprawnień dostępu do odpowiedniego magazynu danych. Ten dostęp zależy od poświadczeń uwierzytelniania używanych do rejestrowania magazynu danych.
Sieć wirtualna
Jeśli twoje konto magazynu danych znajduje się w sieci wirtualnej, wymagane są dodatkowe kroki konfiguracji, aby upewnić się, że usługa Azure Machine Learning ma dostęp do danych. Odwiedź stronę Korzystanie z usługi Azure Machine Learning Studio w sieci wirtualnej, aby upewnić się, że odpowiednie kroki konfiguracji są stosowane podczas tworzenia i rejestrowania magazynu danych.
Sprawdzanie poprawności dostępu
Ostrzeżenie
Dostęp pomiędzy dzierżawcami do kont pamięci masowej nie jest obsługiwany. Jeśli twój scenariusz wymaga dostępu między dzierżawami, skontaktuj się z zespołem ds. wsparcia danych dla Azure Machine Learning, aby uzyskać pomoc dotyczącą niestandardowego rozwiązania programistycznego.
W ramach początkowego procesu tworzenia i rejestracji magazynu danych usługa Azure Machine Learning automatycznie weryfikuje, czy podstawowa usługa magazynu istnieje i czy jednostka użytkownika (nazwa użytkownika, jednostka usługi lub token SAS) ma dostęp do określonego magazynu.
Po utworzeniu magazynu danych ta walidacja jest wykonywana tylko dla metod, które wymagają dostępu do bazowego kontenera magazynu. Walidacja nie jest wykonywana za każdym razem, gdy są pobierane obiekty magazynu danych. Na przykład walidacja odbywa się podczas pobierania plików z magazynu danych. Jeśli jednak chcesz zmienić domyślny magazyn danych, walidacja nie zostanie wykonana.
Aby uwierzytelnić dostęp do bazowej usługi magazynu, podaj klucz konta, tokeny sygnatur dostępu współdzielonego (SAS) lub jednostkę usługi zgodnie z typem magazynu danych, który chcesz utworzyć. Macierz typów magazynu zawiera listę obsługiwanych typów uwierzytelniania odpowiadających każdemu typowi magazynu danych.
Klucz konta, token SAS i informacje o jednostce usługi można znaleźć w witrynie Azure Portal.
Aby uzyskać klucz konta do uwierzytelniania, wybierz pozycję Konta magazynu w okienku po lewej stronie i wybierz konto magazynu, które chcesz zarejestrować
- Strona Przegląd zawiera informacje, takie jak nazwa konta, kontener i nazwa udziału plików
- Rozwiń węzeł Zabezpieczenia i sieć w lewym okienku nawigacyjnym
- Wybierz pozycję Klucze dostępu.
- Dostępne wartości klucza służą jako wartości klucza konta
Aby uzyskać token SAS na potrzeby uwierzytelniania, wybierz pozycję Konta magazynu w okienku po lewej stronie i wybierz konto magazynu, które chcesz
- Aby uzyskać wartość klucza dostępu, rozwiń węzeł Zabezpieczenia i sieć w lewym okienku nawigacyjnym
- Wybierz pozycję Sygnatura dostępu współdzielonego
- Ukończ proces generowania wartości sygnatury dostępu współdzielonego
Aby użyć podmiotu usługi do uwierzytelniania, przejdź do Rejestracji aplikacji i wybierz aplikację, której chcesz użyć
- Odpowiednia strona Przegląd zawiera wymagane informacje, takie jak identyfikator dzierżawy i identyfikator klienta
Ważne
- Aby zmienić klucze dostępu dla konta usługi Azure Storage (klucz konta lub token SAS), pamiętaj o zsynchronizowaniu nowych poświadczeń zarówno z obszarem roboczym, jak i połączonymi z nim magazynami danych. Aby uzyskać więcej informacji, odwiedź stronę synchronizowania zaktualizowanych poświadczeń.
- Jeżeli wyrejestrujesz, a następnie ponownie zarejestrujesz magazyn danych o tej samej nazwie i proces rejestracji się nie powiedzie, usługa Azure Key Vault dla twojego obszaru roboczego może nie mieć włączonego trybu miękkiego usuwania. Domyślnie miękkie usuwanie jest włączone dla wystąpienia magazynu kluczy utworzonego przez Twój obszar roboczy. Jednak może nie być włączone, jeśli użyto istniejącego magazynu kluczy lub jeśli dysponujesz obszarem roboczym utworzonym przed październikiem 2020 r. Aby uzyskać więcej informacji na temat włączania usuwania nietrwałego, odwiedź stronę Włączanie usuwania nietrwałego dla istniejącego magazynu kluczy.
Uprawnienia
W przypadku kontenera obiektów blob platformy Azure i magazynu usługi Azure Data Lake Gen 2 upewnij się, że poświadczenia uwierzytelniania mają dostęp do czytnika danych obiektu blob usługi Storage. Dowiedz się więcej o czytniku danych obiektu blob usługi Storage. Domyślnie token SAS konta nie ma uprawnień.
W przypadku dostępu do odczytu danych poświadczenia uwierzytelniania muszą mieć co najmniej uprawnienia listy i odczytu dla kontenerów i obiektów.
W przypadku dostępu do zapisu danych wymagane są również uprawnienia do zapisu i dodawania.
Szkolenie przy użyciu zestawów danych
Użyj zestawów danych w eksperymentach uczenia maszynowego na potrzeby trenowania modeli uczenia maszynowego. Dowiedz się więcej na temat trenowania za pomocą zestawów danych.
Następne kroki
- Szczegółowy przykład trenowania przy użyciu zestawów TabularDatasets i zautomatyzowanego uczenia maszynowego
- Szkolenie modelu
- Aby uzyskać więcej przykładów trenowania zestawu danych, zobacz przykładowe notesy