Udostępnij przez


Tworzenie i eksplorowanie zestawu danych usługi Azure Machine Learning z etykietami

Ważne

Ten artykuł zawiera informacje na temat korzystania z zestawu Azure Machine Learning SDK w wersji 1. Zestaw SDK w wersji 1 jest przestarzały od 31 marca 2025 r. Wsparcie dla niego zakończy się 30 czerwca 2026 r. Do tej pory można zainstalować zestaw SDK w wersji 1 i używać go. Istniejące przepływy pracy korzystające z zestawu SDK w wersji 1 będą nadal działać po dacie zakończenia pomocy technicznej. Mogą one jednak być narażone na zagrożenia bezpieczeństwa lub niespójności w przypadku zmian architektury w produkcie.

Zalecamy przejście do zestawu SDK w wersji 2 przed 30 czerwca 2026 r. Aby uzyskać więcej informacji na temat zestawu SDK w wersji 2, zobacz Co to jest interfejs wiersza polecenia usługi Azure Machine Learning i zestaw Python SDK w wersji 2? oraz dokumentacja zestawu SDK w wersji 2.

Z tego artykułu dowiesz się, jak wyeksportować etykiety danych z projektu etykietowania danych usługi Azure Machine Learning i załadować je do popularnych formatów, takich jak ramka danych pandas na potrzeby eksploracji danych.

Co to są zestawy danych z etykietami

Zestawy danych usługi Azure Machine Learning z etykietami są nazywane zestawami danych oznaczonymi etykietami. Te konkretne zestawy danych są tabelarycznymi zestawami danych z dedykowaną kolumną etykiet i są tworzone tylko jako dane wyjściowe projektów etykietowania danych usługi Azure Machine Learning. Utwórz projekt etykietowania danych na potrzeby etykietowania obrazów lub etykietowania tekstu. Usługa Machine Learning obsługuje projekty etykietowania danych na potrzeby klasyfikacji obrazów, wielu etykiet lub wielu klas oraz identyfikacji obiektów wraz z powiązanymi polami.

Wymagania wstępne

Eksportowanie etykiet danych

Po zakończeniu projektu etykietowania danych można wyeksportować dane etykiet z projektu etykietowania. Dzięki temu można przechwycić zarówno odwołanie do danych, jak i ich etykiet, a następnie wyeksportować je w formacie COCO lub jako zestaw danych usługi Azure Machine Learning.

Użyj przycisku Eksportuj na stronie Szczegóły projektu projektu etykietowania.

Przycisk Eksportuj w interfejsie użytkownika programu Studio

COCO

Plik COCO jest tworzony w domyślnym magazynie obiektów blob obszaru roboczego usługi Azure Machine Learning w folderze eksportu /coco.

Uwaga

W projektach wykrywania obiektów wyeksportowane bbox: [x,y,width,height] wartości w pliku COCO są znormalizowane. Zostały przeskalowane do wartości 1. Na przykład pole ograniczenia w lokalizacji (10, 10) o szerokości 30 pikseli, wysokości 60 pikseli w obrazie 640x480 pikseli jest oznaczone jako (0,015625, 0,02083, 0,046875, 0,125). Ponieważ współrzędne są znormalizowane, są wyświetlane jako '0.0' dla "szerokości" i "wysokości" dla wszystkich obrazów. Rzeczywista szerokość i wysokość można uzyskać przy użyciu biblioteki języka Python, takiej jak OpenCV lub Pillow(PIL).

Zestaw danych usługi Azure Machine Learning

Dostęp do wyeksportowanego zestawu danych usługi Azure Machine Learning można uzyskać w sekcji Zestawy danych w usłudze Azure Machine Learning Studio. Strona Szczegóły zestawu danych zawiera również przykładowy kod umożliwiający uzyskiwanie dostępu do etykiet z poziomu języka Python.

Wyeksportowany zestaw danych

Napiwek

Po wyeksportowaniu oznaczonych etykietami danych do zestawu danych usługi Azure Machine Learning można użyć rozwiązania AutoML do tworzenia modeli przetwarzania obrazów wyszkolonych na danych oznaczonych etykietami. Dowiedz się więcej na stronie Konfigurowanie automatycznego uczenia maszynowego w celu trenowania modeli przetwarzania obrazów przy użyciu języka Python

Eksplorowanie oznaczonych etykietami zestawów danych za pośrednictwem ramki danych biblioteki pandas

Załaduj oznaczone zestawy danych do ramki danych Pandas, aby użyć popularnych bibliotek open-source do eksploracji danych za pomocą metody to_pandas_dataframe() z klasy azureml-dataprep.

Zainstaluj klasę za pomocą następującego polecenia powłoki:

pip install azureml-dataprep

W poniższym kodzie animal_labels zestaw danych jest danymi wyjściowymi projektu etykietowania wcześniej zapisanego w obszarze roboczym. Wyeksportowany zestaw danych jest tabelarycznym zestawem danych.

DOTYCZY:SDK v1 usługi Azure Machine Learning dla języka Python

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

Następne kroki