Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
DOTYCZY:
Machine Learning Studio (wersja klasyczna)
Azure Machine Learning
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z usługi ML Studio (klasycznej) do usługi Azure Machine Learning.
- Dowiedz się więcej o usłudze Azure Machine Learning
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Podczas tworzenia nowego obszaru roboczego w usłudze Machine Learning Studio (wersja klasyczna) dołączana jest domyślnie wiele przykładowych zestawów danych i eksperymentów. Wiele z tych przykładowych zestawów danych jest używanych przez przykładowe modele w galerii sztucznej inteligencji platformy Azure. Inne są uwzględniane jako przykłady różnych typów danych zwykle używanych w uczeniu maszynowym.
Niektóre z tych zestawów danych są dostępne w usłudze Azure Blob Storage. W przypadku tych zestawów danych poniższa tabela zawiera bezpośredni link. Te zestawy danych można używać w eksperymentach przy użyciu modułu Import Data (Importowanie danych).
Pozostałe przykładowe zestawy danych są dostępne w obszarze roboczym w obszarze Zapisane zestawy danych. Tę pozycję można znaleźć na palecie modułów po lewej stronie kanwy eksperymentu w usłudze Machine Learning Studio (wersja klasyczna). Możesz użyć dowolnego z tych zestawów danych we własnym eksperymencie, przeciągając go na kanwę eksperymentu.
Zestawy danych
| Nazwa zestawu danych | Opis zestawu danych |
|---|---|
| Zestaw danych klasyfikacji binarnej dotyczący dochodów w spisie powszechnym dla dorosłych | Podzbiór bazy danych spisu z 1994 r., obejmujący pracujących dorosłych osób w wieku powyżej 16 lat z wskaźnikiem dochodów większym niż 100. Użycie: klasyfikuj osoby używające danych demograficznych, aby przewidzieć, czy dana osoba zarabia ponad 50 tys. rocznie. Powiązane badania: Kohavi, R., Becker, B., (1996). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
| Zestaw danych kodów lotniska | Kody portów lotniczych USA. Ten zestaw danych zawiera jeden wiersz dla każdego lotniska w USA, podając identyfikator lotniska i nazwę wraz z lokalizacją miasta i stanu. |
| Dane dotyczące cen samochodów (nieprzetworzone) | Informacje o samochodach według marki i modelu, w tym cena, cechy, takie jak liczba cylindrów i MPG, a także ocena ryzyka ubezpieczeniowego. Ocena ryzyka jest początkowo skojarzona z ceną samochodową. Następnie jest dostosowywany pod kątem rzeczywistego ryzyka w procesie, który aktuariusze nazywają oceną symboli. Wartość +3 wskazuje, że auto jest ryzykowne i wartość -3, że jest prawdopodobnie bezpieczna. Użycie: przewidywanie oceny ryzyka według funkcji przy użyciu regresji lub klasyfikacji wielowariancji. Powiązane badania: Schlimmer, J.C. (1987). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
| Zestaw danych UCI wypożyczania rowerów | Zestaw danych UCI Bike Rental oparty na rzeczywistych danych firmy Capital Bikeshare, która utrzymuje sieć wypożyczania rowerów w Waszyngtonie. Zestaw danych zawiera jeden wiersz dla każdej godziny każdego dnia w 2011 i 2012 r. dla łącznie 17 379 wierszy. Zakres godzinowych wypożyczeń rowerów wynosi od 1 do 977. |
| Obraz RGB Bill Gates | Publicznie dostępny plik obrazu przekonwertowany na dane CSV. Kod konwersji obrazu jest udostępniany na stronie szczegółów modelu kwantyzacji kolorów przy użyciu klastrowania K-Średnich. |
| Dane dotyczące dawstwa krwi | Podzestaw danych z bazy danych dawcy krwi Centrum Usługi Transfuzji Krwi Hsin-Chu City, Tajwan. Dane dawcy obejmują miesiące od ostatniej darowizny) i częstotliwość lub łączną liczbę darowizn, czas od ostatniej darowizny i ilość krwi przekazanej. Użycie: Celem jest przewidywanie poprzez klasyfikację, czy dawca przekazał krew w marcu 2007 r., gdzie 1 wskazuje dawcę w okresie docelowym, a 0 nie-dawcy. Powiązane badania: Yeh, I.C., (2008). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Yeh, I-Cheng, Yang, King-Jang i Ting, Tao-Ming, "Odkrycie wiedzy na temat modelu RFM przy użyciu sekwencji Bernoulli, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018 |
| Dane dotyczące raka piersi | Jeden z trzech zestawów danych związanych z rakiem dostarczonych przez Instytut Onkologii, który pojawia się często w literaturze uczenia maszynowego. Łączy informacje diagnostyczne z cechami z analizy laboratoryjnej około 300 próbek tkanek. Użycie: Klasyfikuj typ raka, na podstawie 9 atrybutów, z których niektóre są liniowe, a niektóre są podzielone na kategorie. Powiązane badania: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
| Cechy raka piersi | Zestaw danych zawiera informacje o 102 tysiącach podejrzanych regionów (kandydatów) obrazów rentgenowskich, z których każdy został opisany przez 117 cech. Funkcje są własnością i ich znaczenie nie jest ujawniane przez twórców zestawów danych (Siemens Healthcare). |
| Informacje o raku piersi | Zestaw danych zawiera dodatkowe informacje dla każdego podejrzanego regionu obrazu rentgenowskiego. Każdy przykład zawiera informacje (na przykład etykieta, identyfikator pacjenta, współrzędne fragmentu w odniesieniu do całego obrazu) dotyczące odpowiedniego numeru wiersza w zestawie danych cech raka piersi. Każdy pacjent ma kilka przykładów. W przypadku pacjentów z rakiem niektóre przykłady są pozytywne, a niektóre są negatywne. Dla pacjentów, którzy nie mają raka, wszystkie przykłady są negatywne. Zestaw danych zawiera 102 tysiące przykładów. Zestaw danych jest stronniczy, 0,6% punktów jest dodatnich, pozostałe są ujemne. Zestaw danych został udostępniony przez Firmę Siemens Healthcare. |
| Udostępnione etykiety aplikacji CRM | Etykiety z wyzwania prognozowania relacji z klientem w ramach KDD Cup 2009 (orange_small_train_appetency.labels). |
| Udostępnione etykiety rezygnacji CRM | Etykiety z wyzwania predykcji relacji z klientami KDD Cup 2009 (orange_small_train_churn.labels). |
| Udostępniony zestaw danych CRM | Te dane pochodzą z wyzwania przewidywania relacji klienta KDD Cup 2009 (orange_small_train.data.zip). Zestaw danych zawiera 50 tys. klientów firmy French Telecom Orange. Każdy klient ma 230 anonimowych funkcji, z których 190 jest liczbowych i 40 są podzielone na kategorie. Funkcje są bardzo rzadkie. |
| Udostępnione etykiety upsellingowe CRM | Etykiety z konkursu KDD Cup 2009 dotyczącego przewidywania relacji z klientami (orange_large_train_upselling.labels). |
| Dane regresji wydajności energetycznej | Kolekcja symulowanych profilów energetycznych oparta na 12 różnych kształtach budynku. Budynki różnią się ośmioma cechami. Obejmuje to powierzchnię glazury, rozkład powierzchni glazury i orientację. Użycie: użyj regresji lub klasyfikacji, aby przewidzieć ocenę efektywności energetycznej na podstawie jednej z dwóch rzeczywistych odpowiedzi. W przypadku klasyfikacji wieloklasowej zmienna odpowiedzi jest zaokrąglona do najbliższej liczby całkowitej. Powiązane badania: Xifara, A. & Tsanas, A. (2012). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
| Dane opóźnień lotów |
Dane dotyczące punktualności lotów pasażerskich pobrane z danych TranStats Departamentu Transportu USA (na czas).
Zestaw danych obejmuje okres od kwietnia do października 2013 r. Przed przekazaniem do usługi Machine Learning Studio (wersja klasyczna) zestaw danych został przetworzony w następujący sposób:
|
| Punktualność lotów (surowe dane) | Zapisy przylotów i odlotów samolotów wewnątrz Stanów Zjednoczonych od października 2011 r. Użycie: przewidywanie opóźnień lotów. Powiązane badania: Od amerykańskiego działu transportu https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time. |
| Dane pożarów lasu | Zawiera dane pogodowe, takie jak indeksy temperatury i wilgotności oraz prędkość wiatru. Dane pochodzą z obszaru północno-wschodniej Portugalii w połączeniu z zapisami pożarów lasów. Użycie: Jest to trudne zadanie regresji, w którym celem jest przewidywanie spalonego obszaru pożarów lasów. Powiązane badania: Cortez, P., & Morais, A. (2008). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science [Cortez i Morais, 2007] P. Cortez i A. Morais. Podejście do wyszukiwania danych w celu przewidywania pożarów lasów przy użyciu danych meteorologicznych. W J. Neves, M. F. Santos i J. Machado (red.), New Trends in Artificial Intelligence, Materiały z 13. Portugalskiej Konferencji na temat Sztucznej Inteligencji EPIA 2007, grudzień, Guimarães, Portugalia, s. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Dostępne pod adresem: http://www.dsi.uminho.pt/~pcortez/fires.pdf. |
| Zestaw danych UCI dotyczący niemieckiej karty kredytowej | Zestaw danych UCI Statlog (niemiecka karta kredytowa) (Statlog+German+Credit+Data) przy użyciu pliku german.data. Zestaw danych klasyfikuje osoby, opisane przez zestaw atrybutów, jako niskie lub wysokie ryzyko kredytowe. Każdy przykład reprezentuje osobę. Istnieje 20 cech, zarówno liczbowych, jak i kategorialnych oraz etykiety binarnej (wartość ryzyka kredytowego). Wpisy wysokiego ryzyka kredytowego mają etykietę = 2, wpisy niskiego ryzyka kredytowego mają etykietę = 1. Koszt błędnego sklasyfikowania przykładu niskiego ryzyka jako wysokiego wynosi 1, natomiast koszt błędnej klasyfikacji przykładu wysokiego ryzyka wynosi 5. |
| Tytuły filmów IMDB | Zestaw danych zawiera informacje o filmach, które zostały ocenione w tweetach twitterowych: IDENTYFIKATOR filmu IMDB, nazwa filmu, gatunek i rok produkcji. Zestaw danych zawiera 17 000 filmów. Zestaw danych został wprowadzony w dokumencie "S. Dooms, T. De Pessemier i L. Martens. MovieTweetings: zestaw danych oceny filmu zebrany z Serwisu Twitter. Warsztaty dotyczące crowdsourcingu i obliczeń ludzkich dla systemów rekomendacji, CrowdRec na RecSys 2013. |
| Dane dotyczące dwóch klas Iris | Jest to być może najbardziej znana baza danych, która znajduje się w literaturze rozpoznawania wzorców. Zestaw danych jest stosunkowo mały, zawierający 50 przykładów każdego z pomiarów płatków z trzech odmian irysów. Użycie: przewidywanie typu irysów na podstawie pomiarów. Powiązane badania: Fisher, R.A. (1988). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
| Tweet filmowy | Zestaw danych to rozszerzona wersja zestawu danych Movie Tweetings. Zestaw danych ma 170 000 ocen dla filmów, wyodrębnionych z dobrze ustrukturyzowanych tweetów na Twitterze. Każde wystąpienie reprezentuje tweet i jest krotką: identyfikator użytkownika, identyfikator filmu IMDb, ocena, sygnatura czasowa, liczba polubień tego tweetu i liczba retweetów tego tweetu. Zestaw danych został udostępniony przez A. Said, S. Dooms, B. Loni i D. Tikk for Recommender Systems Challenge 2014. |
| Dane MPG dla różnych samochodów | Ten zestaw danych jest nieco zmodyfikowaną wersją zestawu danych udostępnioną przez bibliotekę StatLib uniwersytetu Carnegie Mellon University. Zestaw danych został użyty w 1983 roku w amerykańskiej ekspozycji Stowarzyszenia Statystycznego. Dane wymieniają zużycie paliwa dla różnych samochodów w milach na galon. Zawiera również informacje, takie jak liczba cylindrów, pojemność silnika, moc silnika, łączna waga i przyspieszenie. Użycie: przewidywanie zużycia paliwa na podstawie trzech wielowartościowych atrybutów dyskretnych i pięciu atrybutów ciągłych. Powiązane badania: StatLib, Carnegie Mellon University, (1993). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
| Zestaw danych binarnej klasyfikacji cukrzycy u Indian Pima | Podzbiór danych z bazy danych Krajowego Instytutu Cukrzycy oraz Chorób Układu Pokarmowego i Nerek. Zestaw danych został przefiltrowany, aby skupić się na pacjentkach pochodzenia Pima. Dane obejmują dane medyczne, takie jak poziom glukozy i insuliny, a także czynniki stylu życia. Użycie: przewidywanie, czy podmiot ma cukrzycę (klasyfikację binarną). Powiązane badania: Sigillito, V. (1990). Repozytorium UCI Machine Learning "https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science |
| Dane klienta restauracji | Zestaw metadanych dotyczących klientów, w tym dane demograficzne i preferencje. Użycie: użyj tego zestawu danych, w połączeniu z dwoma innymi zestawami danych restauracji, aby wytrenować i przetestować system rekomendacji. Powiązane badania: Bache, K. i Lichman, M. (2013). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
| Dane dotyczące funkcji restauracji | Zestaw metadanych dotyczących restauracji i ich funkcji, takich jak typ żywności, styl jadalni i lokalizacja. Użycie: użyj tego zestawu danych, w połączeniu z dwoma innymi zestawami danych restauracji, aby wytrenować i przetestować system rekomendacji. Powiązane badania: Bache, K. i Lichman, M. (2013). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
| Oceny restauracji | Zawiera oceny podane przez użytkowników do restauracji w skali od 0 do 2. Użycie: użyj tego zestawu danych, w połączeniu z dwoma innymi zestawami danych restauracji, aby wytrenować i przetestować system rekomendacji. Powiązane badania: Bache, K. i Lichman, M. (2013). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
| Steel Annealing wieloklasowy zestaw danych | Ten zestaw danych zawiera serię zapisów z prób wyżarzania stali. Zawiera on atrybuty fizyczne (szerokość, grubość, typ (cewka, arkusz itp.) wynikowych typów stali. Użycie: przewidywanie dowolnego z dwóch atrybutów klasy liczbowej: twardość lub siła. Można również analizować korelacje między atrybutami. Klasy stalowe są zgodne ze standardowym standardem zdefiniowanym przez SAE i inne organizacje. Szukasz konkretnej oceny (zmiennej klasy) i chcesz zrozumieć wymagane wartości. Powiązane badania: Sterling, D. & Buntine, W. (NA). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Przydatny przewodnik po klasach stalowych można znaleźć tutaj: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf |
| Dane teleskopu | Rejestr wybuchów cząstek gamma o wysokiej energii oraz szumu tła, oba symulowane przy użyciu metody Monte Carlo. Celem symulacji było zwiększenie dokładności lądowych klimatyzacyjnych teleskopów gamma Cherenkov. Odbywa się to przy użyciu metod statystycznych, aby odróżnić żądany sygnał (deszcze promieniowania Cherenkov) i szum tła (deszcze hadroniczne inicjowane przez promienie kosmiczne w górnej atmosferze). Dane zostały wstępnie przetworzone, aby utworzyć wydłużony klaster, którego długa oś jest zorientowana na środek kamery. Cechy tego wielokropka (często nazywane parametrami Hillas) są jednymi z parametrów obrazu, które mogą być używane do dyskryminacji. Użycie: określ, czy obraz prysznica reprezentuje sygnał, czy szum tła. Uwagi: Dokładność klasyfikacji prostej nie ma znaczenia dla tych danych, ponieważ klasyfikowanie zdarzenia w tle jako sygnału jest gorsze niż klasyfikowanie zdarzenia sygnału jako tła. Dla porównania różnych klasyfikatorów należy użyć grafu ROC. Prawdopodobieństwo zaakceptowania zdarzenia w tle jako sygnału musi być poniżej jednego z następujących progów: 0,01, 0,02, 0,05, 0,1 lub 0,2. Należy również zauważyć, że liczba wydarzeń w tle (h, dla deszczy hadronowych) jest niedoszacowana. W rzeczywistych pomiarach klasa h lub szum reprezentuje większość zdarzeń. Powiązane badania: Bock, R.K. (1995). Repozytorium UCI Machine Learninghttps://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information |
| Zestaw danych pogody |
Godzinowe lądowe obserwacje pogodowe z NOAA (scalone dane od 201304 do 201310).
Dane pogodowe obejmują obserwacje ze stacji pogodowych na lotnisku, obejmujące okres od kwietnia do października 2013 r. Przed przekazaniem do usługi Machine Learning Studio (wersja klasyczna) zestaw danych został przetworzony w następujący sposób:
|
| Wikipedia SP 500 Dataset |
Dane pochodzą z Wikipedii (https://www.wikipedia.org/) na podstawie artykułów każdej firmy S&P 500 przechowywanej jako dane XML.
Przed przekazaniem do usługi Machine Learning Studio (wersja klasyczna) zestaw danych został przetworzony w następujący sposób:
|
| direct_marketing.csv | Zestaw danych zawiera dane klientów i wskazówki dotyczące ich odpowiedzi na bezpośrednią kampanię wysyłkową. Każdy wiersz reprezentuje klienta. Zestaw danych zawiera dziewięć funkcji dotyczących danych demograficznych użytkowników i przeszłych zachowań oraz trzy kolumny etykiet (odwiedź, konwersję i wydatki). Visit to kolumna binarna wskazująca, że klient odwiedził po kampanii marketingowej. Konwersja wskazuje, że klient kupił coś. Wydatki to kwota, która została wydana. Zestaw danych został udostępniony przez Kevina Hillstroma dla aplikacji MineThatData E-Mail Analytics and Data Mining Challenge. |
| lyrl2004_tokens_test.csv | Cechy przykładów testowych w zestawie danych wiadomości RCV1-V2 Reuters. Zestaw danych zawiera 781 tys. artykułów prasowych wraz z ich identyfikatorami (pierwsza kolumna zestawu danych). Każdy artykuł jest tokenizowany, usuwane są słowa stop, i sprowadzane do formy podstawowej. Zestaw danych został udostępniony przez Davida. D. Lewis. |
| lyrl2004_tokens_train.csv | Cechy przykładów szkoleniowych w zestawie danych wiadomości RCV1-V2 Reuters. Zestaw danych zawiera 23K artykułów z wiadomościami wraz z ich identyfikatorami (pierwsza kolumna zestawu danych). Każdy artykuł jest tokenizowany, usuwane są słowa stop, i sprowadzane do formy podstawowej. Zestaw danych został udostępniony przez Davida. D. Lewis. |
|
network_intrusion_detection.csv |
Zestaw danych z programu KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html). Zestaw danych został pobrany i przechowywany w usłudze Azure Blob Storage (network_intrusion_detection.csv) oraz zawiera zarówno zestawy danych szkoleniowych, jak i testowych. Zbiór danych treningowych zawiera około 126 000 wierszy i 43 kolumny, w tym etykiety. Trzy kolumny są częścią informacji o etykiecie, a 40 kolumn, składających się z cech numerycznych i tekstowych/kategorycznych, jest dostępnych do trenowania modelu. Dane testowe mają około 22,5 tys. przykładów testów z tymi samymi 43 kolumnami co w danych treningowych. |
| rcv1-v2.topics.qrels.csv | Przydziały tematów artykułów prasowych w zbiorze danych RCV1-V2 Reuters. Artykuł z wiadomościami można przypisać do kilku tematów. Format każdego wiersza to "<nazwa><tematu o identyfikatorze> dokumentu 1". Zestaw danych zawiera 2,6 mln przypisań tematów. Zestaw danych został udostępniony przez Davida. D. Lewis. |
| student_performance.txt | Te dane pochodzą z wyzwania oceny wydajności uczniów KDD Cup 2010 (ocena wydajności uczniów). Używane dane to zestaw treningowy Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Zestaw danych z wyzwania KDD Cup 2010 w zakresie eksploracji danych edukacyjnych. Znajdź go w downloads.jsp. Zestaw danych został pobrany i zapisany w usłudze Azure Blob Storage (student_performance.txt) i zawiera pliki dziennika z systemu nauczania uczniów. Podane funkcje obejmują identyfikator problemu i jego krótki opis, identyfikator ucznia, sygnaturę czasową i liczbę prób wykonanych przez ucznia przed rozwiązaniem problemu we właściwy sposób. Oryginalny zestaw danych zawiera 8,9 miliona rekordów; ten zestaw danych został zredukowany do pierwszych 100 000 wierszy. Zestaw danych zawiera 23 kolumny rozdzielane tabulatorami i mają różne typy: numeryczne, kategorialne i znacznik czasu. |