opendatasets Pacote
Contém funcionalidade para consumir conjuntos de dados abertos do Azure como dataframes e para enriquecer dados do cliente.
Os conjuntos de dados abertos do Azure são conjuntos de dados públicos coletados que você pode usar para adicionar recursos específicos do cenário a soluções de machine learning para modelos mais precisos. Você pode converter esses conjuntos de dados públicos em dataframes spark e pandas com filtros aplicados. Para alguns conjuntos de dados, você pode usar um enriquecidor para unir os dados públicos aos seus dados. Por exemplo, você pode unir seus dados com dados meteorológicos por longitude e latitude ou cep e tempo.
Incluídos no Azure Open Datasets estão dados de domínio público para clima, censo, feriados, segurança pública e localização que ajudam você a treinar modelos de machine learning e enriquecer soluções preditivas. Os conjuntos de dados abertos estão na nuvem no Microsoft Azure e são integrados ao Azure Machine Learning. Para obter mais informações sobre como trabalhar com conjuntos de dados abertos do Azure, consulte Criar conjuntos de dados com conjuntos de dados abertos do Azure.
Para obter informações gerais sobre os Conjuntos de Dados Abertos do Azure, consulte a Documentação do Azure Open Datasets.
Pacotes
| accessories |
Contém funcionalidade que ajuda a identificar tipos de coluna em dados, incluindo lat/long, zipcode e tempo. |
| aggregators |
Contém a funcionalidade para definir como os dados unidos são agregados. Os agregadores definem operações que podem ser executadas no resultado da junção de dados de dois conjuntos de dados. Por exemplo, quando você usa uma das classes em enrichers, você pode especificar um agregador como parte da operação. Se nenhuma agregação for necessária, use AggregatorAll. |
| data |
Contém o arquivo de inicialização para recursos de dados no módulo publicholidays. |
| dataaccess |
Contém a funcionalidade que fornece métodos de acesso a arquivos de blob. Quando você usa uma classe do opendatasets pacote como a ChicagoSafety classe, as classes e funções de dataaccess neste pacote são usadas internamente. Em geral, você não precisará usar a funcionalidade diretamente no pacote dataaccess. |
| enrichers |
Contém funcionalidade para enriquecer e unir dados de dois conjuntos de dados. Geralmente, os enriquecedores unem dados de diferentes fontes. Especificamente, os enriquecedores permitem que você junte seus dados (dados do cliente) com dados de conjuntos de dados abertos do Azure ou outros conjuntos de dados públicos. |
| granularities |
Contém a funcionalidade que define medidas de tempo e distância usadas por enriquecedores. Granularidades são medidas de tempo ou distância usadas ao enrichers enriquecer dados (junção). Há granularidades de tempo, como por hora ou diária, e granularidade de localização, como a distância mais próxima. |
| selectors |
Contém funcionalidade para selecionar e unir dados de um conjunto de dados do cliente com dados de um conjunto de dados público. Os seletores definem a lógica que permite enriquecer seus dados com conjuntos de dados públicos com base em medidas de tempo e distância. Por exemplo, com um seletor, você pode encontrar dados públicos para ingressar com seus dados com base no local mais próximo ou arredondando para a mesma granularidade de tempo. Especifique os seletores ao trabalhar com uma das classes no enrichers pacote. |
Módulos
| environ |
Define classes de ambiente de runtime em que os conjuntos de dados abertos do Azure são usados. As classes neste módulo garantem que a funcionalidade do Azure Open Datasets seja otimizada para ambientes diferentes.
Em geral, você não precisa criar uma instância dessas classes de ambiente ou se preocupar com a implementação.
Em vez disso, use a |
Classes
| BingCOVID19Data |
Representa o conjunto de dados COVID-19 do Bing. Esses conjuntos de dados contêm dados do Bing COVID-19 de várias fontes confiáveis e confiáveis, incluindo a Organização Mundial da Saúde (OMS), Centros de Controle e Prevenção de Doenças (CDC), departamentos de saúde pública nacionais e estaduais, BNO News, 24/7 Wall St., e Wikipédia. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte dados de COVID-19 do Bing no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar campos de filtragem. |
| BostonSafety |
Representa o conjunto de dados público de Segurança de Boston. Este conjunto de dados contém 311 chamadas relatadas à cidade de Boston. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Os Dados de Segurança de Boston no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar campos de filtragem. |
| COVID19OpenResearch |
Representa o conjunto de dados de pesquisa aberta COVID-19. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte COVID-19 Open Research Dataset no catálogo do Microsoft Azure Open Datasets. |
| COVIDTrackingProject |
Representa o conjunto de dados do Projeto de Acompanhamento de COVID. Esses conjuntos de dados contêm o conjunto de dados do Projeto de Acompanhamento de COVID fornecendo os números mais recentes em testes, casos confirmados, internações e resultados de pacientes de todos os estados e territórios dos EUA. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte o conjunto de dados projeto de acompanhamento de COVID no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
| ChicagoSafety |
Representa o conjunto de dados público da Segurança de Chicago. Este conjunto de dados contém 311 solicitações de serviço da cidade de Chicago, incluindo reclamações históricas de código de saneamento, buracos de maconha relatados e problemas de luz nas ruas. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Os Dados de Segurança de Chicago no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar campos de filtragem. |
| CitySafety |
Classe de segurança da cidade - esta é uma classe pai que pode ser herdada por cada cidade individual. Inicializar campos de filtragem. |
| Diabetes |
Representa o conjunto de dados público de Diabetes de Exemplo. O conjunto de dados Diabetes tem 442 amostras com dez recursos, tornando-o ideal para começar a usar algoritmos de aprendizado de máquina. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Exemplo: Diabetes no catálogo do Microsoft Azure Open Datasets. |
| EcdcCOVIDCases |
Representa o Centro Europeu de Prevenção e Controle de Doenças (ECDC) Covid-19 Casos. Esses conjuntos de dados contêm do Centro Europeu de Prevenção e Controle de Doenças (ECDC). Cada linha/entrada contém o número de novos casos relatados por dia e por país/região. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Casos covid-19 do Centro Europeu de Prevenção e Controle de Doenças (ECDC) no catálogo do Microsoft Azure Open Datasets. Inicializar campos de filtragem. |
| MNIST |
Representa o conjunto de dados MNIST de dígitos manuscritos. O banco de dados MNIST de dígitos manuscritos tem um conjunto de treinamento com 60.000 exemplos e um conjunto de teste com 10.000 exemplos. Os dígitos foram normalizados em tamanho e centralizados em uma imagem de tamanho fixo. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte o banco de dados MNIST de dígitos manuscritos no catálogo do Microsoft Azure Open Datasets. Para obter um exemplo de como usar o conjunto de dados MNIST, consulte o tutorial Treinar modelos de classificação de imagem com dados MNIST e scikit-learn usando o Azure Machine Learning. |
| NoParameterOpenDatasetBase |
Classe base de trabalho dos EUA. Inicializar. |
| NoaaGfsWeather |
Representa o conjunto de dados GFS (National Oceanic and Atmospheric Administration) Global Forecast System (GFS). Este conjunto de dados contém dados de previsão do tempo por hora dos EUA de 15 dias (exemplo: temperatura, precipitação, vento) produzidos pelo GFS (Global Forecast System) da Administração Nacional Oceânica e Atmosférica (NOAA). Para obter informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NOAA Global Forecast System no catálogo do Microsoft Azure Open Datasets. Inicializar campos de filtragem. |
| NoaaIsdWeather |
Representa o ISD (Conjunto de Dados Integrado de Superfície) da NOAA (Administração Oceânica e Atmosférica Nacional). Este conjunto de dados contém dados de histórico meteorológico em todo o mundo por hora (exemplo: temperatura, precipitação, vento) provenientes da Administração Nacional Oceânica e Atmosférica (NOAA). Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NOAA Integrated Surface Data no catálogo do Microsoft Azure Open Datasets. Inicializar campos de filtragem. |
| NycSafety |
Representa o conjunto de dados público de Segurança da Cidade de Nova York. Este conjunto de dados contém todas as solicitações de serviço ao número 311 da cidade de Nova York de 2010 até agora. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Os Dados de Segurança da Cidade de Nova York no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar campos de filtragem. |
| NycTaxiBase |
Classe de táxi de Nova York - esta é uma classe pai que pode ser herdada. Inicializar campos de filtragem. |
| NycTlcFhv |
Representa o conjunto de dados público da Comissão de Táxi &Limusine de NYC. Esse conjunto de dados contém For-Hire registros de viagem do Vechicle (FHV), que incluem campos que capturam o número de licença base de expedição e a ID de localização da zona de táxi, hora e hora (arquivo de forma abaixo). Esses registros são gerados a partir dos envios de Registro de Viagem FHV feitos por bases. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte os registros de viagem da Comissão de Táxi & Limusine de NYC – For-Hire Veículo (FHV) no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
| NycTlcGreen |
Representa o conjunto de dados público de corrida de táxi verde da Nyc Taxi && Limousine Commission. Os registros de viagem de táxi verde incluem campos capturando datas/horários de retirada e entrega, locais de retirada e entrega, distâncias de viagem, tarifas itemizadas, tipos de taxa, tipos de pagamento e contagens de passageiros relatadas pelo motorista. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NYC Taxi &Limão Commission – registros de corrida de táxi verde no catálogo do Microsoft Azure Open Datasets. Para obter um exemplo de como usar a classe NycTlcGreen, consulte o tutorial Usar o aprendizado de máquina automatizado para prever tarifas de táxi. Inicializar campos de filtragem. |
| NycTlcYellow |
Representa o conjunto de dados público de corrida de táxi amarelo da Comissão de Táxi & Limusine de NYC. Os registros de viagem de táxi amarelo incluem campos capturando datas/horários de retirada e entrega, locais de retirada e entrega, distâncias de viagem, tarifas itemizadas, tipos de taxa, tipos de pagamento e contagens de passageiros relatadas pelo motorista. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NYC Taxi &Limão Commission – registros de viagem de táxi amarelo no catálogo do Microsoft Azure Open Datasets. Inicializar campos de filtragem. |
| OjSalesSimulated |
Representa o conjunto de dados simulado de vendas de suco de laranja de exemplo. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Exemplo: Dados Simulados de Vendas do OJ no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. |
| PublicHolidays |
Representa o conjunto de dados público de Feriados Públicos. Esses conjuntos de dados contêm dados de feriados públicos em todo o mundo provenientes do pacote de feriados PyPI e da Wikipédia, abrangendo 38 países ou regiões de 1970 a 2099. Cada linha indica as informações de feriado para uma data específica, país ou região e se a maioria das pessoas pagou folga. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Feriados Públicos no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar campos de filtragem. |
| PublicHolidaysOffline |
Representa o conjunto de dados públicos Offline de Feriados Públicos. Para obter uma descrição das linhas, consulte os Feriados Públicos no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar campos de filtragem. |
| SampleDatasetBase |
Representa a classe Base do Conjunto de Dados de Exemplo. |
| SanFranciscoSafety |
Representa o conjunto de dados público de Segurança de São Francisco. Este conjunto de dados contém chamadas do Corpo de Bombeiros para serviço e 311 casos em São Francisco. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Os Dados de Segurança de São Francisco no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar campos de filtragem. |
| SeattleSafety |
Representa o conjunto de dados público de Segurança de Seattle. Este conjunto de dados contém dados de expedição do Seattle Fire Department 911. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Os Dados de Segurança de Seattle no catálogo do Microsoft Azure Open Datasets. Inicializar campos de filtragem. |
| UsLaborCPI |
Representa o conjunto de dados público do Índice de Preços ao Consumidor dos EUA. O Índice de Preços ao Consumidor (CPI) é uma medida da alteração média ao longo do tempo nos preços pagos pelos consumidores urbanos por uma cesta de mercado de bens e serviços de consumo. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte o Índice de Preços ao Consumidor dos EUA no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar. |
| UsLaborEHENational |
Representa o conjunto de dados públicos de Horas de Emprego e Ganhos Nacionais dos EUA. Este conjunto de dados contém estimativas do setor de emprego, horas e ganhos não agrícolas de trabalhadores em folhas de pagamento nos Estados Unidos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Horas Nacionais de Emprego dos EUA e Ganhos no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar. |
| UsLaborEHEState |
Representa o conjunto de dados público de Horas de Emprego e Ganhos do Estado dos EUA. Este conjunto de dados contém estimativas do setor de emprego, horas e ganhos não agrícolas de trabalhadores em folhas de pagamento nos Estados Unidos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Horas de Trabalho do Estado dos EUA e Ganho no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar. |
| UsLaborLAUS |
Representa o conjunto de dados público estatísticas de desemprego da área local dos EUA. Este conjunto de dados contém dados mensais e anuais de emprego, desemprego e força de trabalho para regiões e divisões do Censo, Estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Estatísticas de Desemprego na Área Local dos EUA no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar. |
| UsLaborLFS |
Representa o conjunto de dados público de Estatísticas da Força de Trabalho dos EUA. Este conjunto de dados contém dados sobre a força de trabalho nos Estados Unidos, incluindo taxas de participação da força de trabalho, e a população civil não institucional por idade, gênero, raça e grupos étnicos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Estatísticas da Força de Trabalho dos EUA no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar. |
| UsLaborPPICommodity |
Representa o PPI (Índice de Preços ao Produtor) dos EUA – Conjunto de dados público de commodities. O Índice de Preços ao Produtor (PPI) é uma medida de alteração média ao longo do tempo nos preços de venda recebidos pelos produtores nacionais por sua produção. Os preços incluídos no PPI são da primeira transação comercial para produtos e serviços cobertos. Esse conjunto de dados contém PPIs para produtos individuais e grupos de produtos lançados mensalmente. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Índice de Preços ao Produtor dos EUA – Commodities no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar. |
| UsLaborPPIIndustry |
Representa o PPI (Índice de Preços ao Produtor) dos EUA – conjunto de dados público do setor. O Índice de Preços ao Produtor (PPI) é uma medida de alteração média ao longo do tempo nos preços de venda recebidos pelos produtores nacionais por sua produção. Os preços incluídos no PPI são da primeira transação comercial para produtos e serviços cobertos. Esse conjunto de dados contém PPIs para uma ampla gama de setores da indústria da economia dos EUA. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Índice de Preços ao Produtor dos EUA – Setor no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Para obter informações gerais sobre os Conjuntos de Dados Abertos do Azure, consulte a Documentação do Azure Open Datasets. Inicializar. |
| UsPopulationCounty |
Representa a população dos EUA por conjunto de dados público do condado. Este conjunto de dados contém a população dos EUA por gênero e raça para cada condado dos EUA originário de 2000 e 2010 Censo Decennial. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Us Population by County no catálogo do Microsoft Azure Open Datasets. Inicializar. |
| UsPopulationZip |
Representa a população dos EUA por conjunto de dados público de CEP. Este conjunto de dados contém a população dos EUA por gênero e raça para cada CEP dos EUA originário do Censo Decennial de 2010. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte População dos EUA por CEP no catálogo de Conjuntos de Dados Abertos do Microsoft Azure. Inicializar. |