Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O exemplo com notebooks Jupyter para Conjunto de Dados Abertos do Azure explica como carregar conjuntos de dados abertos e usá-los para aprimorar dados de demonstração. As técnicas incluem o uso do Apache Spark e Pandas para processar dados.
Importante
Ao trabalhar em um ambiente que não seja Spark, o Open Datasets permite baixar apenas um mês de dados por vez com determinadas classes para evitar problemas do tipo MemoryError com conjuntos de dados grandes.
Carregar dados do ISD (Banco de Dados de Superfície Integrada) do NOAA
| Notebook | Descrição |
|---|---|
| Carregar um mês recente de dados climáticos em um dataframe do Pandas | Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Pandas. |
| Carregar um mês recente de dados climáticos em um dataframe do Spark | Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Spark. |
Unir dados de demonstração com os dados ISD do NOAA
| Notebook | Descrição |
|---|---|
| Unir dados de demonstração e dados climáticos – Pandas | Una um conjunto de dados de demonstração de um mês sobre locais de sensores com leituras climáticas em um dataframe do Pandas. |
| Unir dados de demonstração com dados climáticos – Spark | Una um conjunto de dados de demonstração mês sobre locais de sensores com leituras climáticas em um dataframe do Spark. |
Unir dados de táxis de NYC com os dados de ISD do NOAA
| Notebook | Descrição |
|---|---|
| Dados de corridas de táxi aprimorados com dados climáticos – Pandas | Carregar dados de corridas de táxis verdes de Nova York (mais de um mês) e aprimorá-los com dados climáticos em um dataframe do Pandas. Este exemplo substitui o método get_pandas_limit e equilibra o desempenho do carregamento de dados com a quantidade de dados. |
| Dados de corridas de táxi aprimorados com dados climáticos – Spark | Carregar dados de corridas de táxis verdes de Nova York e aprimorá-los com dados climáticos no dataframe do Spark. |