Exemplo com notebooks Jupyter mostra como aprimorar os dados com conjuntos de dados abertos

O exemplo com notebooks Jupyter para Conjunto de Dados Abertos do Azure explica como carregar conjuntos de dados abertos e usá-los para aprimorar dados de demonstração. As técnicas incluem o uso do Apache Spark e Pandas para processar dados.

Importante

Ao trabalhar em um ambiente que não seja Spark, o Open Datasets permite baixar apenas um mês de dados por vez com determinadas classes para evitar problemas do tipo MemoryError com conjuntos de dados grandes.

Carregar dados do ISD (Banco de Dados de Superfície Integrada) do NOAA

Notebook	Descrição
Carregar um mês recente de dados climáticos em um dataframe do Pandas	Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Pandas.
Carregar um mês recente de dados climáticos em um dataframe do Spark	Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Spark.

Unir dados de demonstração com os dados ISD do NOAA

Notebook	Descrição
Unir dados de demonstração e dados climáticos – Pandas	Una um conjunto de dados de demonstração de um mês sobre locais de sensores com leituras climáticas em um dataframe do Pandas.
Unir dados de demonstração com dados climáticos – Spark	Una um conjunto de dados de demonstração mês sobre locais de sensores com leituras climáticas em um dataframe do Spark.

Unir dados de táxis de NYC com os dados de ISD do NOAA

Notebook	Descrição
Dados de corridas de táxi aprimorados com dados climáticos – Pandas	Carregar dados de corridas de táxis verdes de Nova York (mais de um mês) e aprimorá-los com dados climáticos em um dataframe do Pandas. Este exemplo substitui o método `get_pandas_limit` e equilibra o desempenho do carregamento de dados com a quantidade de dados.
Dados de corridas de táxi aprimorados com dados climáticos – Spark	Carregar dados de corridas de táxis verdes de Nova York e aprimorá-los com dados climáticos no dataframe do Spark.

Próximas etapas

Comentários

Esta página foi útil?

Last updated on 2025-10-28