Exercício – Carregar Dados e Criar Gráfico de Dispersão
Os cadernos Jupyter são compostos por células. É atribuído um de três tipos a cada célula:
- Markdown para inserir texto em formato markdown
- Código para inserir código que é executado interativamente
- Raw NBConvert para inserir dados no local
O código inserido nas células de código é executado por um kernel, que fornece um ambiente isolado para o notebook funcionar. O popular kernel IPython suporta código escrito em Python, mas dezenas de outros kernels estão disponíveis suportando outras linguagens. O Azure Notebooks suporta Python, R, e F# prontos a utilizar. Também suporta a instalação de vários pacotes e bibliotecas que são frequentemente utilizados em investigação.
Neste momento, o editor do bloco de notas apresenta uma célula vazia. Neste exercício, você adicionará conteúdo a essa célula e adicionará outras células para importar pacotes Python como o NumPy, carregar um par de arquivos de dados da NASA contendo dados climáticos e criar um gráfico de dispersão a partir dos dados.
Na primeira célula, defina o tipo de célula como Markdown e insira a "Análise de Mudanças Climáticas do Bloco de Anotações do Azure" na própria célula:
Definindo uma célula de marcação
Clique no botão + na barra de ferramentas para adicionar uma nova célula. Certifique-se de que o tipo de célula é Código e, em seguida, introduza o seguinte código Python na célula:
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression import seaborn as sns; sns.set()
Adicionar uma célula de código
Agora clique no botão Executar para executar a célula de código e importar os pacotes especificados nas
importinstruções. Ignore todos os avisos que são apresentados enquanto o ambiente é preparado pela primeira vez.Pode remover os avisos ao selecionar a célula de código e executá-la novamente.
Executando uma célula de código
Clique em Ficheiro no menu no topo da página e selecione Carregar no menu suspenso. Em seguida, carregue os arquivos chamados 5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.
Carregar dados para o bloco de notas
Selecione /project como sua pasta de destino para garantir que seus arquivos persistam. Clique em Iniciar Upload para carregar os arquivos e OK quando eles forem carregados com êxito.
Selecionando a pasta de destino para os dados
Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Digite "Importar dados" como texto e altere o tipo de célula para Markdown.
Agora adicione uma célula de código e cole o código seguinte.
yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True) years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)Clique no botão Executar para executar a célula e usar a função do
loadtxtNumPy para carregar os dados que você carregou. Os dados estão agora na memória e podem ser utilizados pela aplicação.
Carregando os dados
Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Altere o tipo de célula para Markdown e digite "Criar um gráfico de dispersão" como o texto.
Adicione uma célula de código e cole no código a seguir, que usa Matplotlib para criar um gráfico de dispersão.
plt.scatter(yearsBase, meanBase) plt.title('scatter plot of mean temp difference vs year') plt.xlabel('years', fontsize=12) plt.ylabel('mean temp difference', fontsize=12) plt.show()Clique em Executar para executar a célula e criar um gráfico de dispersão.
Gráfico de dispersão produzido por Matplotlib
O conjunto de dados que carregou utiliza a média de 30 anos, entre 1951 e 1980, para calcular a temperatura base durante esse período e, em seguida, utiliza a média de cinco anos para calcular a diferença entre a média de cinco anos e a média de 30 anos para cada ano. O gráfico de dispersão apresenta as diferenças de temperatura anuais.