Exercício – Carregar Dados e Criar Gráfico de Dispersão

Concluído

Os cadernos Jupyter são compostos por células. É atribuído um de três tipos a cada célula:

  • Markdown para inserir texto em formato markdown
  • Código para inserir código que é executado interativamente
  • Raw NBConvert para inserir dados no local

O código inserido nas células de código é executado por um kernel, que fornece um ambiente isolado para o notebook funcionar. O popular kernel IPython suporta código escrito em Python, mas dezenas de outros kernels estão disponíveis suportando outras linguagens. O Azure Notebooks suporta Python, R, e F# prontos a utilizar. Também suporta a instalação de vários pacotes e bibliotecas que são frequentemente utilizados em investigação.

Neste momento, o editor do bloco de notas apresenta uma célula vazia. Neste exercício, você adicionará conteúdo a essa célula e adicionará outras células para importar pacotes Python como o NumPy, carregar um par de arquivos de dados da NASA contendo dados climáticos e criar um gráfico de dispersão a partir dos dados.

  1. Na primeira célula, defina o tipo de célula como Markdown e insira a "Análise de Mudanças Climáticas do Bloco de Anotações do Azure" na própria célula:

    Definir uma célula de markdown.

    Definindo uma célula de marcação

  2. Clique no botão + na barra de ferramentas para adicionar uma nova célula. Certifique-se de que o tipo de célula é Código e, em seguida, introduza o seguinte código Python na célula:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Adicionar uma célula de código.

    Adicionar uma célula de código

  3. Agora clique no botão Executar para executar a célula de código e importar os pacotes especificados nas import instruções. Ignore todos os avisos que são apresentados enquanto o ambiente é preparado pela primeira vez.

    Pode remover os avisos ao selecionar a célula de código e executá-la novamente.

    Executando uma célula de código.

    Executando uma célula de código

  4. Clique em Ficheiro no menu no topo da página e selecione Carregar no menu suspenso. Em seguida, carregue os arquivos chamados 5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.

    Carregar dados para o bloco de notas.

    Carregar dados para o bloco de notas

  5. Selecione /project como sua pasta de destino para garantir que seus arquivos persistam. Clique em Iniciar Upload para carregar os arquivos e OK quando eles forem carregados com êxito.

    Seleção da pasta de destino para os dados.

    Selecionando a pasta de destino para os dados

  6. Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Digite "Importar dados" como texto e altere o tipo de célula para Markdown.

  7. Agora adicione uma célula de código e cole o código seguinte.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Clique no botão Executar para executar a célula e usar a função do loadtxt NumPy para carregar os dados que você carregou. Os dados estão agora na memória e podem ser utilizados pela aplicação.

    Carregando os dados.

    Carregando os dados

  9. Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Altere o tipo de célula para Markdown e digite "Criar um gráfico de dispersão" como o texto.

  10. Adicione uma célula de código e cole no código a seguir, que usa Matplotlib para criar um gráfico de dispersão.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Clique em Executar para executar a célula e criar um gráfico de dispersão.

    Gráfico de dispersão produzido por Matplotlib.

    Gráfico de dispersão produzido por Matplotlib

O conjunto de dados que carregou utiliza a média de 30 anos, entre 1951 e 1980, para calcular a temperatura base durante esse período e, em seguida, utiliza a média de cinco anos para calcular a diferença entre a média de cinco anos e a média de 30 anos para cada ano. O gráfico de dispersão apresenta as diferenças de temperatura anuais.