Partilhar via


Tutorial: Analisar dados do Apache Spark usando o Power BI no HDInsight

Neste tutorial, você aprenderá a usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight.

Neste tutorial, aprenderás como:

  • Visualizar dados do Spark usando o Power BI

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Prerequisites

Verificar os dados

O Jupyter Notebook que você criou no tutorial anterior inclui código para criar uma hvac tabela. Esta tabela é baseada no arquivo CSV disponível em todos os clusters do HDInsight Spark em \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Use o procedimento a seguir para verificar os dados.

  1. No Jupyter Notebook, cole o código a seguir e pressione SHIFT + ENTER. O código verifica a existência das tabelas.

    %%sql
    SHOW TABLES
    

    O resultado tem o seguinte aspeto:

    Captura de ecrã a mostrar tabelas no Spark.

    Se fechaste o notebook antes de iniciar este tutorial, hvactemptable é limpo, portanto, não está incluído na saída. Somente as tabelas do Hive armazenadas no metastore (indicadas por False na coluna isTemporary ) podem ser acessadas nas ferramentas de BI. Neste tutorial, você se conecta à tabela hvac que você criou.

  2. Cole o código a seguir em uma célula vazia e pressione SHIFT + ENTER. O código verifica os dados na tabela.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    O resultado tem o seguinte aspeto:

    Captura de tela mostrando linhas da tabela hvac no Spark.

  3. No menu Arquivo do bloco de anotações, selecione Fechar e Parar. Desligue o bloco de anotações para liberar os recursos.

Visualize os dados

Nesta seção, você usa o Power BI para criar visualizações, relatórios e painéis a partir dos dados do cluster do Spark.

Criar um relatório no Power BI Desktop

As primeiras etapas para trabalhar com o Spark são conectar-se ao cluster no Power BI Desktop, carregar dados do cluster e criar uma visualização básica com base nesses dados.

  1. Abra Power BI Desktop. Feche o ecrã inicial de arranque caso ele seja aberto.

  2. Na guia Página Inicial , navegue até Obter dados>mais...

    Captura de ecrã mostrando como obter dados para o Power BI Desktop a partir do HDInsight Apache Spark.

  3. Introduza Spark na caixa de pesquisa, selecione Azure HDInsight Spark e, em seguida, selecione Ligar.

    Captura de ecrã a mostrar obter dados para o Power BI a partir do Apache Spark BI.

  4. Insira a URL do cluster (no formato mysparkcluster.azurehdinsight.net) na caixa de texto Servidor .

  5. Em Modo de conectividade de dados, selecione DirectQuery. Em seguida, selecione OK.

    Você pode usar qualquer modo de conectividade de dados com o Spark. Se você usar o DirectQuery, as alterações serão refletidas nos relatórios sem atualizar todo o conjunto de dados. Se você importar dados, deverá atualizar o conjunto de dados para ver as alterações. Para obter mais informações sobre como e quando usar o DirectQuery, consulte Usando o DirectQuery no Power BI.

  6. Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Ligar. O nome da conta padrão é admin.

  7. Selecione a hvac tabela, aguarde para ver uma pré-visualização dos dados e, em seguida, selecione Carregar.

    Captura de tela mostrando o nome de usuário e a senha do cluster Spark.

    O Power BI Desktop tem as informações necessárias para se conectar ao cluster do Spark e carregar dados da hvac tabela. A tabela e suas colunas são exibidas no painel Campos .

  8. Visualize a variância entre a temperatura alvo e a temperatura real de cada edifício:

    1. No painel VISUALIZAÇÕES , selecione Gráfico de área.

    2. Arraste o campo BuildingID para Axis e arraste os campos ActualTemp e TargetTemp para Value.

      Captura de ecrã a mostrar colunas de valor acrescentado.

      O diagrama tem a seguinte aparência:

      Captura de tela mostrando a soma do gráfico de área.

      Por padrão, a visualização mostra a soma de ActualTemp e TargetTemp. Selecione a seta para baixo ao lado de ActualTemp e TargetTemp no painel Visualizações, você pode ver Soma está selecionada.

    3. Selecione as setas para baixo ao lado de ActualTemp e TargetTemp no painel Visualizações, selecione Média para obter uma média das temperaturas reais e de destino para cada edifício.

      Captura de ecrã a mostrar a média dos valores.

      Sua visualização de dados deve ser semelhante à da captura de tela. Mova o cursor sobre a visualização para obter dicas de ferramentas com dados relevantes.

      Captura de ecrã que mostra o gráfico de área

  9. Navegue até Guardar Ficheiro>, introduza o nomeBuildingTemperature do ficheiro e, em seguida, selecione Guardar.

Publicar o relatório no Serviço do Power BI (opcional)

O serviço Power BI permite que você compartilhe relatórios e painéis em toda a sua organização. Nesta seção, você primeiro publica o conjunto de dados e o relatório. Em seguida, fixe o relatório num painel de controlo. Os painéis geralmente são usados para se concentrar em um subconjunto de dados em um relatório. Você tem apenas uma visualização em seu relatório, mas ainda é útil percorrer as etapas.

  1. Abra Power BI Desktop.

  2. Na guia Página Inicial , selecione Publicar.

    Captura de ecrã a mostrar a publicação a partir do Power BI Desktop.

  3. Selecione um espaço de trabalho para publicar seu conjunto de dados e relatório e, em seguida, selecione Selecionar. Na imagem a seguir, o padrão Meu espaço de trabalho está selecionado.

    Captura de tela mostrando o espaço de trabalho selecionado para publicar o conjunto de dados e o relatório.

  4. Depois que a publicação for bem-sucedida, selecione Abrir 'BuildingTemperature.pbix' no Power BI.

    Captura de tela mostrando o sucesso da publicação, clique para inserir as credenciais.

  5. No serviço do Power BI, selecione Inserir credenciais.

    Captura de ecrã a mostrar como introduzir credenciais no serviço do Power BI.

  6. Selecione Editar credenciais.

    Captura de ecrã que mostra Editar credenciais no serviço Power BI.

  7. Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Iniciar sessão. O nome da conta padrão é admin.

    Captura de ecrã a mostrar Iniciar sessão no cluster do Spark.

  8. No painel esquerdo, vá para Workspaces>My Workspace>REPORTS e selecione BuildingTemperature.

    Captura de ecrã mostrando Relatório listado sob a secção de relatórios no painel esquerdo.

    Você também deve ver BuildingTemperature listado em DATASETS no painel esquerdo.

    O visual criado no Power BI Desktop agora está disponível no serviço do Power BI.

  9. Passe o cursor sobre a visualização e selecione o ícone de pino no canto superior direito.

    Captura de ecrã a mostrar o relatório no serviço do Power BI.

  10. Selecione "Novo painel", digite o nome Building temperaturee, em seguida, selecione Pin.

    Captura de tela mostrando o pino no novo painel.

  11. No relatório, selecione Ir para o painel.

Seu visual é fixado ao painel - você pode adicionar outros elementos visuais ao relatório e fixá-los no mesmo painel. Para obter mais informações sobre relatórios e painéis, consulte Relatórios no Power BI e Painéis no Power BI.

Limpeza de recursos

Depois de concluir o tutorial, convém excluir o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso.

Para excluir um cluster, consulte Excluir um cluster HDInsight usando seu navegador, PowerShell ou a CLI do Azure.

Próximos passos

Neste tutorial, você aprendeu como usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight. Avance para o próximo artigo para ver que você pode criar um aplicativo de aprendizado de máquina.