Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Neste tutorial, você aprenderá a usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight.
Neste tutorial, aprenderás como:
- Visualizar dados do Spark usando o Power BI
Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.
Prerequisites
Conclua o artigo Tutorial: Carregar dados e executar consultas em um cluster Apache Spark no Azure HDInsight.
Opcional: assinatura de avaliação do Power BI.
Verificar os dados
O Jupyter Notebook que você criou no tutorial anterior inclui código para criar uma hvac tabela. Esta tabela é baseada no arquivo CSV disponível em todos os clusters do HDInsight Spark em \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Use o procedimento a seguir para verificar os dados.
No Jupyter Notebook, cole o código a seguir e pressione SHIFT + ENTER. O código verifica a existência das tabelas.
%%sql SHOW TABLESO resultado tem o seguinte aspeto:
Se fechaste o notebook antes de iniciar este tutorial,
hvactemptableé limpo, portanto, não está incluído na saída. Somente as tabelas do Hive armazenadas no metastore (indicadas por False na coluna isTemporary ) podem ser acessadas nas ferramentas de BI. Neste tutorial, você se conecta à tabela hvac que você criou.Cole o código a seguir em uma célula vazia e pressione SHIFT + ENTER. O código verifica os dados na tabela.
%%sql SELECT * FROM hvac LIMIT 10O resultado tem o seguinte aspeto:
No menu Arquivo do bloco de anotações, selecione Fechar e Parar. Desligue o bloco de anotações para liberar os recursos.
Visualize os dados
Nesta seção, você usa o Power BI para criar visualizações, relatórios e painéis a partir dos dados do cluster do Spark.
Criar um relatório no Power BI Desktop
As primeiras etapas para trabalhar com o Spark são conectar-se ao cluster no Power BI Desktop, carregar dados do cluster e criar uma visualização básica com base nesses dados.
Abra Power BI Desktop. Feche o ecrã inicial de arranque caso ele seja aberto.
Na guia Página Inicial , navegue até Obter dados>mais...
Introduza
Sparkna caixa de pesquisa, selecione Azure HDInsight Spark e, em seguida, selecione Ligar.
Insira a URL do cluster (no formato
mysparkcluster.azurehdinsight.net) na caixa de texto Servidor .Em Modo de conectividade de dados, selecione DirectQuery. Em seguida, selecione OK.
Você pode usar qualquer modo de conectividade de dados com o Spark. Se você usar o DirectQuery, as alterações serão refletidas nos relatórios sem atualizar todo o conjunto de dados. Se você importar dados, deverá atualizar o conjunto de dados para ver as alterações. Para obter mais informações sobre como e quando usar o DirectQuery, consulte Usando o DirectQuery no Power BI.
Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Ligar. O nome da conta padrão é admin.
Selecione a
hvactabela, aguarde para ver uma pré-visualização dos dados e, em seguida, selecione Carregar.
O Power BI Desktop tem as informações necessárias para se conectar ao cluster do Spark e carregar dados da
hvactabela. A tabela e suas colunas são exibidas no painel Campos .Visualize a variância entre a temperatura alvo e a temperatura real de cada edifício:
No painel VISUALIZAÇÕES , selecione Gráfico de área.
Arraste o campo BuildingID para Axis e arraste os campos ActualTemp e TargetTemp para Value.
O diagrama tem a seguinte aparência:
Por padrão, a visualização mostra a soma de ActualTemp e TargetTemp. Selecione a seta para baixo ao lado de ActualTemp e TargetTemp no painel Visualizações, você pode ver Soma está selecionada.
Selecione as setas para baixo ao lado de ActualTemp e TargetTemp no painel Visualizações, selecione Média para obter uma média das temperaturas reais e de destino para cada edifício.
Sua visualização de dados deve ser semelhante à da captura de tela. Mova o cursor sobre a visualização para obter dicas de ferramentas com dados relevantes.
Navegue até Guardar Ficheiro>, introduza o nome
BuildingTemperaturedo ficheiro e, em seguida, selecione Guardar.
Publicar o relatório no Serviço do Power BI (opcional)
O serviço Power BI permite que você compartilhe relatórios e painéis em toda a sua organização. Nesta seção, você primeiro publica o conjunto de dados e o relatório. Em seguida, fixe o relatório num painel de controlo. Os painéis geralmente são usados para se concentrar em um subconjunto de dados em um relatório. Você tem apenas uma visualização em seu relatório, mas ainda é útil percorrer as etapas.
Abra Power BI Desktop.
Na guia Página Inicial , selecione Publicar.
Selecione um espaço de trabalho para publicar seu conjunto de dados e relatório e, em seguida, selecione Selecionar. Na imagem a seguir, o padrão Meu espaço de trabalho está selecionado.
Depois que a publicação for bem-sucedida, selecione Abrir 'BuildingTemperature.pbix' no Power BI.
No serviço do Power BI, selecione Inserir credenciais.
Selecione Editar credenciais.
Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Iniciar sessão. O nome da conta padrão é admin.
No painel esquerdo, vá para Workspaces>My Workspace>REPORTS e selecione BuildingTemperature.
Você também deve ver BuildingTemperature listado em DATASETS no painel esquerdo.
O visual criado no Power BI Desktop agora está disponível no serviço do Power BI.
Passe o cursor sobre a visualização e selecione o ícone de pino no canto superior direito.
Selecione "Novo painel", digite o nome
Building temperaturee, em seguida, selecione Pin.
No relatório, selecione Ir para o painel.
Seu visual é fixado ao painel - você pode adicionar outros elementos visuais ao relatório e fixá-los no mesmo painel. Para obter mais informações sobre relatórios e painéis, consulte Relatórios no Power BI e Painéis no Power BI.
Limpeza de recursos
Depois de concluir o tutorial, convém excluir o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso.
Para excluir um cluster, consulte Excluir um cluster HDInsight usando seu navegador, PowerShell ou a CLI do Azure.
Próximos passos
Neste tutorial, você aprendeu como usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight. Avance para o próximo artigo para ver que você pode criar um aplicativo de aprendizado de máquina.