Partilhar via


Ligar o Excel ao Apache Hadoop no Azure HDInsight com o controlador ODBC Hive da Microsoft

A solução de Big Data da Microsoft integra componentes de Business Intelligence (BI) da Microsoft com clusters Apache Hadoop implantados no HDInsight. Um exemplo é a capacidade de conectar o Excel ao data warehouse do Hive de um cluster Hadoop. Conecte-se usando o driver ODBC (Microsoft Hive Open Database Connectivity).

Pode ligar os dados associados a um cluster HDInsight a partir do Excel com o suplemento Microsoft Power Query para Excel. Para obter mais informações, consulte Conectar o Excel ao HDInsight com o Power Query.

Pré-requisitos

Antes de começar este artigo, você deve ter os seguintes itens:

  • O cluster Hadoop do HDInsight. Para criar um, consulte Introdução ao Azure HDInsight.
  • Uma estação de trabalho com o Office 2010 Professional Plus ou posterior, ou Excel 2010 ou posterior.

Instalar o driver ODBC do Microsoft Hive

Observação

O driver ODBC do Microsoft Hive não é mais suportado com o HDInsight e deve ser descontinuado.

Baixe e instale o driver ODBC do Microsoft Hive. Escolha a versão que corresponde à versão do aplicativo onde você usará o driver ODBC. Para este artigo, o driver é usado para o Office Excel.

Criar fonte de dados ODBC do Apache Hive

As etapas a seguir mostram como criar uma fonte de dados ODBC do Hive.

  1. No Windows, navegue até Iniciar > Ferramentas Administrativas do Windows > Fontes de Dados ODBC (32 bits)/(64 bits). Esta ação abre a janela Administrador da Fonte de Dados ODBC .

    Administrador de fonte de dados ODBC.

  2. Na guia DSN do usuário, selecione Adicionar para abrir a Create New Data Source janela.

  3. Selecione Microsoft Hive ODBC Driver e, em seguida, selecione Terminar para abrir a janela Configuração DSN do Microsoft Hive ODBC Driver.

  4. Escreva ou selecione os seguintes valores:

    Propriedade Descrição
    Nome da Origem de Dados Atribua um nome para a sua origem de dados
    Aanfitrião(ões) Introduza HDInsightClusterName.azurehdinsight.net. Por exemplo, myHDICluster.azurehdinsight.net. Nota: HDInsightClusterName-int.azurehdinsight.net é suportado desde que a VM cliente esteja emparelhada com a mesma rede virtual.
    Porto Utilize 443. (Esta porta foi alterada de 563 para 443.)
    Base de Dados Use o padrão.
    Mecanismo Selecione o Serviço HDInsight do Windows Azure
    Nome de Utilizador Insira o nome de usuário HTTP do cluster HDInsight. O nome de usuário padrão é admin.
    Palavra-passe Introduza a palavra-passe de utilizador do cluster HDInsight. Marque a caixa de seleção Salvar senha (criptografada).
  5. Opcional: Selecione Opções avançadas...

    Parâmetro Descrição
    Usar consulta nativa Quando é selecionado, o driver ODBC NÃO tenta converter TSQL em HiveQL. Você deve usá-lo apenas se tiver 100% de certeza de que está enviando declarações HiveQL puras. Ao se conectar ao SQL Server ou ao Banco de Dados SQL do Azure, você deve deixá-lo desmarcado.
    Linhas obtidas por bloco Quando você busca um grande número de registros, o ajuste desse parâmetro pode ser necessário para garantir desempenhos ideais.
    Comprimento padrão da coluna de texto, comprimento da coluna binária, escala da coluna decimal Os comprimentos e as precisões do tipo de dados podem afetar a forma como os dados são retornados. Eles fazem com que informações incorretas sejam devolvidas devido à perda de precisão e/ou truncamento.

    Opções avançadas de configuração de DSN.

  6. Selecione Testar para testar a fonte de dados. Quando a fonte de dados está configurada corretamente, o resultado do teste mostra SUCESSO!

  7. Selecione OK para fechar a janela Teste.

  8. Selecione OK para fechar a janela Configuração do DSN do driver ODBC Microsoft Hive.

  9. Selecione OK para fechar a janela Administrador da Fonte de Dados ODBC .

Importe dados para o Excel a partir do HDInsight

As etapas a seguir descrevem a maneira de importar dados de uma tabela do Hive para uma pasta de trabalho do Excel usando a fonte de dados ODBC que você criou na seção anterior.

  1. Abra um livro novo ou existente no Excel.

  2. Na guia Dados, navegue até Obter Dados>De Outras Fontes>Do ODBC para iniciar a janela Do ODBC.

    Abra o assistente de conexão de dados do Excel.

  3. Na lista suspensa, selecione o nome da fonte de dados que criou na última secção e depois selecione OK.

  4. Para o primeiro uso, uma caixa de diálogo do driver ODBC será aberta. Selecione Windows no menu à esquerda. Em seguida, selecione Conectar para abrir a janela Navegador .

  5. No Navegador, navegue até HIVE> padrão default>hivesampletable e selecione Carregar. Leva alguns momentos até que os dados sejam importados para o Excel.

    Navegador ODBC do HDInsight Excel Hive.

Próximos passos

Neste artigo, você aprendeu como usar o driver ODBC do Microsoft Hive para recuperar dados do Serviço HDInsight no Excel. Da mesma forma, você pode recuperar dados do Serviço HDInsight no Banco de Dados SQL. Também é possível carregar dados para um Serviço HDInsight. Para saber mais, veja: