Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Neste artigo, você aprenderá a rastrear e depurar trabalhos do Apache Spark em execução em clusters HDInsight. Depure usando a interface do usuário do YARN do Apache Hadoop, a interface do usuário do Spark e o servidor de histórico do Spark. Você inicia um trabalho do Spark usando um notebook disponível com o cluster Spark, Machine learning: análise preditiva sobre dados de inspeção de alimentos usando MLLib. Siga as etapas seguintes para acompanhar uma aplicação que você submeteu usando qualquer outra abordagem também, por exemplo, spark-submit.
Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
Pré-requisitos
Um cluster do Apache Spark no HDInsight. Para obter instruções, consulte Criar clusters do Apache Spark no Azure HDInsight.
Você deve ter começado a executar o notebook Machine Learning: análise preditiva nos dados de inspeção de alimentos usando MLLib. Para obter instruções sobre como executar este notebook, siga o link.
Acompanhar um aplicativo na interface do usuário do YARN
Inicie a interface do usuário do YARN. Selecione Yarn em Painéis do cluster.
Dica
Como alternativa, você também pode iniciar a interface do usuário YARN a partir da interface do Ambari. Para iniciar a interface do usuário do Ambari, selecione a página inicial do Ambari nos dashboards de cluster. Na IU do Ambari, navegue para YARN>Links Rápidos> o gerenciador de recursos ativo >Interface do usuário do gerenciador de recursos.
Como você iniciou o trabalho do Spark usando o Jupyter Notebooks, o aplicativo tem o nome remotesparkmagics (o nome de todos os aplicativos iniciados a partir dos notebooks). Selecione o ID da aplicação em relação ao nome da aplicação para obter mais informações sobre a tarefa. Essa ação inicia a exibição do aplicativo.
Para esses aplicativos que são iniciados a partir do Jupyter Notebooks, o status é sempre RUNNING até que você saia do notebook.
No modo de exibição do aplicativo, você pode fazer uma busca detalhada para descobrir os contêineres associados ao aplicativo e aos logs (stdout/stderr). Você também pode iniciar a interface do usuário do Spark clicando no link correspondente à URL de Acompanhamento, conforme mostrado abaixo.
Acompanhar um aplicativo na interface do usuário do Spark
Na interface do usuário do Spark, você pode fazer uma busca detalhada nos trabalhos do Spark gerados pelo aplicativo iniciado anteriormente.
Para iniciar a interface do usuário do Spark, da exibição do aplicativo, selecione o link em URL de Rastreamento, conforme mostrado na captura de tela acima. Você pode ver todos os trabalhos do Spark que são iniciados pelo aplicativo em execução no Jupyter Notebook.
Selecione a guia Executores para ver as informações de processamento e armazenamento para cada executor. Você também pode recuperar a pilha de chamadas selecionando o link Thread Dump (Despejo de Thread).
Selecione a guia Estágios para ver os estágios associados ao aplicativo.
Cada estágio pode ter várias tarefas para as quais você pode exibir estatísticas de execução, como mostrado abaixo.
Na página de detalhes do estágio, você pode iniciar a Visualização do DAG. Expanda o link de Visualização do DAG na parte superior da página, conforme mostrado abaixo.
O DAG ou o Direct Aclyic Graph representa os diferentes estágios no aplicativo. Cada caixa azul no grafo representa uma operação spark invocada do aplicativo.
Na página de detalhes do estágio, você também pode iniciar o modo de exibição da linha do tempo do aplicativo. Expanda o link da Linha do Tempo do Evento na parte superior da página, conforme mostrado abaixo.
Esta imagem exibe os eventos do Spark na forma de uma linha do tempo. A exibição da linha do tempo está disponível em três níveis, entre trabalhos, dentro de um trabalho e em um estágio. A imagem acima mostra a visão do cronograma de um determinado estágio.
Dica
Se você selecionar a caixa de seleção Habilitar zoom, poderá rolar para a esquerda e para a direita na visualização da linha do tempo.
Outras guias na interface do usuário do Spark também fornecem informações úteis sobre a instância do Spark.
- Guia Armazenamento – Se o aplicativo criar um RDD, você poderá encontrar informações na guia Armazenamento.
- Guia Ambiente – Essa guia fornece informações úteis sobre sua instância do Spark, como:
- Versão da escala
- Diretório de log de eventos associado ao cluster
- Número de núcleos de executor para o aplicativo
Encontrar informações sobre trabalhos concluídos usando o Servidor de Histórico do Spark
Depois que um trabalho é concluído, as informações sobre o trabalho são mantidas no Servidor de Histórico do Spark.
Para iniciar o Servidor de Histórico do Spark, na página Visão geral , selecione o servidor de histórico do Spark em painéis de cluster.
Dica
Como alternativa, você também pode abrir a interface do Servidor de Histórico do Spark na interface do Ambari. Para iniciar a IU do Ambari, na folha de visão geral, selecione Página Inicial do Ambari em Painéis do cluster. Na interface do usuário do Ambari, navegue até Spark2>Links Rápidos>IU do Servidor de Histórico do Spark2.
Você vê todas as aplicações concluídas listadas. Selecione um ID de aplicação para aprofundar na aplicação para mais informações.