Usar o Spark em cadernos
Você pode executar muitos tipos diferentes de aplicativos no Spark, incluindo código em scripts Python ou Scala, código Java compilado como um Java Archive (JAR) e outros. O Spark é comumente usado em dois tipos de cargas de trabalho:
- Tarefas de processamento em lote ou fluxo para ingerir, limpar e transformar dados - geralmente executadas como parte de um pipeline automatizado.
- Sessões de análise interativas para explorar, analisar e visualizar dados.
Noções básicas sobre edição de notebooks e código
Os notebooks Databricks são o principal espaço de trabalho para ciência de dados, engenharia e análise. Eles são construídos em torno de células, que podem conter código ou texto formatado (Markdown). Essa abordagem baseada em células facilita experimentar, testar e explicar seu trabalho em um só lugar. Você pode executar uma única célula, um grupo de células ou o bloco de anotações inteiro, com saídas como tabelas, gráficos ou texto sem formatação aparecendo diretamente abaixo da célula executada. As células podem ser reorganizadas, recolhidas ou limpas para manter o seu bloco de notas organizado e legível.
Um dos principais pontos fortes dos notebooks Databricks é o suporte multilíngüe. Embora o padrão seja geralmente Python, você pode alternar para SQL, Scala ou R dentro do mesmo notebook usando comandos mágicos como %sql ou %scala. Essa flexibilidade significa que você pode escrever lógica ETL em SQL, código de aprendizado de máquina em Python e, em seguida, visualizar resultados com R — tudo em um fluxo de trabalho. O Databricks também fornece preenchimento automático e realce de sintaxe, tornando mais fácil detetar erros e acelerar a codificação.
Antes de executar qualquer código, um bloco de anotações deve ser anexado a um cluster. Sem um cluster anexado, as células de código não podem ser executadas. Você pode selecionar um cluster existente na barra de ferramentas do bloco de anotações ou criar um novo, e pode facilmente desanexar e reanexar blocos de anotações conforme necessário. Essa conexão é o que permite ao seu computador portátil aproveitar o poder de processamento distribuído no Azure Databricks.
Usando o Databricks Assistant
O Databricks Assistant é um companheiro de codificação alimentado por IA integrado diretamente em notebooks. Seu objetivo é ajudá-lo a escrever, entender e melhorar o código de forma mais eficiente, aproveitando o contexto do seu bloco de anotações e espaço de trabalho. Ele pode gerar novo código a partir de prompts de linguagem natural, explicar lógica complexa, sugerir correções para erros, otimizar o desempenho e até mesmo refatorar ou formatar seu código para legibilidade. Isso o torna valioso não apenas para iniciantes aprendendo Spark ou SQL, mas também para usuários experientes que querem acelerar o desenvolvimento e reduzir o trabalho repetitivo.
O assistente reconhece o contexto, o que significa que pode usar informações sobre seu bloco de anotações, cluster e ambiente de dados para fornecer sugestões personalizadas. Por exemplo, se seu espaço de trabalho tiver o Unity Catalog habilitado, ele poderá extrair metadados como nomes de tabelas, nomes de colunas e esquemas ao escrever consultas SQL. Isso permite que você pergunte algo como "Selecione o valor médio de vendas por região na tabela de vendas" e obtenha um código SQL funcional que se adapte ao seu modelo de dados real. Da mesma forma, no Python, você pode pedir-lhe para criar transformações de dados ou trabalhos do Spark sem ter que recuperar todas as assinaturas de função da memória.
Você interage com o assistente de duas maneiras principais:
Prompts em linguagem natural — você pode digitar instruções em inglês simples na interface semelhante ao bate-papo e ele inserirá código em seu bloco de anotações.
Comandos de barra — comandos rápidos, como
/explain,/fixou/optimizeque permitem agir sobre o código selecionado. Por exemplo,/explaindivide uma função complexa em etapas mais simples,/fixpode tentar resolver erros de sintaxe ou tempo de execução e/optimizesugere melhorias de desempenho, como reparticionamento ou uso de funções eficientes do Spark.
Um recurso poderoso é o modo de edição, onde o assistente pode propor mudanças estruturais maiores em várias células. Por exemplo, ele pode refatorar a lógica repetida em uma única função reutilizável ou reestruturar um fluxo de trabalho para melhor legibilidade. Tem sempre controlo: as sugestões não são destrutivas, o que significa que pode revê-las e aceitá-las ou rejeitá-las antes de aplicar alterações ao seu bloco de notas.
Compartilhamento e modularização de código
Para evitar duplicação e melhorar a capacidade de manutenção, o Databricks suporta a colocação de código reutilizável em arquivos (por exemplo, módulos .py) no espaço de trabalho, que os blocos de anotações podem importar. Existem mecanismos para orquestrar blocos de notas (ou seja, executar blocos de notas de outros blocos de notas ou trabalhos com várias tarefas), para que possa criar fluxos de trabalho que utilizem funções ou módulos partilhados. Usar %run é uma maneira mais simples de incluir outro notebook, embora com algumas limitações.
Depuração, histórico de versões e reverter erros
O Databricks oferece um depurador interativo integrado para blocos de anotações Python: você pode definir pontos de interrupção, percorrer a execução, inspecionar variáveis e navegar pela execução de código passo a passo. Isso ajuda a isolar bugs de maneira mais eficaz do que a depuração através de impressão/registo.
Os notebooks também mantêm automaticamente o histórico de versões: pode visualizar instantâneos anteriores, fornecer descrições de versões, restaurar versões antigas ou apagar o histórico. Se você estiver usando a integração Git, poderá sincronizar e versionar blocos de anotações/arquivos em seu repositório.
Gorjeta
Para obter mais informações sobre como trabalhar com blocos de anotações no Azure Databricks, consulte o artigo Blocos de anotações na documentação do Azure Databricks.