Entender os recursos do pool de SQL sem servidor do Azure Synapse e casos de uso
O Azure Synapse Analytics é um serviço de análise integrada que reúne uma ampla gama de tecnologias comumente usadas para processar e analisar dados em escala. Uma das tecnologias mais prevalentes usadas em soluções de dados é o SQL - uma linguagem padrão do setor para consultar e manipular dados.
Pools de SQL sem servidor no Azure Synapse Analytics
O SQL do Azure Synapse é um sistema de consulta distribuída no Azure Synapse Analytics que oferece dois tipos de ambientes de runtime:
- pool de SQL sem servidor: processamento de consulta SQL sob demanda, usado principalmente para trabalhar com dados em um data lake.
- pool de SQL dedicado: instâncias de banco de dados relacionais em escala empresarial usadas para hospedar data warehouses nos quais os dados são armazenados em tabelas relacionais.
Neste módulo, nos concentraremos no pool de SQL sem servidor, que fornece um ponto de extremidade de pagamento por consulta para consultar os dados no data lake. Os benefícios de usar o pool de SQL sem servidor incluem:
- Uma sintaxe familiar do Transact-SQL para consultar dados diretamente sem a necessidade de copiar ou carregar dados em um repositório especializado.
- Conectividade integrada por meio de uma ampla variedade de ferramentas de consulta ad hoc e de business intelligence, incluindo os drivers mais populares.
- Processamento de consulta distribuída criado para dados em grande escala e funções computacionais , resultando em desempenho rápido de consulta.
- A tolerância a falhas incorporada na execução de consultas resulta em alta confiabilidade e taxas de sucesso, mesmo para consultas prolongadas que envolvem grandes conjuntos de dados.
- Não há infraestrutura a ser configurada nem clusters a serem mantidos. Um ponto de extremidade interno para esse serviço é fornecido em todos os espaços de trabalho do Azure Synapse, de modo que você pode iniciar a consulta de dados assim que o espaço de trabalho é criado.
- Nenhum encargo para recursos reservados, você é cobrado apenas pelos dados processados pelas consultas que executa.
Quando usar pools de SQL sem servidor
O pool de SQL sem servidor é personalizado para consultar os dados que residem no data lake, portanto, além de eliminar a carga de gerenciamento, elimina a necessidade de se preocupar em ingerir os dados no sistema. Basta apontar a consulta aos dados que já estão no lago e executá-la.
O modelo de recurso sem servidor do SQL do Synapse é ótimo para cargas de trabalho não planejadas ou "intermitentes" que podem ser processadas usando o ponto de extremidade SQL sem servidor sempre ativado em seu espaço de trabalho do Azure Synapse Analytics. O uso do pool sem servidor ajuda quando você precisa saber o custo exato de cada consulta executada para monitorar e atribuir custos.
Observação
O pool de SQL sem servidor é um sistema de análise e não é recomendado para cargas de trabalho OLTP, como bancos de dados usados por aplicativos para armazenar dados transacionais. Cargas de trabalho que exigem tempos de resposta de milissegundos e que buscam identificar uma única linha em um conjunto de dados não são adequadas para o pool de SQL sem servidor.
Os casos de uso comuns para pools de SQL sem servidor incluem:
- Exploração de dados: a exploração de dados envolve navegar pelo data lake para obter informações iniciais sobre os dados e é facilmente possível com o Azure Synapse Studio. Você pode navegar pelos arquivos no armazenamento vinculado do data lake e usar o pool de SQL sem servidor interno para gerar automaticamente um script SQL para selecionar as 100 linhas TOP de um arquivo ou pasta, assim como faria com uma tabela no SQL Server. A partir daí, você pode aplicar projeções, filtragem, agrupamento e a maior parte da operação sobre os dados como se os dados estivessem em uma tabela regular do SQL Server.
- de transformação de dados: embora o Azure Synapse Analytics forneça ótimos recursos de transformações de dados com o Synapse Spark, alguns engenheiros de dados podem achar a transformação de dados mais fácil de alcançar usando o SQL. O pool de SQL sem servidor permite que você execute transformações de dados baseadas em SQL; interativamente ou como parte de um pipeline de dados automatizado.
- Data Warehouse Lógico: Após a exploração inicial dos dados no data lake, você pode definir objetos externos, como tabelas e visões em um banco de dados SQL sem servidor. Os dados permanecem armazenados nos arquivos data lake, mas são abstraídos por um esquema relacional que pode ser usado por aplicativos cliente e ferramentas analíticas para consultar os dados como fariam em um banco de dados relacional hospedado no SQL Server.