Cenário completo de ciência de dados: introdução e arquitetura

Estes tutoriais apresentam um cenário completo de ponta a ponta na experiência de ciência de dados do Fabric. Eles cobrem cada passo, de

Ingestão de dados
Limpeza de dados
Preparação de dados

Para

Treinamento de modelo de aprendizado de máquina
Geração de insights

e, em seguida, cubra o consumo dessas informações com ferramentas de visualização - por exemplo, o Power BI.

As pessoas novas no Microsoft Fabric devem visitar O que é o Microsoft Fabric?.

Introdução

Um ciclo de vida de projeto de ciência de dados normalmente inclui estas etapas:

Compreender as regras de negócio
Adquira os dados
Explore, limpe, prepare e visualize os dados
Treine o modelo e acompanhe o experimento
Pontuar o modelo e gerar insights

As etapas geralmente prosseguem iterativamente. Os objetivos e critérios de sucesso de cada etapa dependem da colaboração, compartilhamento de dados e documentação. A experiência em ciência de dados do Fabric envolve vários recursos criados nativamente que permitem colaboração, aquisição, compartilhamento e consumo de dados contínuos.

Esses tutoriais colocam você no papel de um cientista de dados que deve explorar, limpar e transformar um conjunto de dados que contém o status de rotatividade de 10.000 clientes bancários. Em seguida, você cria um modelo de aprendizado de máquina para prever quais clientes bancários provavelmente sairão.

Você executa as seguintes atividades nos tutoriais:

Usar os notebooks do Fabric para cenários de ciência de dados
Use o Apache Spark para ingerir dados em uma casa de lago de malha
Carregar dados existentes das tabelas delta do 'lakehouse'
Use ferramentas baseadas em Apache Spark e Python para limpar e transformar dados
Crie experimentos e execuções para treinar diferentes modelos de aprendizado de máquina
Use o MLflow e a interface do usuário do Fabric para registrar e rastrear modelos treinados
Execute a pontuação em escala e salve previsões e resultados de inferência na casa do lago
Usar o DirectLake para visualizar previsões no Power BI

Arquitetura

Esta série de tutoriais apresenta um cenário simplificado de ciência de dados de ponta a ponta envolvendo:

Diferentes componentes do cenário de ciência de dados

Fontes de dados - Para ingerir dados com o Fabric, você pode se conectar fácil e rapidamente aos Serviços de Dados do Azure, outras plataformas de nuvem e recursos de dados locais. Com os Blocos de Anotações de Malha, você pode ingerir dados destes recursos:

Lakehouses incorporados
Armazéns de Dados
Modelos semânticos
Várias fontes de dados do Apache Spark
Várias fontes de dados que suportam Python

Esta série de tutoriais foca-se na ingestão e carregamento de dados de um lakehouse.

Explore, limpe e prepare - A experiência em ciência de dados da Fabric oferece suporte à limpeza, transformação, exploração e featurização de dados. Ele usa experiências Spark integradas e ferramentas baseadas em Python - por exemplo, Data Wrangler e SemPy Library. Este tutorial mostra a exploração de dados com a biblioteca Python e a limpeza e preparação de dados com o seaborn Apache Spark.

Modelos e experimentos - Com o Fabric, você pode treinar, avaliar e pontuar modelos de aprendizado de máquina com experimentos integrados. Para registrar e implantar seus modelos e acompanhar experimentos, o MLflow oferece integração perfeita com o Fabric como uma maneira de modelar itens. Para criar e compartilhar insights de negócios, o Fabric oferece outros recursos para previsão de modelos em escala (PREDICT), para criar e compartilhar insights de negócios.

Armazenamento - O Fabric padroniza no Delta Lake, o que significa que todos os motores do Fabric podem interagir com o mesmo conjunto de dados armazenado no lakehouse. Com essa camada de armazenamento, você pode armazenar dados estruturados e não estruturados que suportam armazenamento baseado em arquivo e formato tabular. Você pode acessar facilmente os conjuntos de dados e arquivos armazenados por meio de todos os itens de experiência do Fabric - por exemplo, blocos de anotações e pipelines.

Exponha análises e insights - O Power BI, uma ferramenta de business intelligence líder do setor, pode consumir dados lakehouse para geração de relatórios e visualizações. Em recursos de notebooks, bibliotecas nativas de visualização Python ou Spark

matplotlib
seaborn
plotly
Etc.

É capaz de visualizar dados persistentes em uma casa de lago. A biblioteca SemPy também suporta visualização de dados. Esta biblioteca suporta visualizações incorporadas que são ricas e específicas para tarefas.

O modelo de dados semânticos
Dependências e suas violações
Casos de uso de classificação e regressão

Próximo passo

Prepare seu sistema para o tutorial de ciência de dados

Feedback

Esta página foi útil?

Last updated on 2025-04-22