Partilhar via


Cenário completo de ciência de dados: introdução e arquitetura

Estes tutoriais apresentam um cenário completo de ponta a ponta na experiência de ciência de dados do Fabric. Eles cobrem cada passo, de

  • Ingestão de dados
  • Limpeza de dados
  • Preparação de dados

Para

  • Treinamento de modelo de aprendizado de máquina
  • Geração de insights

e, em seguida, cubra o consumo dessas informações com ferramentas de visualização - por exemplo, o Power BI.

As pessoas novas no Microsoft Fabric devem visitar O que é o Microsoft Fabric?.

Introdução

Um ciclo de vida de projeto de ciência de dados normalmente inclui estas etapas:

  • Compreender as regras de negócio
  • Adquira os dados
  • Explore, limpe, prepare e visualize os dados
  • Treine o modelo e acompanhe o experimento
  • Pontuar o modelo e gerar insights

As etapas geralmente prosseguem iterativamente. Os objetivos e critérios de sucesso de cada etapa dependem da colaboração, compartilhamento de dados e documentação. A experiência em ciência de dados do Fabric envolve vários recursos criados nativamente que permitem colaboração, aquisição, compartilhamento e consumo de dados contínuos.

Esses tutoriais colocam você no papel de um cientista de dados que deve explorar, limpar e transformar um conjunto de dados que contém o status de rotatividade de 10.000 clientes bancários. Em seguida, você cria um modelo de aprendizado de máquina para prever quais clientes bancários provavelmente sairão.

Você executa as seguintes atividades nos tutoriais:

  1. Usar os notebooks do Fabric para cenários de ciência de dados
  2. Use o Apache Spark para ingerir dados em uma casa de lago de malha
  3. Carregar dados existentes das tabelas delta do 'lakehouse'
  4. Use ferramentas baseadas em Apache Spark e Python para limpar e transformar dados
  5. Crie experimentos e execuções para treinar diferentes modelos de aprendizado de máquina
  6. Use o MLflow e a interface do usuário do Fabric para registrar e rastrear modelos treinados
  7. Execute a pontuação em escala e salve previsões e resultados de inferência na casa do lago
  8. Usar o DirectLake para visualizar previsões no Power BI

Arquitetura

Esta série de tutoriais apresenta um cenário simplificado de ciência de dados de ponta a ponta envolvendo:

  1. Ingestão de dados de uma fonte de dados externa.
  2. Exploração e limpeza de dados.
  3. Treinamento e registro de modelo de aprendizado de máquina.
  4. Pontuação em lote e economia de previsão.
  5. Visualização de resultados de previsão no Power BI.

Diagrama dos componentes do cenário de ponta a ponta da ciência de dados.

Diferentes componentes do cenário de ciência de dados

Fontes de dados - Para ingerir dados com o Fabric, você pode se conectar fácil e rapidamente aos Serviços de Dados do Azure, outras plataformas de nuvem e recursos de dados locais. Com os Blocos de Anotações de Malha, você pode ingerir dados destes recursos:

  • Lakehouses incorporados
  • Armazéns de Dados
  • Modelos semânticos
  • Várias fontes de dados do Apache Spark
  • Várias fontes de dados que suportam Python

Esta série de tutoriais foca-se na ingestão e carregamento de dados de um lakehouse.

Explore, limpe e prepare - A experiência em ciência de dados da Fabric oferece suporte à limpeza, transformação, exploração e featurização de dados. Ele usa experiências Spark integradas e ferramentas baseadas em Python - por exemplo, Data Wrangler e SemPy Library. Este tutorial mostra a exploração de dados com a biblioteca Python e a limpeza e preparação de dados com o seaborn Apache Spark.

Modelos e experimentos - Com o Fabric, você pode treinar, avaliar e pontuar modelos de aprendizado de máquina com experimentos integrados. Para registrar e implantar seus modelos e acompanhar experimentos, o MLflow oferece integração perfeita com o Fabric como uma maneira de modelar itens. Para criar e compartilhar insights de negócios, o Fabric oferece outros recursos para previsão de modelos em escala (PREDICT), para criar e compartilhar insights de negócios.

Armazenamento - O Fabric padroniza no Delta Lake, o que significa que todos os motores do Fabric podem interagir com o mesmo conjunto de dados armazenado no lakehouse. Com essa camada de armazenamento, você pode armazenar dados estruturados e não estruturados que suportam armazenamento baseado em arquivo e formato tabular. Você pode acessar facilmente os conjuntos de dados e arquivos armazenados por meio de todos os itens de experiência do Fabric - por exemplo, blocos de anotações e pipelines.

Exponha análises e insights - O Power BI, uma ferramenta de business intelligence líder do setor, pode consumir dados lakehouse para geração de relatórios e visualizações. Em recursos de notebooks, bibliotecas nativas de visualização Python ou Spark

  • matplotlib
  • seaborn
  • plotly
  • Etc.

É capaz de visualizar dados persistentes em uma casa de lago. A biblioteca SemPy também suporta visualização de dados. Esta biblioteca suporta visualizações incorporadas que são ricas e específicas para tarefas.

  • O modelo de dados semânticos
  • Dependências e suas violações
  • Casos de uso de classificação e regressão

Próximo passo