Partilhar via


O que é Ciência de Dados no Microsoft Fabric?

Para enriquecimento de dados e insights de negócios, o Microsoft Fabric oferece experiências de Ciência de Dados que capacitam os usuários a criar fluxos de trabalho completos de ciência de dados. Para começar, consulte o tutorial completo de Ciência de Dados.

Você pode concluir uma ampla gama de atividades em todo o processo de ciência de dados:

Os usuários do Microsoft Fabric podem acessar uma home page de Ciência de Dados. Em seguida, eles podem descobrir e acessar vários recursos relevantes, como mostrado na captura de tela a seguir:

Captura de tela da página inicial de Ciência de dados.

A maioria dos projetos de aprendizado de máquina segue o processo de ciência de dados. A um nível elevado, esse processo envolve as seguintes etapas:

Diagrama do processo de ciência de dados.

Este artigo descreve os recursos do Microsoft Fabric Data Science de uma perspetiva de processo de ciência de dados. Para cada etapa do processo de ciência de dados, este artigo resume os recursos do Microsoft Fabric que podem ajudar.

Formulação e ideação de problemas

Os usuários de Ciência de Dados no Microsoft Fabric trabalham na mesma plataforma que os usuários corporativos e analistas. Como resultado, o compartilhamento de dados e a colaboração se tornam mais contínuos entre diferentes funções. Os analistas podem compartilhar facilmente relatórios e conjuntos de dados do Power BI com profissionais de ciência de dados. A facilidade de colaboração entre funções no Microsoft Fabric facilita as transferências durante a fase de formulação do problema.

Descoberta e pré-processamento de dados

Os utilizadores do Microsoft Fabric podem interagir com dados no OneLake utilizando o recurso Lakehouse. Para navegar e interagir com os dados, o Lakehouse se conecta facilmente a um notebook. Os utilizadores podem facilmente ler dados de um Lakehouse diretamente num dataframe Pandas. Para exploração, leituras de dados contínuas do OneLake tornam-se possíveis.

Um poderoso conjunto de ferramentas está disponível para pipelines de ingestão e orquestração de dados com pipelines de integração de dados - uma parte nativamente integrada do Microsoft Fabric. Pipelines fáceis de construir podem acessar e transformar os dados em um formato que o aprendizado de máquina pode consumir.

Exploração de dados

Uma parte importante do processo de aprendizado de máquina envolve a compreensão dos dados por meio da exploração e visualização.

Dependendo do local de armazenamento de dados, o Microsoft Fabric oferece ferramentas para explorar e preparar os dados para análise e aprendizado de máquina. Os próprios notebooks tornam-se ferramentas eficientes e eficazes de exploração de dados.

Apache Spark e Python para preparação de dados

O Microsoft Fabric pode transformar, preparar e explorar seus dados em escala. Com o Spark, os usuários podem usar as ferramentas PySpark/Python, Scala e SparkR/SparklyR para pré-processar dados em escala. Poderosas bibliotecas de visualização de código aberto podem melhorar a experiência de exploração de dados para uma melhor compreensão dos dados.

Data Wrangler para limpeza de dados perfeita

Para usar o Data Wrangler, a experiência do Microsoft Fabric Notebook adicionou um recurso de ferramenta de código que prepara dados e gera código Python. Essa experiência facilita a aceleração de tarefas entediantes e mundanas - por exemplo, limpeza de dados. Com ele, você também pode criar automação e repetibilidade por meio do código gerado. Saiba mais sobre o Data Wrangler na seção Data Wrangler deste documento.

Experimentação e modelagem de ML

Com ferramentas como PySpark/Python e SparklyR/R, os notebooks podem lidar com o treinamento de modelos de aprendizado de máquina. Algoritmos e bibliotecas de aprendizado de máquina podem ajudar a treinar modelos de aprendizado de máquina. As ferramentas de gerenciamento de bibliotecas podem instalar essas bibliotecas e algoritmos. Os usuários podem usar bibliotecas populares de aprendizado de máquina para concluir seu treinamento de modelo de ML no Microsoft Fabric. Além disso, bibliotecas populares como o Scikit Learn também podem desenvolver modelos.

Os experimentos e execuções do MLflow podem acompanhar o treinamento do modelo de ML. Para registrar experimentos e modelos, o Microsoft Fabric oferece uma experiência de MLflow integrada que oferece suporte à interação. Saiba mais sobre como usar o MLflow para rastrear experimentos e gerenciar modelos no Microsoft Fabric.

SynapseML

A Microsoft detém e opera a biblioteca open-source SynapseML (anteriormente conhecida como MMLSpark). Simplifica a criação de pipelines de aprendizagem automática massivamente escaláveis. Como um ecossistema de ferramentas, ele expande a estrutura do Apache Spark em várias novas direções. O SynapseML unifica vários frameworks de aprendizagem automática existentes e novos algoritmos da Microsoft numa única API escalável. A biblioteca SynapseML de código aberto inclui um rico ecossistema de ferramentas de ML para desenvolvimento de modelos preditivos e usa modelos de IA pré-treinados dos serviços de IA do Azure. Para obter mais informações, visite o recurso SynapseML .

Enriquecer e operacionalizar

Os notebooks podem lidar com a pontuação em lote do modelo de aprendizado de máquina com bibliotecas de código aberto para previsão. Eles também podem lidar com a função universal escalável do Microsoft Fabric Spark Predict. Esta função oferece suporte a modelos MLflow empacotados no repositório de modelos do Microsoft Fabric.

Obter informações

No Microsoft Fabric, você pode facilmente escrever valores previstos no OneLake. A partir daí, os relatórios do Power BI podem consumi-los diretamente com o modo Power BI Direct Lake. Os profissionais de ciência de dados podem, então, compartilhar facilmente os resultados de seu trabalho com as partes interessadas - e isso simplifica a operacionalização.

Você pode usar os recursos de agendamento de blocos de anotações para agendar execuções de blocos de anotações que contêm pontuação em lote. Você também pode agendar a pontuação em lote como parte das atividades de pipeline ou tarefas do Spark. Com o modo Direct lake no Microsoft Fabric, o Power BI obtém automaticamente as previsões mais recentes sem a necessidade de carregamentos de dados ou atualizações.

Cientistas de dados e analistas de negócios passam muito tempo tentando entender, limpar e transformar dados antes que uma análise significativa possa começar. Os analistas de negócio normalmente trabalham com modelos semânticos e codificam o seu conhecimento de domínio e lógica de negócio em medidas Power BI. Por outro lado, os cientistas de dados podem trabalhar com os mesmos dados, mas normalmente utilizam um ambiente de código ou linguagem diferente. Com o link semântico, os cientistas de dados podem estabelecer uma conexão entre os modelos semânticos do Power BI e o Synapse Data Science na experiência do Microsoft Fabric por meio da biblioteca Python SemPy. Para simplificar a análise de dados, o SemPy captura e usa semântica de dados à medida que os usuários executam várias transformações nos modelos semânticos. Quando os cientistas de dados usam ligação semântica, eles podem

  • evitar a reimplementação da lógica de negócios e do conhecimento de domínio no seu código.
  • acessar e usar facilmente as medidas do Power BI em seu código
  • usar semântica para potencializar novas experiências - por exemplo, funções semânticas
  • explorar e validar dependências funcionais e relações entre dados

Quando as organizações usam o SemPy, elas podem esperar

  • Maior produtividade e colaboração mais rápida entre equipes que operam nos mesmos conjuntos de dados
  • maior colaboração cruzada entre equipes de business intelligence e IA
  • Redução da ambiguidade e uma curva de aprendizagem mais fácil ao integrar um novo modelo ou conjunto de dados

Para mais informações sobre ligação semântica, veja O que é ligação semântica?.