Obter e preparar dados

Concluído

Os dados são a base do aprendizado de máquina. Tanto a quantidade quanto a qualidade dos dados afetam a precisão do modelo.

Para treinar um modelo de aprendizado de máquina, você precisa:

  • Identificar a fonte e o formato dos dados.
  • Escolha como fornecer dados.
  • Projete uma solução de ingestão de dados.

Para obter e preparar os dados que você usa para treinar o modelo de aprendizado de máquina, você precisa extrair dados de uma fonte e disponibilizá-los para o serviço do Azure que você deseja usar para treinar modelos ou fazer previsões.

Identificar a fonte e o formato dos dados

Primeiro, você precisa identificar sua fonte de dados e seu formato de dados atual.

Identificar a seringa Exemplos
Fonte de dados Por exemplo, os dados podem ser armazenados em um sistema de Customer Relationship Management (CRM), em um banco de dados transacional como um banco de dados SQL, ou ser gerados por um dispositivo de Internet das Coisas (IoT).
Formato dos dados Você precisa entender o formato atual dos dados, que podem ser dados tabulares ou estruturados, dados semiestruturados ou dados não estruturados.

Em seguida, você precisa decidir quais dados você precisa treinar seu modelo e em que formato você deseja que esses dados sejam servidos para o modelo.

Projetar uma solução de ingestão de dados

Em geral, é uma prática recomendada extrair dados de sua fonte antes de analisá-los. Quer esteja a utilizar os dados para engenharia de dados, análise de dados ou ciência de dados, pretende extrair os dados da sua origem, transformá-los e carregá-los numa camada de serviço. Esse processo também é conhecido como Extrair, Transformar e Carregar (ETL) ou Extrair, Carregar e Transformar (ELT). A camada de serviço disponibiliza seus dados para o serviço que você usa para processamento adicional de dados, como modelos de aprendizado de máquina de treinamento.

Para mover e transformar dados, você pode usar um pipeline de ingestão de dados. Um pipeline de ingestão de dados é uma sequência de tarefas que movem e transformam os dados. Ao criar um pipeline, você pode optar por acionar as tarefas manualmente ou agendar o pipeline quando quiser que as tarefas sejam automatizadas. Esses pipelines podem ser criados com serviços do Azure, como o Azure Synapse Analytics, o Azure Databricks e também o Azure Machine Learning.

Uma abordagem comum para uma solução de ingestão de dados é:

  1. Extraia dados brutos de sua origem (como um sistema CRM ou dispositivo IoT).
  2. Copie e transforme os dados com o Azure Synapse Analytics.
  3. Armazene os dados preparados em um Armazenamento de Blob do Azure.
  4. Treine o modelo com o Azure Machine Learning.

Diagrama mostrando um exemplo de um pipeline de ingestão de dados.

Explore um exemplo

Imagine que você quer treinar um modelo de previsão do tempo. Você prefere uma tabela na qual todas as medições de temperatura de cada minuto são combinadas. Você deseja criar agregados dos dados e ter uma tabela da temperatura média por hora. Para criar a tabela, você deseja transformar os dados semiestruturados ingeridos do dispositivo IoT que mede a temperatura em intervalos em dados tabulares.

Diagrama mostrando um exemplo de dados JSON convertidos em uma tabela.

Por exemplo, para criar um conjunto de dados que você pode usar para treinar o modelo de previsão, você pode:

  1. Extraia medições de dados como objetos JSON dos dispositivos IoT.
  2. Converter os objetos JSON em uma tabela.
  3. Transforme os dados para obter a temperatura por máquina por minuto.

Em seguida, vamos explorar os serviços que podemos usar para treinar modelos de aprendizado de máquina.