Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
APLICA-SE A:
Extensão de ML da CLI do Azure v1
APLICA-SE A:
Azure Machine Learning SDK v1 para Python
Importante
Este artigo fornece informações sobre como usar o SDK do Azure Machine Learning v1. O SDK v1 foi preterido a partir de 31 de março de 2025. O suporte para ele terminará em 30 de junho de 2026. Você pode instalar e usar o SDK v1 até essa data. Seus fluxos de trabalho existentes usando o SDK v1 continuarão a operar após a data de fim do suporte. No entanto, eles podem ficar expostos a riscos de segurança ou a alterações interruptivas em caso de mudanças na arquitetura do produto.
Recomendamos que você faça a transição para o SDK v2 antes de 30 de junho de 2026. Para obter mais informações sobre o SDK v2, consulte o que é a CLI do Azure Machine Learning e o SDK do Python v2? e a referência do SDK v2.
O Azure Machine Learning facilita a conexão com seus dados na nuvem. Ele fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que você possa acessar e trabalhar com segurança com seus dados sem precisar escrever código específico ao seu tipo de armazenamento. O Azure Machine Learning também fornece estes recursos de dados:
- Interoperabilidade com Pandas e Spark DataFrames
- Controle de versão e acompanhamento de linhagem de dados
- Rotulagem de dados
- Monitoramento de descompasso de dados
Fluxo de trabalho
Para usar os dados em sua solução de armazenamento baseada em nuvem, use esse fluxo de trabalho de entrega de dados. O fluxo de trabalho pressupõe que você tenha uma conta de armazenamento do Azure e dados em um serviço de armazenamento baseado em nuvem do Azure.
Crie um armazenamento de dados do Azure Machine Learning para armazenar informações de conexão com o armazenamento do Azure.
A partir desse armazenamento de dados, crie um conjunto de dados do Azure Machine Learning para apontar para um arquivo ou arquivos específicos em seu armazenamento subjacente.
Para usar esse conjunto de dados em seu experimento de aprendizado de máquina, você pode
Montar o conjunto de dados no destino de computação do seu experimento para treinamento de modelo
OU
Consuma o conjunto de dados diretamente em soluções do Azure Machine Learning, por exemplo, execuções de experimento de machine learning automatizado (ML automatizado), pipelines de aprendizado de máquina ou o designer do Azure Machine Learning.
Crie monitores de conjunto de dados para o conjunto de dados de saída do modelo para detectar descompasso de dados.
Para desvio de dados detectado, atualize seu conjunto de dados de entrada e retreine seu modelo de acordo.
Esta captura de tela mostra o fluxo de trabalho recomendado:
Conecte-se ao armazenamento com armazenamentos de dados
Os armazenamentos de dados do Azure Machine Learning hospedam com segurança suas informações de conexão de armazenamento de dados no Azure, para que você não precise colocar essas informações em seus scripts. Para obter mais informações sobre como se conectar a uma conta de armazenamento e acesso a dados em seu serviço de armazenamento subjacente, consulte Registrar e criar um armazenamento de dados.
Você pode registrar esses serviços de armazenamento baseados em nuvem do Azure com suporte como armazenamentos de dados:
- Contêiner de Blob do Azure
- Compartilhamento de Arquivos do Azure
- Azure Data Lake
- Azure Data Lake Gen2
- Banco de Dados SQL do Azure
- Banco de Dados do Azure para PostgreSQL
- Sistema de arquivos do Databricks
- Banco de Dados do Azure para MySQL
Dica
Você pode criar armazenamentos de dados com autenticação baseada em credencial para acessar serviços de armazenamento, como uma entidade de serviço ou um token SAS (assinatura de acesso compartilhado). Os usuários com acesso de Leitura ao workspace podem acessar essas credenciais.
Se isso for uma preocupação, consulte criar um armazenamento de dados que use acesso a dados baseados em identidade para obter mais informações sobre conexões com serviços de armazenamento.
Dados de referência no armazenamento com conjuntos de dados
Os conjuntos de dados do Azure Machine Learning não são cópias de seus dados. A própria criação do conjunto de dados cria uma referência aos dados em seu serviço de armazenamento, junto com uma cópia de seus metadados.
Como os conjuntos de dados são avaliados lentamente e os dados permanecem em sua localização existente, você
- Não incorre em nenhum custo de armazenamento extra
- Não arrisca alterações não intencionais em suas fontes de dados originais
- Aprimorar as velocidades de desempenho do fluxo de trabalho do ML
Para interagir com seus dados no armazenamento, crie um conjunto de dados para empacotá-los em um objeto consumível para tarefas de aprendizado de máquina. Registre o conjunto de dados em seu workspace para compartilhá-lo e reutilizar em diferentes experimentos sem complicações de ingestão de dados.
Você pode criar conjuntos de dados de arquivos locais, URLs públicas, conjuntos de dados abertos do Azure ou serviços de armazenamento do Azure por meio de armazenamentos de dados.
Existem dois tipos de conjuntos de dados:
Um FileDataset faz referência a um ou a vários arquivos em seus armazenamentos de dados ou URLs públicas. Se os dados já estiverem limpos e prontos para experimentos de treinamento, você poderá baixar ou montar arquivos referenciados por FileDatasets para seu destino de computação.
Um TabularDataset representa dados em um formato tabular analisando o arquivo fornecido ou a lista de arquivos. Você pode carregar um TabularDataset em um Pandas ou Spark DataFrame para manipulação e limpeza adicionais. Para obter uma lista completa de formatos de dados dos quais você pode criar TabularDatasets, visite a classe TabularDatasetFactory.
Esses recursos oferecem mais informações sobre os recursos do conjunto de dados:
- Versão e acompanhamento da linhagem do conjuntos de dados
- Monitore seu conjuntos de dados para ajudar na detecção de descompasso de dados
Trabalhe com seus dados
Com os conjuntos de dados, você pode realizar tarefas de aprendizado de máquina por meio de integração direta com recursos do Azure Machine Learning.
- Criar um projeto de rotulagem de dados
- Treinamento de modelos de aprendizado de máquina:
- Acesse conjuntos de dados para pontuação com inferência de lote em pipelines de aprendizado de máquina
- Configure um monitor de conjunto de dados para detectar descompassos de dados
Rotular dados com projetos de rotulagem de dados
Rotular grandes volumes de dados em projetos de machine learning pode se tornar um desafio. Os projetos que envolvem um componente da pesquisa visual computacional, como a classificação de imagem ou a detecção de objetos, geralmente exige milhares de imagens e os rótulos correspondentes.
O Azure Machine Learning oferece uma localização central para criar, gerenciar e monitorar projetos de rotulagem. Os projetos de rotulagem ajudam a coordenar os dados, os rótulos e os membros da equipe para que você gerencie com mais eficiência as tarefas de rotulagem. As tarefas com suporte no momento envolvem classificação de imagem, multirrótulo ou multiclasse e identificação de objeto usando caixas delimitadas.
Crie um projeto de rotulagem de imagem ou projeto de rotulagem de texto e gere um conjunto de dados para uso em experimentos de aprendizado de máquina.
Monitorar o desempenho do modelo com descompasso de dados
No contexto do aprendizado de máquina, o descompasso de dados envolve a mudança nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É um dos principais motivos pelos quais a precisão do modelo se degrada ao longo do tempo e o monitoramento do descompasso de dados ajuda a detectar problemas de desempenho do modelo.
Para obter mais informações, visite Criar um monitor de conjunto de dados para saber como detectar e alertar sobre o descompasso de dados em novos dados em um conjunto de dados.
Próximas etapas
- Criar um conjunto de dados no Estúdio do Azure Machine Learning ou com o SDK do Python
- Experimente exemplos de treinamento de conjunto de dados com nossos notebooks de exemplo