Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
APLICA-SE A:
Azure CLI ml extension v1
APLICA-SE A:
SDK do Azure Machine Learning v1 para Python
Importante
Este artigo fornece informações sobre como usar o SDK do Azure Machine Learning v1. O SDK v1 foi preterido a partir de 31 de março de 2025. O apoio terminará em 30 de junho de 2026. Você pode instalar e usar o SDK v1 até essa data. Seus fluxos de trabalho existentes usando o SDK v1 continuarão a operar após a data de fim do suporte. No entanto, eles podem estar expostos a riscos de segurança ou alterações disruptivas no caso de alterações arquitetônicas no produto.
Recomendamos a transição para o SDK v2 antes de 30 de junho de 2026. Para obter mais informações sobre o SDK v2, consulte O que é a CLI do Azure Machine Learning e o SDK do Python v2? e a referência do SDK v2.
O Azure Machine Learning facilita a ligação aos seus dados na nuvem. Ele fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que você possa acessar e trabalhar com segurança com seus dados sem a necessidade de escrever código específico para seu tipo de armazenamento. O Azure Machine Learning também fornece estes recursos de dados:
- Interoperabilidade com Pandas e Spark DataFrames
- Controle de versão e rastreamento de linhagem de dados
- Identificação de dados
- Monitorização de desvios de dados
Fluxo de trabalho de dados
Para utilizar os dados na sua solução de armazenamento baseada na cloud, utilize este fluxo de trabalho de entrega de dados. O fluxo de trabalho assume que tens uma conta de armazenamento Azure e dados num serviço de armazenamento baseado na cloud Azure.
Crie um armazenamento de dados Azure Machine Learning para armazenar informação de ligação no seu armazenamento Azure.
A partir desse datastore, crie um conjunto de dados Azure Machine Learning para apontar para um ficheiro específico ou ficheiros no seu armazenamento subjacente.
Para usar esse conjunto de dados em seu experimento de aprendizado de máquina, você pode:
Monte o conjunto de dados no destino de computação do seu experimento, para treinamento de modelo
OU
Consuma o conjunto de dados diretamente nas soluções do Azure Machine Learning - por exemplo, execuções de experimento de aprendizado de máquina automatizado (ML automatizado), pipelines de aprendizado de máquina ou o designer do Azure Machine Learning.
Cria monitores de conjunto de dados para o teu conjunto de dados de saída do modelo para detetar desvios de dados.
Para a deteção de desvio de dados, atualize o seu conjunto de dados de entrada e retreine o seu modelo em conformidade.
Esta captura de tela mostra o fluxo de trabalho recomendado:
Conectar-se ao armazenamento com armazenamentos de dados
Os armazenamentos de dados do Azure Machine Learning hospedam com segurança suas informações de conexão de armazenamento de dados no Azure, para que você não precise colocar essas informações em seus scripts. Para mais informações sobre ligação a uma conta de armazenamento e acesso a dados no seu serviço de armazenamento subjacente, consulte Registar e criar um armazenamento de dados.
Pode registar estes serviços de armazenamento cloud em Azure suportados como datastores:
- Contentor de Blobs do Azure
- Partilha de Ficheiros do Azure
- Azure Data Lake
- Azure Data Lake Gen2
- Base de Dados SQL do Azure
- Base de Dados do Azure para PostgreSQL
- Sistema de Ficheiros do Databricks
- Base de Dados do Azure para MySQL
Gorjeta
Pode criar repositórios de dados com autenticação baseada em credenciais para aceder a serviços de armazenamento, como um principal de serviço ou um token de assinatura de acesso partilhada (SAS). Os usuários com acesso de leitor ao espaço de trabalho podem acessar essas credenciais.
Se isto for uma preocupação, consulte criar um armazenamento de dados que utilize acesso a dados baseado em identidade para mais informações sobre ligações a serviços de armazenamento.
Dados de referência armazenados com conjuntos de dados
Os conjuntos de dados do Azure Machine Learning não são cópias dos seus dados. A própria criação do conjunto de dados cria uma referência aos dados em seu serviço de armazenamento, juntamente com uma cópia de seus metadados.
Como os conjuntos de dados são avaliados de forma preguiçosa e os dados permanecem na sua localização atual, você
- Incorra sem custos adicionais de armazenamento
- Não arrisque alterações não intencionais em suas fontes de dados originais
- Melhore as velocidades de desempenho do fluxo de trabalho de ML
Para interagir com seus dados no armazenamento, crie um conjunto de dados para empacotar seus dados em um objeto consumível para tarefas de aprendizado de máquina. Registre o conjunto de dados em seu espaço de trabalho para compartilhá-lo e reutilizá-lo em diferentes experimentos sem complexidades de ingestão de dados.
Pode criar conjuntos de dados a partir de ficheiros locais, URLs públicos, Azure Open Datasets ou serviços de armazenamento Azure através de datastores.
Existem dois tipos de conjuntos de dados:
Um FileDataset faz referência a um ou vários arquivos em seus armazenamentos de dados ou URLs públicas. Se os seus dados já estiverem limpos e prontos para experiências de treino, pode descarregar ou montar ficheiros referenciados pelos FileDatasets no seu alvo de computação.
Um TabularDataset representa dados num formato tabular através da análise do ficheiro fornecido ou da lista de ficheiros. Você pode carregar um TabularDataset em um pandas ou Spark DataFrame para manipulação e limpeza adicionais. Para uma lista completa de formatos de dados a partir dos quais pode criar TabularDatasets, visite a classe TabularDatasetFactory.
Esses recursos oferecem mais informações sobre os recursos do conjunto de dados:
- Versão e linhagem do conjunto de dados de pista
- Monitore seu conjunto de dados para ajudar na deteção de desvio de dados
Trabalhar com os seus dados
Com conjuntos de dados, você pode realizar tarefas de aprendizado de máquina por meio da integração perfeita com os recursos do Azure Machine Learning.
- Criar um projeto de rotulagem de dados
- Treinar modelos de aprendizado de máquina:
- Acesse conjuntos de dados para pontuação com inferência em lote em pipelines de aprendizado de máquina
- Configurar um monitor de conjunto de dados para deteção de desvio de dados
Rotular dados com projetos de rotulagem de dados
Etiquetar grandes volumes de dados em projetos de aprendizado de máquina pode tornar-se um desafio. Projetos que envolvem um componente de visão computacional, como classificação de imagens ou deteção de objetos, geralmente exigem milhares de imagens e rótulos correspondentes.
O Azure Machine Learning fornece um local central para criar, gerenciar e monitorar projetos de rotulagem. Os projetos de rotulagem ajudam a coordenar os dados, os rótulos e os membros da equipe, para que você possa gerenciar as tarefas de rotulagem com mais eficiência. As tarefas atualmente suportadas envolvem a classificação de imagens, seja multi-rótulo ou multiclasse, e a identificação de objetos usando caixas delimitadoras.
Crie um projeto de rotulagem de imagem ou projeto de rotulagem de texto e produza um conjunto de dados para uso em experimentos de aprendizado de máquina.
Monitore o desempenho do modelo com desvio de dados
No contexto do aprendizado de máquina, o desvio de dados envolve a alteração nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É uma das principais razões pelas quais a precisão do modelo se degrada com o tempo, e o monitoramento de desvio de dados ajuda a detetar problemas de desempenho do modelo.
Para obter mais informações, visite Criar um monitor de conjunto de dados para saber como detetar e alertar para desvio de dados em novos dados em um conjunto de dados.
Próximos passos
- Criar um conjunto de dados no estúdio do Azure Machine Learning ou com o SDK do Python
- Experimente exemplos de treinamento de conjunto de dados com nossos blocos de anotações de exemplo