Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os Copilot+ PCs são uma nova classe de hardware do Windows 11 alimentada por uma Unidade de Processamento Neural (NPU) de alto desempenho — um chip de computador especializado para processos intensivos em IA, como traduções em tempo real e geração de imagens — que pode executar mais de 40 trilhões de operações por segundo (TOPS). Copilot+ Os computadores fornecem a duração da bateria durante todo o dia e o acesso aos modelos e recursos de IA mais avançados.
Saiba Mais:
- Capacitando o futuro: ecossistema de aplicativos Arm em expansão para Copilot+ PCs
- Apresentando Copilot+ PCs – o blog oficial da Microsoft.
A seguinte Orientação para Desenvolvedores do Copilot+ PC abrange:
- Pré-requisitos do dispositivo
- O que é o chip Snapdragon Elite X+ baseado em Arm?
- Recursos exclusivos de IA suportados por Copilot+ PCs com processador NPU
- Como acessar a NPU em um Copilot+ PC
- Como usar o ONNX Runtime para acessar programaticamente a NPU em um Copilot+ PC
- Como medir o desempenho de modelos de IA executados localmente na NPU do dispositivo
Pré-requisitos
Esta orientação é específica para Copilot+ PCs.
Muitos dos novos recursos de IA do Windows exigem uma NPU com a capacidade de executar em mais de 40 TOPS, incluindo, mas não se limitando a:
- Laptop Microsoft Surface Copilot+ PC
- Microsoft Surface Pro Copilot + PC
- HP OmniBook X 14
- Dell Latitude 7455, XPS 13 e Inspiron 14
- IA do Acer Swift 14
- Lenovo Yoga Slim 7x e ThinkPad T14s
- Samsung Galaxy Book4 Edge
- ASUS Vivobook S 15 e ProArt PZ13
- Copilot+ PCs com o novo AMD e Intel silicon, incluindo AMD Ryzen AI 300 series e Intel Core Ultra 200V series.
Surface Copilot+ PCs para Empresas:
- Surface Laptop para Empresas com processadores Intel Core Ultra (Série 2) (Disponível a partir de 18 de fevereiro de 2025)
- Surface Pro para Empresas com processadores Intel Core Ultra (Série 2) (Disponível a partir de 18 de fevereiro de 2025)
- Apresentando novos Surface Copilot+ PCs para Empresas
O que é o chip Snapdragon Elite X baseado em Arm?
O novo chip Snapdragon X Elite baseado em Arm construído pela Qualcomm enfatiza a integração de IA por meio de sua Unidade de Processamento Neural (NPU) líder do setor. Essa NPU é capaz de processar grandes quantidades de dados em paralelo, realizando trilhões de operações por segundo, usando energia em tarefas de IA de forma mais eficiente do que uma CPU ou GPU, o que resulta em uma maior duração da bateria do dispositivo. A NPU funciona em alinhamento com a CPU e GPU. O Windows 11 atribui tarefas de processamento ao local mais apropriado para oferecer um desempenho rápido e eficiente. A NPU permite experiências inteligentes de IA no dispositivo com segurança de nível empresarial para proteção aprimorada do chip à nuvem.
- Saiba mais sobre o Qualcomm Snapdragon X Elite.
- Saiba mais sobre como usar e desenvolver para o Windows on Arm.
Recursos de IA exclusivos suportados por Copilot+ PCs com uma NPU
Os Copilot+ PCs oferecem experiências únicas de IA fornecidas com as versões modernas do Windows 11. Esses recursos de IA, projetados para serem executados na NPU do dispositivo, são fornecidos nas versões mais recentes do Windows e estarão disponíveis por meio de APIs no Microsoft Foundry no Windows. Saiba mais sobre o Microsoft Foundry em APIs do Windows compatíveis com modelos otimizados para execução (inferência) na NPU. Essas APIs serão fornecidas em uma versão futura do SDK do Aplicativo Windows.
Como acessar a NPU em um Copilot+ PC
A Unidade de Processamento Neural (NPU) é um novo recurso de hardware. Assim como outros recursos de hardware em um PC, a NPU precisa que o software seja especificamente programado para aproveitar os benefícios que oferece. As NPUs são projetadas especificamente para executar as operações matemáticas de aprendizado profundo que compõem os modelos de IA.
Os recursos de IA do Windows 11 Copilot+ mencionados acima foram projetados especificamente para usufruir da NPU. Os usuários observarão uma maior duração da bateria e tempo de execução de inferência mais rápido para modelos de IA voltados para a NPU. O suporte do Windows 11 a NPUs incluirá dispositivos Qualcomm baseados em Arm, bem como dispositivos Intel e AMD (em breve).
Para dispositivos com NPUs, o Gerenciador de Tarefas agora pode ser usado para exibir o uso de recursos da NPU.
A maneira recomendada de inferência (executar tarefas de IA) na NPU do dispositivo é usar o Windows ML.
Como acessar programaticamente a NPU em um Copilot+ PC para aceleração de IA
A maneira recomendada de acessar programaticamente a NPU (Unidade de Processamento Neural) e a GPU para aceleração de IA mudou do DirectML para o WinML (Windows ML). Essa transição reflete um esforço mais amplo para simplificar e otimizar a experiência do desenvolvedor para cargas de trabalho de IA em dispositivos Windows. Você pode encontrar diretrizes atualizadas aqui: saiba como o Windows Machine Learning (ML) ajuda seus aplicativos do Windows a executar modelos de IA localmente.
Descoberta de EP interna: Anteriormente, os desenvolvedores eram obrigados a saber quais Provedores de Execução (EPs) eram compatíveis com seu hardware e integrar esses EPs com seus aplicativos. Isso geralmente levou a tamanhos de aplicativos maiores e maior complexidade no gerenciamento de dependências. Com o Windows ML, o processo agora é automatizado e simplificado. O Windows ML detecta automaticamente o hardware disponível no dispositivo e baixa os EPs apropriados conforme necessário. Isso significa que os desenvolvedores não precisam mais agrupar EPs específicos com seus aplicativos, resultando em tamanhos menores de aplicativos e complexidade reduzida.
Entrega integrada de EP: os EPs necessários, como QNNExecutionProvider da Qualcomm ou o EP OpenVINO da Intel, agora são agrupados com o Windows ou entregues por meio do Windows Update, eliminando a necessidade de downloads manuais.
ORT sob o capô: o Windows ML ainda usa o ONNX Runtime como seu mecanismo de inferência, mas simplifica a complexidade do gerenciamento de EP. O ONNX Runtime é um mecanismo de inferência e treinamento de software livre para modelos de IA usando o formato ONNX e permitindo que os desenvolvedores criem aplicativos de IA que podem ser executados com eficiência em uma ampla gama de dispositivos.
Colaboração com fornecedores de hardware: a Microsoft trabalha diretamente com fornecedores de hardware, como Qualcomm e Intel, para garantir a compatibilidade de EP com versões de driver iniciais e novo silício (por exemplo, Snapdragon X Elite, Intel Core Ultra etc.).
Ao implantar um modelo de IA usando o Windows ML em um Copilot+ PC:
- O Windows ML consulta o sistema em busca de aceleradores de hardware disponíveis.
- Ele seleciona o EP com maior desempenho (por exemplo, QNN para NPUs do Qualcomm, OpenVINO para NPUs Intel).
- O EP é carregado automaticamente e a inferência começa.
- Se o EP preferencial falhar ou não estiver disponível, o Windows ML retornará normalmente para outro (por exemplo, usando a GPU ou a CPU).
Isso significa que os desenvolvedores podem se concentrar na criação de experiências de IA sem se preocupar com a integração de hardware de baixo nível
Formatos com compatíveis
Os modelos de IA são frequentemente treinados e disponíveis em grandes formatos de dados, como FP32. Muitos dispositivos NPU, no entanto, só oferecem suporte à matemática de inteiros em formato de bit inferior, como INT8, para maior desempenho e eficiência energética. Portanto, os modelos de IA precisam ser convertidos (ou "quantizados") para serem executados na NPU. Existem muitos modelos disponíveis que já foram convertidos em um formato pronto para uso. Você também pode trazer seu próprio modelo (BYOM) para converter ou otimizar.
- Qualcomm AI Hub (Compute): a Qualcomm fornece modelos de IA que já foram validados para uso em Copilot+ PCs com Snapdragon X Elite com os modelos disponíveis especificamente otimizados para rodar de forma eficiente nesta NPU. Saiba mais: Acelerar a implantação de modelos com o Qualcomm AI Hub | Compilação 2024 da Microsoft.
- ONNX Model Zoo: este repositório de código aberto oferece uma coleção curada de modelos pré-treinados e de última geração no formato ONNX. Esses modelos são recomendados para uso com NPUs em todos os Copilot+ PCs, incluindo dispositivos Intel e AMD (em breve).
Para aqueles que querem trazer seu próprio modelo, recomendamos usar a ferramenta de otimização de modelo com reconhecimento de hardware, Olive. O Olive pode ajudar com compactação, otimização e compilação de modelos para trabalhar com o ONNX Runtime como uma solução de otimização de desempenho de NPU. Saiba mais: IA facilitada: como o ONNX Runtime e a cadeia de ferramentas Olive ajudarão você a fazer perguntas e respostas | Compilação 2023.
Como medir o desempenho de modelos de IA executados localmente na NPU do dispositivo
Para medir o desempenho da integração de recursos de IA em seu aplicativo e os tempos de execução do modelo de IA associado:
Registrar um rastreamento: o registro da atividade do dispositivo durante um período de tempo é conhecido como rastreamento do sistema. O rastreamento do sistema produz um "arquivo de rastreamento" que pode ser usado para gerar um relatório e ajudar você a identificar como melhorar o desempenho do aplicativo. Saiba mais: Capturar um rastreamento do sistema para analisar o uso de memória.
Exibir o uso da NPU: examine quais processos estão usando a NPU e as pilhas de chamadas que enviam trabalhos.
Exibir trabalho e pilhas de chamadas na CPU: examine os resultados dos modelos de IA de alimentação pré-trabalho e modelos de IA de processamento pós-trabalho.
Load and Runtime: examine o período de tempo para carregar um modelo de IA e criar uma sessão do ONNX Runtime.
Parâmetros de tempo de execução: examine a configuração do ONNX Runtime e os parâmetros do Provedor de Execução (EP) que afetam o desempenho e a otimização do tempo de execução do modelo.
Tempos de inferência individuais: acompanhe os tempos por inferência e os subdetalhes da NPU.
Profiler: operações de modelo de IA de perfil para ver quanto tempo cada operador levou para contribuir para o tempo total de inferência.
Específico da NPU: examine os subdetalhes da NPU, como métricas de sub-HW, largura de banda da memória e muito mais.
Para realizar essas medições, recomendamos as seguintes ferramentas de diagnóstico e rastreamento:
- Gerenciador de Tarefas: permite que um usuário exiba o desempenho do Sistema Operacional Windows instalado em seu dispositivo, incluindo Processos, Desempenho, Histórico de aplicativos, Aplicativos de inicialização, Usuários, Detalhes e Serviços. Os dados de desempenho em tempo real serão mostrados para a CPU, memória, disco de armazenamento, Wi-Fi, GPU... e agora NPU do seu dispositivo. Os dados incluem a porcentagem de utilização, memória disponível, memória compartilhada, versão do driver, localização física e muito mais.
- Windows Performance Recorder (WPR): o WPR agora é fornecido com um perfil de Processamento Neural para registrar a atividade da NPU. Ele registra as interações do Microsoft Compute Driver Model (MCDM) com a NPU. Os desenvolvedores agora podem ver o uso da NPU, quais processos estão usando a NPU e as pilhas de chamadas que enviam trabalhos.
- Windows Performance Analyzer (WPA): o WPA cria gráficos e tabelas de dados de eventos do ETW (Rastreamento de Eventos para Windows) que são registrados pelo WPR (Windows Performance Recorder), Xperf ou uma avaliação executada na Plataforma de Avaliação. Ele fornece pontos de acesso convenientes para analisar a CPU, Disco, Rede, Eventos do ONNX Runtime... e uma nova tabela para análise de NPU, tudo em uma única linha do tempo. O WPA agora pode exibir o trabalho e as pilhas de chamadas na CPU relacionados ao pré-trabalho alimentando os modelos de IA e pós-trabalho processando os resultados do modelo de IA. Baixe o Windows Performance Analyzer na Microsoft Store.
- GPUView: o GPUView é uma ferramenta de desenvolvimento que lê os eventos de vídeo e kernel registrados em um arquivo de log de rastreamento de eventos (.etl) e apresenta os dados graficamente para o usuário. Essa ferramenta agora inclui operações de GPU e NPU, bem como suporte à exibição de eventos DirectX para dispositivos MCDM, como a NPU.
-
Eventos do ONNX Runtime no Windows Performance Analyzer: a partir do ONNX Runtime 1.17 (e aprimorado no 1.18.1), os seguintes casos de uso estão disponíveis com eventos emitidos no Runtime:
- Veja quanto tempo foi necessário para carregar um modelo de IA e criar uma sessão do ONNX Runtime.
- Verifique a configuração do ONNX Runtime e os parâmetros do Provedor de Execução (EP) que afetam o desempenho e a otimização do tempo de execução do modelo.
- Acompanhe os tempos por inferência e os subdetalhes da NPU (QNN).
- Crie perfils das operações de modelo de IA para ver quanto tempo cada operador levou para contribuir para o tempo total de inferência.
- Saiba mais sobre a Criação de perfiis do Provedor de Execução (EP) do ONNX Runtime.
Observação
A WPR UI (a interface do usuário disponível para oferecer suporte ao WPR baseado em linha de comando incluído no Windows), WPA e GPUView fazem parte do Windows Performance Toolkit (WPT), versão de maio de 2024+. Para usar o WPT, você precisará: Baixar o Kit de Ferramentas do Windows ADK.
Para obter um início rápido sobre a exibição de eventos do ONNX Runtime com o Windows Performance Analyzer (WPA), execute estas etapas:
Baixe os arquivos ort.wprp e etw_provider.wprp.
Abra sua linha de comando e insira:
wpr -start ort.wprp -start etw_provider.wprp -start NeuralProcessing -start CPU echo Repro the issue allowing ONNX to run wpr -stop onnx_NPU.etl -compressCombine os perfis do Windows Performance Recorder (WPR) com outros perfis de gravação internos, como CPU, disco, etc.
Baixe o Windows Performance Analyzer (WPA) da Microsoft Store.
Abra o arquivo
onnx_NPU.etlno WPA. Clique duas vezes para abrir estes gráficos:- "Processamento Neural -> Utilização da NPU
- Eventos genéricos para eventos do ONNX
Outras ferramentas de medição de desempenho a serem consideradas além das ferramentas do Microsoft Windows listadas acima incluem:
- Qualcomm Snapdragon Profiler (qprof): uma ferramenta de criação de perfis de desempenho com GUI que abrange todo o sistema e foi desenvolvida para exibir o desempenho do sistema, bem como identificar oportunidades de melhoria de otimização e dimensionamento de aplicativos em CPUs SoC Qualcomm, GPUs, DSPs e outros blocos de IP. O Snapdragon Profiler permite exibir subdetalhes da NPU, como métricas sub-HW, largura de banda de memória e muito mais.
Recursos adicionais
- Visão geral do Microsoft Foundry no Windows
- Visão geral dos conceitos básicos e desempenho do aplicativo do Windows
- Visão geral do Windows on Arm- Capacitando o futuro: o ecossistema de aplicativos Copilot em expansão para + PCs
- O que é o Windows ML
- Tudo sobre unidades de processamento neural (NPUs)