Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Le partitionnement du GPU vous permet de partager un appareil GPU physique avec plusieurs machines virtuelles (VM). Avec le partitionnement du GPU ou la virtualisation du GPU, chaque machine virtuelle obtient une fraction dédiée du processeur graphique (GPU) au lieu de l’ensemble du GPU.
La fonctionnalité de partitionnement de GPU utilise l’interface SR-IOV (Single Root IO Virtualization, virtualisation d’E/S d’une racine unique), qui fournit une limite de sécurité basée sur le matériel avec des performances prévisibles pour chaque machine virtuelle. Chaque machine virtuelle peut accéder uniquement aux ressources GPU qui lui sont dédiées et le partitionnement sécurisé du matériel empêche tout accès non autorisé par d'autres machines virtuelles.
À compter de Windows Server 2025, la migration dynamique est prise en charge avec le partitionnement GPU, ce qui offre une plus grande flexibilité pour la gestion des machines virtuelles. Pour utiliser la migration dynamique avec le partitionnement GPU, vérifiez que votre configuration répond aux exigences décrites dans cet article. La migration dynamique vous permet de déplacer des machines virtuelles entre des hôtes sans temps d’arrêt, ce qui est essentiel pour la maintenance et l’équilibrage de charge dans un environnement de production.
Cette fonctionnalité permet des migrations de machines virtuelles planifiées tout en conservant l’allocation de ressources GPU, ce qui garantit un temps d’arrêt minimal et des performances cohérentes.
Le partitionnement du GPU est conçu pour les serveurs autonomes. Vous pouvez migrer en direct des machines virtuelles entre des nœuds autonomes en cas de temps d'arrêt planifié; toutefois, pour les clients qui ont besoin d'un cluster en cas de temps d'arrêt non planifié, vous devez utiliser Windows Server 2025 Datacenter.
Quand utiliser le partitionnement GPU?
Certaines charges de travail, notamment l'infrastructure de bureau virtuel (VDI), l'inférence intelligente artificielle (AI) et l'apprentissage automatique (ML) nécessitent une accélération GPU, le partitionnement GPU peut aider à réduire le coût total de possession de votre infrastructure globale.
Par exemple:
Applications VDI : Les clients de Distributed edge exécutent des applications de productivité de base, notamment Microsoft Office, et des charges de travail de visualisation à forte intensité graphique dans leurs environnements VDI, qui nécessitent une accélération GPU. Pour ces charges de travail, vous pouvez obtenir l'accélération GPU requise via DDA ou le partitionnement GPU. Avec le partitionnement GPU, vous pouvez créer plusieurs partitions et affecter chaque partition à une machine virtuelle hébergeant un environnement VDI. Le partitionnement GPU vous permet d'atteindre la densité souhaitée et d'augmenter le nombre d'utilisateurs pris en charge d'un ordre de grandeur.
Inférence avec la ML : Les clients des magasins de détail et des usines de fabrication peuvent exécuter l'inférence à la périphérie, ce qui nécessite la prise en charge du GPU pour leurs serveurs. En utilisant le GPU sur vos serveurs, vous pouvez exécuter des modèles de ML pour obtenir des résultats rapides sur lesquels il est possible d'agir avant que les données ne soient envoyées au cloud. Le jeu de données complet peut également être transféré pour continuer à reformer et améliorer vos modèles ML. Avec DDA, où vous dédiez un GPU physique entier à une machine virtuelle, le partitionnement GPU vous permet d’exécuter plusieurs applications d’inférence simultanément sur le même GPU, mais dans des partitions matérielles distinctes, ce qui optimise l’utilisation du GPU.
Requirements
Pour utiliser le partitionnement GPU avec la migration dynamique, vous devez disposer d’un processeur, d’un système d’exploitation et d’un GPU pris en charge. Les sections suivantes décrivent les exigences.
Configuration requise pour l’UC
Vos hôtes de cluster doivent disposer de processeurs capables de suivre les bits DMA avec une unité de gestion de mémoire d'entrée/sortie (IOMMU). Par exemple, des processeurs prenant en charge Intel VT-D ou AMD-Vi. Si vous utilisez Windows Server et la migration en direct sans processeurs activés par IOMMU, les machines virtuelles sont automatiquement redémarrées là où des ressources GPU sont disponibles.
Voici quelques exemples de processeurs qui prennent en charge le suivi de bits DMA IOMMU :
- AMD EPYC 7002 et versions ultérieures (Milan)
- 4e Génération Intel Xeon SP (Saphir Rapids)
Systèmes d’exploitation invités pris en charge
Le partitionnement GPU sur Windows Server 2025 et versions ultérieures prend en charge ces systèmes d'exploitation invités :
- Windows 10 ou version ultérieure
- Windows 10 Enterprise multi-session ou version ultérieure
- Windows Server 2019 ou ultérieur
- Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS
GPU pris en charge
Les GPU suivants prennent en charge le partitionnement du GPU :
- NVIDIA A2
- NVIDIA A10
- NVIDIA A16
- NVIDIA A40
- NVIDIA L2
- NVIDIA L4
- NVIDIA L40
- NVIDIA L40S
Pour utiliser la migration dynamique avec le partitionnement GPU, vous devez utiliser le pilote inclus dans le logiciel vGPU NVIDIA v18.x ou version ultérieure. Le pilote NVIDIA fournit la prise en charge nécessaire pour le partitionnement GPU et les fonctionnalités de migration dynamique.
Nous vous recommandons de travailler avec vos partenaires OEM (Original Equipment Manufacturer) pour planifier et commander des systèmes adaptés à vos charges de travail. En outre, consultez les fournisseurs de matériel indépendant gpu (IHD) pour vous assurer que vous disposez des configurations appropriées et des logiciels nécessaires pour votre configuration. Cependant, nous prenons en charge davantage de GPU si vous souhaitez utiliser l'accélération GPU via Discrete Device Assignment (DDA). Contactez vos partenaires OEM et IHV pour obtenir une liste des GPU qui prennent en charge le DDA. Pour plus d'informations sur l'utilisation de l'accélération GPU via DDA, consultez la rubrique Affectation des appareils discrets (DDA).
Pour des performances optimales, nous vous recommandons de créer une configuration homogène pour les GPU sur tous les serveurs de votre cluster. Une configuration homogène consiste à installer la même marque et le même modèle de GPU, et à configurer le même nombre de partitions dans les GPU sur tous les serveurs de la grappe. Par exemple, dans un cluster de deux serveurs avec un ou plusieurs GPU installés, tous les GPU doivent être de la même marque, du même modèle et de la même taille. Le nombre de partitions sur chaque GPU doit également correspondre.
Limitations
Tenez compte des limitations suivantes lors de l'utilisation de la fonctionnalité de partitionnement du GPU :
Le partitionnement du GPU n'est pas pris en charge si votre configuration n'est pas homogène. Voici quelques exemples de configurations non prises en charge :
Mélange de GPU de différents fournisseurs dans le même cluster.
Utilisation de différents modèles de GPU de différentes familles de produits du même fournisseur dans le même cluster.
Vous ne pouvez pas assigner un GPU physique en tant qu'Attribution d’appareils en mode discret ou GPU partitionnable. Vous pouvez l'assigner comme DDA ou comme GPU partitionnable, mais pas les deux.
Si vous affectez plusieurs partitions GPU à une machine virtuelle, chaque partition apparaît sous la forme d’un autre GPU.
Les partitions sont attribuées automatiquement aux machines virtuelles. Vous ne pouvez pas choisir une partition spécifique pour une machine virtuelle spécifique.
Vous pouvez partitionner votre GPU à l'aide du Windows Admin Center ou à l'aide de PowerShell. Nous vous recommandons d'utiliser Windows Admin Center pour configurer et attribuer des partitions de GPU. Windows Admin Center valide automatiquement une configuration homogène des GPU sur tous les serveurs de votre cluster. Il fournit les avertissements et les erreurs nécessaires pour prendre les mesures correctives qui s'imposent.
Si vous utilisez PowerShell pour activer le partitionnement GPU, vous devez effectuer les mêmes étapes de configuration sur chaque serveur du cluster. Vous devez vous assurer manuellement que la configuration homogène est maintenue pour les GPU sur tous les serveurs de votre cluster.
Lors de la migration en direct d'une machine virtuelle avec une partition GPU assignée, la migration en direct Hyper-V reviendra automatiquement à l'utilisation de TCP/IP avec compression. La migration d'une machine virtuelle a pour effet potentiel d'augmenter l'utilisation du processeur d'un hôte. En outre, les migrations en direct peuvent prendre plus de temps qu'avec les machines virtuelles sans partition GPU.
Contenu connexe
Pour plus d'informations sur l'utilisation des GPU avec vos machines virtuelles et le partitionnement GPU, consultez :