Professional Documents
Culture Documents
Introduction
Contexte
Au cours d’une mission chez un de mes clients, j’ai accompagné un certain nombre
de projets sur la partie architecture infrastructure. L’un de ces projets reposait sur la
technologie Active Pivot. Ce logiciel permet, à partir d’un jeu de données, de créer
des cubes en mémoire et de l’offrir aux utilisateurs sous la vue d’un tableau croisé
dynamique.
Problématique
La première fois que l’on voit l’interface de vSphere, certains paramètres peuvent
sembler étranges sur la partie CPU. En particulier :
Périmètre de l’article
Le sujet est large. C’est pourquoi cet article se limite volontairement à l’impact de la
topologie des processeurs sur la virtualisation avec VMware et ESXi. Par exemple, le
CPU scheduling n’est pas traité et pourra faire l’objet d’un autre article.
Une socket est l’emplacement physique sur lequel se branche le composant qui
contient le ou les processeur(s).
Sur cette image on voit que les barrettes de RAM sont plus rapprochées de certaines
sockets que d’autres. Cette affinité entre les processeurs et la mémoire est au cœur
de la problématique NUMA (cf. chapitre suivant).
Ici on peut imaginer deux nœuds NUMA qui comprennent une socket chacun et la
RAM immédiatement positionnée au dessus et en dessous de la dite socket.
Une socket peut contenir plusieurs processeurs, des cœurs physiques. Ces cœurs
font partie d’un ensemble que l’on nomme CPU package. Un CPU package contient
donc X cœurs et un cœur ne peut faire parti que d’une seul CPU package.
Dans cette exemple, nous avons un serveur de 512 Go de RAM et de 16 cores répartis
sur deux sockets.
Accès à la mémoire
Nous avons dit précédemment qu’un nœud NUMA est l’association entre un
ensemble de cœurs regroupés dans un CPU Package et la mémoire (RAM). Pourquoi
?
Tout simplement parce qu’avec le concept NUMA (Non Unified Memory Access) il
existe deux types d’accès à la mémoire :
Un accès dit local (un accès direct à la mémoire « proche », c’est à dire sans
passer par les liaisons QPI (QuickPath Interconnect, bus de données entre les
CPU) pour les technologies Intel
Un accès dit en remote, c’est-à-dire que l’on est obligé de passer à travers les
liens QPI pour avoir accès à la mémoire
Ce qu’il faut retenir c’est que l’accès, du fait que l’on soit obligé de passer par des
bus supplémentaire, augmente le temps d’accès à la mémoire. Cette
problématique d’accès à la mémoire est au cœur ( ) des enjeux des constructeurs
de CPU, et l’arrivée d’une nouvelle gamme de CPU est souvent accompagnée
d’optimisations côté QPI ou HyperTransport.
La mémoire cache
Les caches non partagés (L1 et L2) c’est à dire ceux qui appartiennent à un
cœur physique
Les caches partagés entre les cœurs d’une même socket physique. C’est le cas
des caches type L3 et L4 qui font partis d’un ensemble que l’on nomme LLC
(Last Level Cache)
Ce qu’il est intéressant de regarder, dans le tableau ci-dessus, sont les temps
d’accès aux caches et à la mémoire. On remarque globalement une grande
différence entre les temps d’accès aux différents niveaux de caches (Lx) et la RAM
qu’elle soit locale ou non. Ces temps d’accès nous permettent de nous rendre
compte de l’importance de rester le plus possible dans un contexte mémoire local
et donc au sein d’un même nœud NUMA.
Résumé et Hyperthreading
Deux grands axes intimement liés quand on parle des nœuds NUMA :
Le schéma ci-dessous résume les différentes couches que nous avons vu dans les
chapitres précédents:
Il est à noter que dans le cas d’une utilisation de technologies type HyperThreading,
les caches L1 et L2 sont partagés entre les deux cœurs logiques d’un même cœur
physique.
Les nœuds NUMA n’ont pas une importance qu’au sein de contextes virtualisés.
Prenons l’exemple ici d’un serveur physique sur lequel est installé un système
d’exploitation. L’OS quel qu’il soit voit la topologie NUMA des processeurs qui lui
sont rattachés. Par des appels système, l’OS optimise lui même les allocations
mémoires affectées aux applications installées. Cette optimisation se fait, tant que
faire se peut, en fonction de la quantité de RAM demandée initialement par
l’application et les espaces mémoires disponibles sur le serveur.
Exemple :
Les nœuds NUMA, s’ils sont mal gérés, peuvent poser deux problèmes :
1. Le cas le plus classique : des cœurs sont alloués à une VM mais répartis sur
deux nœuds NUMA distincts. Dans l’exemple ci-dessous, nous avons une VM
de 8 vCPU répartis sur deux nœuds NUMA. Si on part du principe que la RAM
allouée à la VM a été provisionnée sur la mémoire accessible en local par le
nœud NUMA 0, les deux cœurs du nœud NUMA 1 y accèdent en remote
Revenons à la problématique
On l’a vu en première partie de cet article, la définition d’une VM passe par la
définition d’éléments de configuration qu’il est important de comprendre.
un OS
des resources de stockage
des interfaces réseaux
de la mémoire RAM
des resources de traitement (un nombre de vCPU)
Sur ce dernier point, celui qui nous intéresse le plus, on remarque que plusieurs
éléments, configurables, définissent le nombre de vCPU :
2 sockets
2 processeurs (l’OS voit une socket de 1 cœur physique, chaque cœur possède
un thread unique, il n’y a pas d’hyperthreading)
1 nœud NUMA
La notion de vSocket a été introduite dans vSphere 4.1 pour passer outre les
restrictions des OS sur le nombre de CPU – dans les versions précédentes il n’y avait
pas possibilité de paramétrer le nombre de cœurs par vSocket :
Je dis « normalement » parce que VMware est on ne peut plus claire (cf. VMware
Performance Best Practices on vSphere 6.0 White Paper) :
Résumé : sur une VM dont les vCPU ne tournent pas dans un seul noeud NUMA (non
wide), toucher au cores per socket n’a normalement pas de conséquences mais rien
ne permet d’en être certain. Chaque cas nécessite d’être testé.
L’objectif n’est pas de tourner en dérision les propos de VMware, dans de nombreux
cas (réel) la gestion des fermes VMware changent du tout au tout :
Pour conclure, dans une entreprise qui a un SI depuis plusieurs années, une ferme
VMware est en général très hétérogène et ce sur plusieurs plans (software,
hardware, etc.).
Pour vous montrer les conséquences de ces paramétrages depuis la machine invitée,
voici quelques exemples:
L’OS voit 4 processeurs de 1 cœur physique (1 thread montre qu’il n’y a pas de HT
parce que: x threads = x cœurs).
L’OS voit 2 sockets de 2 cœurs physiques.
Pour de nombreuses raisons (en général du licencing), on peut être amené à mettre
plus de 1 core per socket, dans ce cas :
Pour une « wide » VM, le nombre de cores par socket va déterminer la taille des
vNUMA exposés à la VM (cf. chapitre suivant)
Pour une « non-wide » VM, modifier cette configuration peut, dans de rares
cas, améliorer ou détériorer les performances de la machine par son influence
sur le CPU scheduler (host)
Les « wides » VMs
Exposition du vNUMA
Depuis vSphere 5.0 il est possible de présenter au système invité la topologie NUMA
via la technologie vNUMA. Le terme vNUMA est un terme spécifique à VMware.
Ce qu’il faut retenir: Quand une VM est une wide VM, la topologie NUMA est
remontée à l’OS. On parle alors de vNUMA.
Nous l’avons vu, la topologie concerne autant les machines physiques que les VMs.
Regardons ici comment afficher les informations liées à la topologie NUMA et
comment les interpréter.
Nous l’avons vu, lscpu permet d’avoir des informations génériques sur tout ce qui
est lié aux processeurs:
Il faut lire cette sortie comme un tableau à double entrée. Le cœur physique 0
(« core » dans le tableau) appartient au nœud NUMA 0 (tout comme le core 1) et est
sur la socket 0. Il a un unique cœur logique (« CPU » dans le tableau). Aucun des
caches ne sont partagés (logique puisque sur des sockets distinctes, rappelez-vous).
L’exemple n’est ici pas très complexe, en voici un autre avec l’option « -p » qui a un
peu plus la classe :
$ lscpu -p
# The following is the parsable format, which can be fed to other
# programs. Each different item in every column has an unique ID
# starting from zero.
# CPU,Core,Socket,Node,,L1d,L1i,L2,L3
0,0,0,0,,0,0,0,0
1,1,1,1,,1,1,1,1
2,2,0,0,,2,2,2,0
3,3,1,1,,3,3,3,1
4,4,0,0,,4,4,4,0
5,5,1,1,,5,5,5,1
6,6,0,0,,6,6,6,0
7,7,1,1,,7,7,7,1
8,8,0,0,,8,8,8,0
9,9,1,1,,9,9,9,1
10,10,0,0,,10,10,10,0
11,11,1,1,,11,11,11,1
12,0,0,0,,0,0,0,0
13,1,1,1,,1,1,1,1
14,2,0,0,,2,2,2,0
15,3,1,1,,3,3,3,1
16,4,0,0,,4,4,4,0
17,5,1,1,,5,5,5,1
18,6,0,0,,6,6,6,0
19,7,1,1,,7,7,7,1
20,8,0,0,,8,8,8,0
21,9,1,1,,9,9,9,1
22,10,0,0,,10,10,10,0
23,11,1,1,,11,11,11,1
On peut voir que les cœurs logiques (CPU) 0 et 12 partagent un certain nombre de
choses :
A propos des caches, on peut voir que le cœur logique (CPU) numéro 2 n’appartient
pas au même cœur physique (core) que les 0 et 12 mais la même socket. Il n’a donc
pas les mêmes cache L1x/L2 mais le même cache L3.
La commande « numactl –hardware » permet d’avoir plus de détails sur ce qui nous
intéresse :
Host :
Socket: 2
CPU Package: 10
NUMA: 2
VM :
vSocket : 16
Cores per socket : 1
Vu du host
Mémoire/CPU de la VM
Cores per socket
vSocket
Nœuds NUMA
Nous parlerons des autres métriques dans le chapitre suivant
Chaque couche qui compose la stack de virtualisation (ici ESX et VM) s’approprie et
enrichie la topologie CPU du host.
Décomposition du vNUMA
Plongeons donc au sein de ce NUMA Client qui nous intéresse tant. En le
décomposant, on retrouve deux choses :
Reprenons notre modèle et ajoutons les VPDs et les PPDs. Vous trouverez ci-dessous,
sous forme de schémas, tous les impacts possibles en fonction de la configuration
pour laquelle on opte.
Dans cet exemple, on a créé une machine virtuelle. Ses configuration sont les
suivantes :
On a donc suivi les bonnes pratiques de base recommandées par VMware (cf.
VMware Performance Best Practices on vSphere 6.0 White Paper) :
Comme vu dans le chapitre précédent sur les Wides VMs, une VM est
considérée comme étant une wide VM si la machine possède plus de 8 vCPU
(paramètre par défaut)
ou si le nombre de vCPU de la machine invitée dépasse le nombre de
cœurs d’un nœud NUMA
Ce log est cohérent avec les bonnes pratiques de VMware dans le cas de wide WMs
(cf. VMware Performance Best Practices on vSphere 6.0 White Paper):
Donc, si on crée une wide VM, cette fois-ci de 20 vCPU, et en suivant tous les conseils
de VMware :
On a la modélisation suivante :
Nos PPD sont répartis sur nos deux nœuds NUMA et se composent de
l’intégralité des processeurs du host
On trouve autant de VPDs que de PPDs et ceux ci se composent d’autant de
cores que ces derniers
Bref, tout est bien aligné… On voit qu’a travers cette configuration le travail du CPU
Scheduler s’en retrouve simplifié. Vous aurez le temps de vous en rendre compte en
jetant un œil aux modélisations suivantes
Prenons l’exemple de l’élève qui à tout compris de travers et qui a toujours modifié
le nombre de cores per socket plutôt que le nombre de vSocket.
La modélisation associée :
On a donc une VM dont l’OS va voir un nœud NUMA au lieu de deux. La mémoire va
vite se retrouver répartie entre les deux NHN (NUMA Home Node) et des accès en
remote vont apparaitre. Le travaille du CPU scheduler au sein de l’ESXi va s’en
trouver affecté et on peut s’attendre à beaucoup de context switch.
Prenons maintenant l’élève qui a compris à peu près la moitié de tous les concepts
et qui, pour se rassurer, va donc tout mélanger.
La modélisation associée :
Un carnage, la VM va voir une topologie de six nœuds NUMA au lieu des deux qui
existent réellement. Au niveau de l’ESXi, le CPU scheduler va devoir scheduler 6 PPD
au lieu de 2. L’OS quant à lui va être amené à faire beaucoup plus d’optimisations
que nécessaire et qui, au final, n’en seront pas.
Tous ces exemples montrent bien l’impacte de l’option « cores per socket » sur la
taille des VPDs/PPDs et toutes les horreurs associées si l’on ne fait pas attention.
Faut-il le répéter ? Le plus simple reste tout de même de faire en sorte de n’occuper
qu’un seul nœud NUMA. Pourquoi ? Tout simplement parce que le travail de l’OS de
la VM et de l’ESXi vont s’en trouver simplifiés. Comment faire si la quantité de vCPU
de la VM dépasse le nombre de cœurs d’un nœud NUMA ? (Je pars ici du principe que
la quantité de RAM souhaitée sur la VM soit inférieur à la quantité de RAM du nœud
NUMA.)
C’est là que l’option PerferHT entre en jeux. Pour rappel, cette option va faire en
sorte que les cœurs logiques comptent lors de la contruction du NUMA Home Node.
La modélisation associée :
un VPD de 12 cœurs
un PPD de 10 cœurs
Au final notre VM, même si elle a plus de vCPU que de cœurs physiques sur notre
nœud NUMA, tient au sein d’un même NUMA Home Node. Attention cependant, il
faut avoir en tête que ce sont des cœurs logiques (HyperThreading ici) qui vont être
utilisés. En fonction de l’applicatif de la VM cela peut dégrader ou améliorer les
performances.
Pour valider ces différentes configurations et les théories associées, enioka prépare
un benchmark qui prendra en compte :
Dès que ce benchmark sera réalisé, un compte rendu sera fait dans ce blog.
Conclusions
Quand on ne connait pas, on ne touche pas
Dans le doute, laissez le paramètre « cores per socket » à 1. Faites des tests dans le
cas contraire.
Diagramme de choix
Faites tout de même attention, ce diagramme n’a pas la prétention de vous donner à
coup sûr la bonne configuration pour votre VM et surtout il ne remplace en rien des
tests de performance et d’intégration. Il est peut probable que votre VM soit seule au
monde, mais plutôt ajoutée au sein d’une ferme existante et potentiellement
vieillissante (la version des ESXi a une grande importance). Sans compter que les
hosts qui composent cette ferme peuvent porter des CPU de gammes différentes et
donc avec des topologies NUMA différentes. Les impacts peuvent être très visibles si
le DRS en mode automatique est activé.
Webo/Biblio/Humanographie
Le Web:
http://frankdenneman.nl (architecte CPU VMware) : pour ses articles
« NUMA Deep Dive »
http://www.exitthefastlane.com/ : vSphere Design for NUMA
Architecture and Alignment
http://kendrickcoleman.com/ : vSphere 5 Hardware Version 8 & New
vCPU Config for Licensing Trickery
https://blogs.vmware.com/ (euh oui mais non) : Does corespersocket
Affect Performance?
http://superuser.com/ : Pour les explications sur les caches processeur
Les livres :
The CPU scheduler in VMware vSphere 5.1 : pour les impacts du NUMA
alignment
VMware vSphere Performance : Designing CPU, Memory, Storage, and
Networking for Performance-Intensive Workloads. Pour les éléments de
configuration et plus tard pour le CPU scheduling
Et les hommes :
Gael Lalleman : pour nos discussions passionnées sur le sujet
Lexique
vCenter : API et IHM qui permet d’opérer les fermes vSphere VMware (permet
de communiquer avec les ESX)
vSphere : Solution qui comprend vCenter + ESXi + Modules vCenter (ex: vSAN)
ESXi: vSphere ESXi est un hyperviseur bare-metal (type 1 – natif)
Host: Machine physique sur laquelle est installée ESXi et qui héberge les VMs
crées
Guest: Une VM qui repose sur un host
NUMA: Non Unified Memory Access, architecture répartissant la mémoire
physique par ensemble de cœurs processeurs
Hyperthreading: Technologie Intel (HyperTransport chez AMD) permettant de
présenter deux cœurs logique à partir d’un cœur physique
Socket: Connexion physique d’un processeur à la carte mère (HW)
vCPU: Virtual CPU, le matériel présenté à la machine virtuelle
«Wide » VM : Une VM dont la topologie NUMA lui est remontée par la
technologie vNUMA
PPD: Physical Proximity Domain, pool de cœurs physiques associés à un CPU
package
VPD: Virtual Proximity Domain, (ensemble de) pool(s) de cœurs
logiques/physiques associé(s) à un ou plusieurs PPD
pCPU: Physical CPU vu par l’ESX (peut-être associée à un processeur logique
ou physique)
vSocket: Virtual Socket (vu par la VM comme une socket physique)
core/coeur physique: processeur physique intégré à une socket physique
core/coeur logique: processeur logique s’exécutant sur un processeur
physique
Partager :
Articles similaires
Commentaire
Nom *
Adresse de
messagerie *
Site web
Enregistrer mon nom, mon e-mail et mon site web dans le navigateur pour mon
prochain commentaire.
Laisser un commentaire
Étiquettes
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (3/5)
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (4/5)
Urbanisme des référentiels - partie III
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (1/5)
Archives
mars 2018
juillet 2017
février 2017
octobre 2016
septembre 2015
juillet 2015
mai 2015
avril 2015
mars 2015
février 2015
décembre 2013
avril 2013
novembre 2012
octobre 2012
septembre 2012
août 2012
juillet 2012
décembre 2011
janvier 2011
Derniers articles
Commentaires sur l’article VMware « Does corespersockets Affect Performances ? »
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (5/5)
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (4/5)
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (3/5)
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (2/5)
Quelle organisation autour de la Business Intelligence et du Big data dans les grandes
entreprises ? (1/5)
Recherche…
Derniers articles
Commentaires sur l’article
VMware « Does corespersockets
Affect Performances ? »
Manifeste pour du
développement de haute-
couture
Archives
mars 2018
juillet 2017
février 2017
octobre 2016
septembre 2015
juillet 2015
mai 2015
avril 2015
mars 2015
février 2015
décembre 2013
avril 2013
novembre 2012
octobre 2012
septembre 2012
août 2012
juillet 2012
décembre 2011
janvier 2011
Catégories
Architecture et modélisation
des SI
Développement
enioka
Infrastructure
Organisation du SI
R&D enioka