Chapitre 7 Classification non supervisée des battements Ce chapitre présente la méthode adoptée pour rassembler en une même « famille » les battements cardiaques dont le tracé ECG est de même nature, et distinguer ainsi plusieurs Ifamilles de battements. I Motivations et objectifs Dans ce chapitre, nous abordons le problème de la reconnaissance des battements cardiaques, en séparant les battements d’origine supraventriculaire des battements d’origine ventriculaire. Pour réaliser une telle séparation, nous pourrions modéliser un à un les battements à l’aide des bosses présentées dans le chapitre précédent, puis analyser la position et la forme des bosses caractéristiques. Bien que la décomposition en bosses d’un battement soit obtenue par une procédure de calcul rapide (moins de 500ms sous Matlab), le nombre total de battements d’un enregistrement Holter est tel (plus de 100 000 battements) que le temps de calcul d’un IImodèle pour chaque battement est beaucoup trop important . De plus les battements normaux (qui sont, en général, très largement les plus fréquents) sont très semblables, voire quasi identiques, ce qui rend inutile la modélisation de chacun d’eux. Cette remarque nous a amené à effectuer une agrégation des battements préalable à la modélisation en bosses. Cette opération a pour objectif de regrouper entre eux les battements de même nature ; en particulier, nous regrouperons les battements d’origine IIIsupraventriculaire ...
Chapitre7 Ce chapitre présente la méthode adoptée pour rassembler en une même « famille » les battements cardiaques dont le tracé ECG est de même nature, et distinguer ainsi plusieurs familles I de battements. I Motivations et objectifs Dans ce chapitre, nous abordons le problème de la reconnaissance des battements cardiaques, en séparant les battements dorigine supraventriculaire des battements dorigine ventriculaire. Pour réaliser une telle séparation, nous pourrions modéliser un à un les battements à laide des bosses présentées dans le chapitre précédent, puis analyser la position et la forme des bosses caractéristiques. Bien que la décomposition en bosses dun battement soit obtenue par une procédure de calcul rapide (moins de 500ms sous Matlab), le nombre total de battements dun enregistrement Holter est tel (plus de 100 000 battements) que le temps de calcul dun modèle pour chaque battement est beaucoup trop important II . De plus les battements normaux (qui sont, en général, très largement les plus fréquents) sont très semblables, voire quasi identiques, ce qui rend inutile la modélisation de chacun deux. Cette remarque nous a amené à effectuer une agrégation des battements préalable à la modélisation en bosses. Cette opération a pour objectif de regrouper entre eux les battements de même nature ; en particulier, nous regrouperons les battements dorigine supraventriculaire III entre eux, ceux de type extrasystole ventriculaire entre eux (en distinguant les extrasystoles de foyers ectopiques distincts), les battements anormalement larges (de type bloc de branche), etc qui formeront ainsi autant de familles que nécessaire.
I Les termes « famille » et « classe » seront indifféremment utilisés dans la suite pour exprimer lensemble regroupant les battements de même nature. Le terme « classe » étant celui couramment utilisé en classification et le terme « famille » étant le terme consacré en cardiologie. II Ce qui correspond à environ 13mn sous Matlab pour les 100 000 battements pour cette seule partie de lanalyse. Une autre solution plus efficace pourrait être de ne modéliser que londe R. Ce nest pas la solution que nous avons retenue ici. III On verra que le regroupement en familles permet de distinguer les familles de battements dont le foyer initiateur est le sinus de celles dont le foyer est soit auriculaire autre que le sinus, soit nodal.
153
Chapitre 7
Classification non supervisée des battements
On peut alors se contenter de ne modéliser en bosses quun seul représentant par famille, et lanalyse des bosses obtenues permet dobtenir des informations valables pour tous les battements appartenant à cette famille. La méthode de regroupement en familles retenue ici est du type classification non supervisée , c'est-à-dire que lon ne dispose pas dune base de référence étiquetée pour effectuer un apprentissage ; de plus, cette classification se fera sans connaissance a priori du nombre de classes : les classes se créent au fur et à mesure de la procédure de classification. De nombreux algorithmes permettent de traiter ce type de problème et conduisent à de bons résultats ;cest le cas notamment des algorithmes de quantification vectorielle comme celui des K-moyennes, de classification hiérarchique, et des cartes auto organisatrices par exemple. Ces trois algorithmes sont présentés au paragraphe suivant mais nous verrons en quoi ils ne sont pas adaptés à notre problème. Nous avons donc développé un classifieur ad hoc présenté dans la suite. II Présentation dalgorithmes existants II.1.1 Lalgorithme des K-moyennes Lalgorithme des K-moyennes est un algorithme classique de quantification vectorielle. Son principe est le suivant [Dreyfus, 2002] : on dispose de points de lespace des observations que lon souhaite rassembler en classes, sans que lon dispose de connaissance a priori de propriété(s) particulière(s) sur ces classes ; seul leur nombre p est fixé a priori. Lalgorithme des K-moyennes est itératif ; chaque itération est composée de deux étapes : • Recherche, pour chaque point dobservation, de son meilleur représentant parmi p référents, où chaque référent représente une classe ; • Optimisation de chacun de ces référents pour quils représentent au mieux les points dobservations en p classes. Il existe une preuve de convergence pour cet algorithme. Trois inconvénients ne nous permettent pas de lutiliser. Le premier est quil est nécessaire de connaître le nombre de classes avant de commencer la classification. Or, dans notre cas, nous ne savons pas quel nombre de types de battements différents nous rencontrerons dans un ECG donné. Cependant ce problème pourrait être résolu en imaginant une classification en deux classes : 1)
154
Chapitre 7
Classification non supervisée des battements
battements dorigine supraventriculaire et 2) battements dorigine ventriculaire. Un deuxième inconvénient est la grande sensibilité aux conditions initiales, qui se traduit ici par le choix des p référents initiaux. En effet, sils sont choisis de manière aléatoire, la convergence de lalgorithme vers un minimum « satisfaisant » nest pas assurée, ce qui impose, dans la pratique, de multiplier les initialisations, et augmente dautant le temps de calcul. Enfin linconvénient majeur de cette méthode est le suivant : en étudiant linterprétation probabiliste de cet algorithme, on constate quil suppose que les classes suivent des lois de distribution normales réduites, autrement dit, avec la même importance dans toutes les directions de lespace. Pour nous, les directions de cette espace représentent des grandeurs très différentes, difficilement comparables entre elles comme nous le verrons par la suite (intervalle RR du battement avec le suivant, angle que forme laxe principal du battement avec une des voies denregistrement, produit des valeurs propres issues de lanalyse en composantes principales, etc.). II.1.2 Classification hiérarchique La classification hiérarchique [Everitt, 1974] constitue une autre approche de la classification non supervisée. Elle consiste à calculer une matrice exprimant les distances mutuelles entre les points à classer, puis, en se fondant sur cette matrice, à regrouper entre eux les points les plus proches. Cette méthode permet la construction dun arbre hiérarchique, qui révèle plusieurs partitions possibles, où chaque point est attribué à lun des groupes dune partition donnée. Le choix de la meilleure partition seffectue une fois la classification hiérarchique terminée ; elle peut être fondé sur différents critères, lun des plus classiques étant lié à la mesure de linertie intergroupe [Thorndike, 1953]. Lavantage de cette méthode est quelle nest soumise à aucune initialisation particulière de paramètre(s) ce qui la rend déterministe, et en outre, que le nombre de classe na pas à être fixé a priori. Cependant, ce type de méthode impose le calcul de la matrice des distances de tous les points dobservation avec tous les autres, et cette masse de calculs est beaucoup trop importante compte tenu du temps que nous voulons consacrer à cette étape.
155
Chapitre 7
Classification non supervisée des battements
II.1.3 Cartes auto organisatrices La méthode des cartes auto organisatrices, développée par T. Kohonen au début des années 1980 [Kohonen, 1984], constitue un compromis entre les deux algorithmes précédents. Cette méthode est plus robuste aux conditions initiales que ne lest lalgorithme des K-moyennes ; elle ne suppose pas que les directions de lespace des observations ont la même importance (lois normales réduites pour chacune des classes), et ne nécessite pas la définition a priori du nombre de classes. Elle consiste à représenter, dans un espace de faible dimension (1, 2 ou 3) appelé « carte » des référents ; ces derniers ne sont pas ici des représentants de classes, mais constituent un petit nombre de points abstraits de lespace des observations. La propriété essentielle des cartes de Kohonen réside dans le fait que la topologie de lespace initial est conservée dans cette projection dans un espace de faible dimension. Un algorithme itératif, proche de celui des K-moyennes, permet daboutir à une distribution des référents sur la carte qui constitue une caricature à faible dimension de lensemble des points dobservation. On fait généralement suivre la construction de cette carte par une classification hiérarchique sur les référents. Deux inconvénients apparaissent ici : le temps de calcul associé aux itérations qui permettent la construction de la carte est important, et surtout, ce type de méthode statistique nest pas adapté à notre classification. En effet, comme nous le verrons par la suite, nous serons amenés à classer des paquets de 1200 battements en au moins deux groupes qui seront respectivement identifiés comme les battements dorigine supraventriculaire et les battements dorigine ventriculaire. Chez les patients en bonne santé, un grand déséquilibre entre les cardinaux de ces classes est généralement observé : typiquement un patient peut présenter un unique battement ventriculaire pour 1200 battements normaux. Ce type de déséquilibre est mal géré par les méthodes statistiques qui auront tendance à « considérer » ce battement différent comme une réalisation peu probable de loi de probabilité associée à la classe des battements normaux, plutôt que comme le représentant dune classe à part entière constituée dun unique élément. Ces méthodes étant peu adaptées à notre problème, nous avons été amenés à développer un algorithme simple, donc rapide, et bien adapté à la classification qui nous intéresse. Cet algorithme est présenté dans la section suivante.
156
Chapitre 7
Classification non supervisée des battements
III Principe général de lalgorithme Dans un premier temps, on sépare les battements de lECG en trois groupes, en fonction du nombre de voies utilisées lors du calcul en composantes principales : rappelons que le critère de choix du nombre de voies pour le calcul de la voie principale est fondé sur les niveaux de bruits de haute et basse fréquences qui affectent ces voies. On effectue ainsi trois classifications différentes : une pour les battements issus dune voie principale calculée à partir de 3 voies, une pour ceux qui sont calculés sur 2 voies, et une pour les battements qui ne sont pas exprimés sur une voie principale car seule une voie est valide. Les trois algorithmes sont très proches, mais nutilisent pas tout à fait les mêmes paramètres, comme nous le verrons dans la suite. Ainsi on initie lalgorithme en attribuant le premier battement à une famille, qui devient référence pour tout battement construit à partir du même nombre de voies que ce premier battement ; un battement issu dun nombre différent de voies que ce premier battement conduit à la création dune nouvelle famille, qui devient lui aussi référence pour ce nombre de voies. Les battements sont alors traités un à un, dans lordre de leur apparition temporelle. Pour un battement donné, si celui-ci a des paramètres proches de ceux dune famille existante, il est associé à cette famille ; sinon, lalgorithme crée une nouvelle famille qui deviendra référence pour tous les battements à même nombre de voies.
III.1 Caractérisation dune famille Chaque famille est caractérisée par: -le modèle en bosses du battement qui lui a donné naissance : ce modèle sera appelé prototype de la famille IV , -des paramètres qui sont fixés au moment de la création de la famille, -dautres paramètres qui sont réestimés chaque fois quun battement est ajouté à la famille. IV On remarque ici que lon modélise le premier battement à lorigine de la famille, qui nest pas forcément le battement le plus représentatif de cette famille ce point pourrait constituer une évolution eventuelle de lalgorithme.
157
Chapitre 7
Classification non supervisée des battements
III.1.1 Le prototype Le prototype de la famille est construit à partir du premier battement qui a donné naissance à celle-ci. On applique à ce battement, exprimé sur sa voie principale (donc sur une piste unique), lalgorithme de décomposition en bosses présenté dans le chapitre précédent ; à lissue de cet algorithme, on obtient un modèle analytique du battement sous la forme dune somme de 6 bosses (Figure 1) : ce modèle est le prototype de la famille. Chaque battement ultérieur est comparé, par un calcul convenable, au prototype de chaque famille déjà créée, ce qui fournit un critère de décision permettant dassocier ce battement à une des familles, ou de créer une nouvelle famille pour laquelle le modèle de ce battement devient le prototype.
Premier battement de la famille
Modélisation en bosses 2
5 4 3 6
Prototype
1 Figure 1 : A la création dune nouvelle famille, on construit le prototype de la famille par une modélisation en 6 bosses du battement qui lui a donné naissance. III.1.2 Paramètres fixes En plus du prototype, des descripteurs permettent de caractériser la famille. Les premiers descripteurs présentés ici sont fixés à la création de la famille, et restent fixes tout au long de lanalyse.
158
Chapitre 7
Classification non supervisée des battements
III.1.2.a Rapport des intervalles RR Appelons RRs la distance entre londe R du battement qui engendre la famille et londe R du battement suivant, et appelons RRp la distance entre londe R du battement qui engendre la famille et londe R du battement précédent (Figure 2). Le rapport RRs / RRp est un paramètre qui caractérise la famille. Dans le cas dun rythme régulier, ce rapport est voisin de 1, mais il peut largement dépasser cette valeur dans le cas dextrasystole avec repos compensatoire (cf. Chapitre 2). La valeur de ce rapport est fixée à la création de la famille.
RRp RRs Figure 2 : Le rapport de RRs/RRp caractérise la famille. Sa valeur est fixée à la création de celle-ci, et reste fixe tout au long de lanalyse. Lavantage dutiliser le rapport RRs / RRp plutôt que lune ou lautre des distances qui le définissent est quil est indépendant de la fréquence cardiaque : ainsi, sa valeur pour un battement normal dun rythme rapide sera très voisine de celle dun battement normal dun rythme lent par exemple, et ce paramètre ne sera alors pas éliminatoire pour le regroupement de battements provenant dépisodes dactivité cardiaque où seule la fréquence diffère. III.1.2.b Intervalles RR avec le battement suivant (RRs) Létude de différentes bases de données nous a permis de mettre en évidence le fait que la distance RRs était un élément parfois utile à la caractérisation de la famille, afin déviter des erreurs de classification notamment en présence dextrasystoles ventriculaires à complexes peu élargis et interpolées : c'est-à-dire des battements ventriculaire qui sinscrivent dans un rythme régulier pour lequel le rapport précédent vaut 1. Cette distance constitue donc
159
Chapitre 7
Classification non supervisée des battements
également un paramètre caractéristique de la famille. Lutilisation de cette grandeur RRs et la précédente (le rapport RRs / RRp ) est plus pertinente que lutilisation séparée des deux grandeurs RRs et RRp car dans ce dernier cas, lors daccélération du rythme, les deux paramètres ( RRs et RRp) sont différents dun battement à lautre ce qui conduirait à la création dune famille supplémentaire et nous ne le souhaitons pas, alors quavec les paramètres retenues ( RRs et RRs / RRp) seule RRs est différent et ça ne suffit pas, en général, à créer une nouvelle famille comme nous le verrons dans la suite. III.1.2.c Amplitude du battement initial Depuis létape de segmentation de lECG en fenêtres, lamplitude maximale des battements est normalisée à 1, c'est-à-dire que les complexes ont tous une dynamique de 1, quelle que soit leur taille originale. Pour éviter de confondre des battements de tailles trop différentes, les amplitudes de chacune des voies valides sont retenues comme descripteurs de la famille V . III.1.3 Paramètres réestimés En plus des paramètres fixes, on caractérise les familles avec des paramètres qui sont réestimés dès quun battement est ajouté à la famille . Ces paramètres subissent en général une légère dérive due notamment à des changements de position du patient, qui, sur de longues durées, peuvent être importantes. De plus, lamplitude de variation de ces paramètres dépend fortement du patient; ainsi, une procédure de réestimation lors de lajout de chaque nouveau battement permet dune part de suivre une éventuelle dérive temporelle, et, dautre part, de sadapter spécifiquement au patient . III.1.3.a Laxe principal Comme nous lavons indiqué précédemment, laxe principal issu de lanalyse en composantes principales est un paramètre particulièrement important pour la caractérisation de la famille : il est parfois un des seuls paramètres qui permette la distinction entre un battement normal et
V On note ici que deux battements bi-phasiques très proches peuvent être à lorigine de la création de deux familles différentes.
160
Chapitre 7
Classification non supervisée des battements
un battement anormal (chapitre 5). Les informations de laxe principal sont caractérisées par les deux groupes de valeurs suivantes : -La moyenne des angles ACP sur les vingt derniers battements VI inclus dans la famille. Dans le cas dun enregistrement à 2 voies, il sagit donc de langle θ défini précédemment (cf. chapitre 5.IV Résultats de lanalyse en composantes principales) entre laxe principal issu de lanalyse en composantes principales et un axe fixe (Figure 3). Pour les enregistrements sur 3 voies, cest le couple formé par langle θ et langle φ provenant des coordonnées sphériques de laxe principal qui est retenu. Dans le cas dun enregistrement nayant quune seule voie, cette notion dangle ACP na pas de signification : ce paramètre nest donc pas considéré. -Lécart type de la distribution de langle θ dans le cas de 2 voies, ou la matrice de covariance 2x2 (pour les angles θ et φ ) pourles enregistrements 3 voies, ces deux grandeurs traduisant la distribution des valeurs autour de la valeur moyenne.
θ Axe principal
A Figure 3 : langle θ correspond à langle que forme laxe principal cardiaque repéré par la méthode danalyse en composantes principales détaillée au chapitre 5 et un axe fixe, ici laxe formé par la première voie denregistrement A. Dans le cas dun repérage en trois dimensions de laxe principal, il est repéré par ses coordonnées sphériques (angle θ et φ ) quil forme avec ce même axe fixe. Le calcul de lécart-type de la distribution (ou de la matrice de covariance) est imposé par la nécessité de sadapter au patient ; en effet, certains patients présentent des variations dangles de quelques centièmes de radians entre deux battements normaux alors que cette variation VI Lorsque la famille nest pas suffisamment importante (moins de 20 éléments) lensemble des battements la constituant est utilisé pour lestimation des paramètres.
161
Chapitre 7
Classification non supervisée des battements
atteint plusieurs dixièmes chez dautres.Lécart-type (ou la matrice de covariance) permettra de calculer, pour la classification dun battement, des distances de Mahalanobis [Everitt, 1974] (c'est-à-dire des distances normalisées par lécart type de la famille) plutôt que des distances euclidiennes. III.1.3.b Le produit des deux premières valeurs propres de la matrice de covariance Le produit des deux plus grandes valeurs propres de la matrice de covariance présentée pour lanalyse en composantes principales (cf. Chapitre 5, eq. 2) constitue un troisième paramètre pertinent pour la classification des battements en familles. Ce produit est une caractéristique de la forme du vectocardiogramme. Rappelons que les valeurs propres de la matrice de covariance correspondent aux longueurs des axes principaux du vectocardiogramme : le produit des deux valeurs propres est donc proportionnel à la surface de la courbe. De même que pour laxe principal, nous disposons de deux types de valeurs pour caractériser le produit des deux premières valeurs propres : sa valeur moyenne, qui est recalculée sur les 20 derniers battements de la famille, et son écart-type. Mais, contrairement au cas précédent, on peut éviter la réestimation systématique de lécart-type. En effet, contrairement à lécart-type associé à laxe principal, qui varie en fonction de la position du patient, donc au cours de lenregistrement, la variation du produit des deux premières valeurs propres est dominée par des caractéristiques physiologiques inhérentes au patient et au positionnement des électrodes. On calcule donc cet écart-type dès le début de lalgorithme, sur lensemble des battements de lECG. Ainsi chaque famille créée est définie par 5 paramètres et un prototype continu. Chaque nouveau battement est alors analysé ; il est soit associé à une famille existante, soit à lorigine dune nouvelle famille.
162
Chapitre 7
Classification non supervisée des battements
III.2 Principe de la classification non supervisée Comme nous lavons indiqué plus haut, les battements sont traités un à un dans lordre de leur apparition temporelle. On remarque que, au cours du temps, pour un même type de battement, laxe principal change légèrement de direction, notamment à cause des changements de position du patient, et des mouvement de la cage thoracique pendant la respiration : ainsi, on peut observer que, à un instant donné, laxe principal dun battement normal coïncide avec un axe principal dun battement anormal (typiquement une extrasystole ventriculaire) enregistré peu de temps auparavant, alors que le patient adoptait vraisemblablement une autre position. Or ladaptation de certains paramètres ne permet pas, à elle seule, déviter le regroupement de battements qui doivent être séparés ; on complète donc cette approche adaptative en y ajoutant une découpe de lECG en séries de 1200 battements ce qui correspond environ à 20 mm dECG ; on redéfinit donc les familles tous les 1200 battements. Le regroupement des familles considérées comme identiques des séries temporelles successives nest effectué quune fois que ces familles ont été identifiées, cest-à-dire une fois que les ondes de leurs prototypes respectifs ont été étiquetées VII . Pour chaque série de 1200 battements, la classification seffectue schématiquement de la manière suivante : pour un battement donné, on calcule une distance globale entre le battement et chaque famille déjà créée dans la série ; cette distance, qui sera définie plus précisément dans le paragraphe suivant, est une combinaison linéaire des distances sur les différents paramètres caractéristiques et dune valeur de « ressemblance » de londe R à celle des battement de la famille calculée en référence à son prototype . La famille qui représente au mieux le battement est celle pour laquelle la distance est la plus faible. Dans le cas où cette distance est supérieure à un seuil prédéfini, aucune famille nest satisfaisante et le battement étudié donne naissance à une nouvelle famille.
VII Ce deuxième regroupement na pas été effectué dans cette étude. Il est principalement nécessaire à laffichage des données dans le logiciel pour eviter un trop grand nombre de famille ; et ELA Medical possède un tel outil de rassemblement, cest ce dernier qui sera utilisé.