22 pages

Français

These Final

Shaej - Christelle Remi

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

22 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Chapitre 7 Classification non supervisée des battements Ce chapitre présente la méthode adoptée pour rassembler en une même « famille » les battements cardiaques dont le tracé ECG est de même nature, et distinguer ainsi plusieurs Ifamilles de battements. I Motivations et objectifs Dans ce chapitre, nous abordons le problème de la reconnaissance des battements cardiaques, en séparant les battements d’origine supraventriculaire des battements d’origine ventriculaire. Pour réaliser une telle séparation, nous pourrions modéliser un à un les battements à l’aide des bosses présentées dans le chapitre précédent, puis analyser la position et la forme des bosses caractéristiques. Bien que la décomposition en bosses d’un battement soit obtenue par une procédure de calcul rapide (moins de 500ms sous Matlab), le nombre total de battements d’un enregistrement Holter est tel (plus de 100 000 battements) que le temps de calcul d’un IImodèle pour chaque battement est beaucoup trop important . De plus les battements normaux (qui sont, en général, très largement les plus fréquents) sont très semblables, voire quasi identiques, ce qui rend inutile la modélisation de chacun d’eux. Cette remarque nous a amené à effectuer une agrégation des battements préalable à la modélisation en bosses. Cette opération a pour objectif de regrouper entre eux les battements de même nature ; en particulier, nous regrouperons les battements d’origine IIIsupraventriculaire ...

Informations

Publié par	Shaej
Nombre de lectures	35
Langue	Français

Extrait

Classification non supervisée des battements

Chapitre 7 Ce chapitre présente la méthode adoptée pour rassembler en une même « famille » les battements cardiaques dont le tracé ECG est de même nature, et distinguer ainsi plusieurs familles I de battements. I Motivations et objectifs Dans ce chapitre, nous abordons le problème de la reconnaissance des battements cardiaques, en séparant les battements dorigine supraventriculaire des battements dorigine ventriculaire. Pour réaliser une telle séparation, nous pourrions modéliser un à un les battements à laide des bosses présentées dans le chapitre précédent, puis analyser la position et la forme des bosses caractéristiques. Bien que la décomposition en bosses dun battement soit obtenue par une procédure de calcul rapide (moins de 500ms sous Matlab), le nombre total de battements dun enregistrement Holter est tel (plus de 100 000 battements) que le temps de calcul dun modèle pour chaque battement est beaucoup trop important II . De plus les battements normaux (qui sont, en général, très largement les plus fréquents) sont très semblables, voire quasi identiques, ce qui rend inutile la modélisation de chacun deux. Cette remarque nous a amené à effectuer une agrégation des battements préalable à la modélisation en bosses. Cette opération a pour objectif de regrouper entre eux les battements de même nature ; en particulier, nous regrouperons les battements dorigine supraventriculaire III entre eux, ceux de type extrasystole ventriculaire entre eux (en distinguant les extrasystoles de foyers ectopiques distincts), les battements anormalement larges (de type bloc de branche), etc qui formeront ainsi autant de familles que nécessaire.

I Les termes « famille » et « classe » seront indifféremment utilisés dans la suite pour exprimer lensemble regroupant les battements de même nature. Le terme « classe » étant celui couramment utilisé en classification et le terme « famille » étant le terme consacré en cardiologie. II Ce qui correspond à environ 13mn sous Matlab pour les 100 000 battements pour cette seule partie de lanalyse. Une autre solution plus efficace pourrait être de ne modéliser que londe R. Ce nest pas la solution que nous avons retenue ici. III On verra que le regroupement en familles permet de distinguer les familles de battements dont le foyer initiateur est le sinus de celles dont le foyer est soit auriculaire autre que le sinus, soit nodal.

153

Chapitre 7

Classification non supervisée des battements

On peut alors se contenter de ne modéliser en bosses quun seul représentant par famille, et lanalyse des bosses obtenues permet dobtenir des informations valables pour tous les battements appartenant à cette famille. La méthode de regroupement en familles retenue ici est du type classification non supervisée , c'est-à-dire que lon ne dispose pas dune base de référence étiquetée pour effectuer un apprentissage ; de plus, cette classification se fera sans connaissance a priori du nombre de classes : les classes se créent au fur et à mesure de la procédure de classification. De nombreux algorithmes permettent de traiter ce type de problème et conduisent à de bons résultats ; cest le cas notamment des algorithmes de quantification vectorielle comme celui des K-moyennes, de classification hiérarchique, et des cartes auto organisatrices par exemple. Ces trois algorithmes sont présentés au paragraphe suivant mais nous verrons en quoi ils ne sont pas adaptés à notre problème. Nous avons donc développé un classifieur ad hoc présenté dans la suite. II Présentation dalgorithmes existants II.1.1 Lalgorithme des K-moyennes Lalgorithme des K-moyennes est un algorithme classique de quantification vectorielle. Son principe est le suivant [Dreyfus, 2002] : on dispose de points de lespace des observations que lon souhaite rassembler en classes, sans que lon dispose de connaissance a priori de propriété(s) particulière(s) sur ces classes ; seul leur nombre p est fixé a priori. Lalgorithme des K-moyennes est itératif ; chaque itération est composée de deux étapes : • Recherche, pour chaque point dobservation, de son meilleur représentant parmi p référents, où chaque référent représente une classe ; • Optimisation de chacun de ces référents pour quils représentent au mieux les points dobservations en p classes. Il existe une preuve de convergence pour cet algorithme. Trois inconvénients ne nous permettent pas de lutiliser. Le premier est quil est nécessaire de connaître le nombre de classes avant de commencer la classification. Or, dans notre cas, nous ne savons pas quel nombre de types de battements différents nous rencontrerons dans un ECG donné. Cependant ce problème pourrait être résolu en imaginant une classification en deux classes : 1)

154

Chapitre 7

Classification non supervisée des battements

battements dorigine supraventriculaire et 2) battements dorigine ventriculaire. Un deuxième inconvénient est la grande sensibilité aux conditions initiales, qui se traduit ici par le choix des p référents initiaux. En effet, sils sont choisis de manière aléatoire, la convergence de lalgorithme vers un minimum « satisfaisant » nest pas assurée, ce qui impose, dans la pratique, de multiplier les initialisations, et augmente dautant le temps de calcul. Enfin linconvénient majeur de cette méthode est le suivant : en étudiant linterprétation probabiliste de cet algorithme, on constate quil suppose que les classes suivent des lois de distribution normales réduites, autrement dit, avec la même importance dans toutes les directions de lespace. Pour nous, les directions de cette espace représentent des grandeurs très différentes, difficilement comparables entre elles comme nous le verrons par la suite (intervalle RR du battement avec le suivant, angle que forme laxe principal du battement avec une des voies denregistrement, produit des valeurs propres issues de lanalyse en composantes principales, etc.). II.1.2 Classification hiérarchique La classification hiérarchique [Everitt, 1974] constitue une autre approche de la classification non supervisée. Elle consiste à calculer une matrice exprimant les distances mutuelles entre les points à classer, puis, en se fondant sur cette matrice, à regrouper entre eux les points les plus proches. Cette méthode permet la construction dun arbre hiérarchique, qui révèle plusieurs partitions possibles, où chaque point est attribué à lun des groupes dune partition donnée. Le choix de la meilleure partition seffectue une fois la classification hiérarchique terminée ; elle peut être fondé sur différents critères, lun des plus classiques étant lié à la mesure de linertie intergroupe [Thorndike, 1953]. Lavantage de cette méthode est quelle nest soumise à aucune initialisation particulière de paramètre(s) ce qui la rend déterministe, et en outre, que le nombre de classe na pas à être fixé a priori. Cependant, ce type de méthode impose le calcul de la matrice des distances de tous les points dobservation avec tous les autres, et cette masse de calculs est beaucoup trop importante compte tenu du temps que nous voulons consacrer à cette étape.

155

Chapitre 7

Classification non supervisée des battements

II.1.3 Cartes auto organisatrices La méthode des cartes auto organisatrices, développée par T. Kohonen au début des années 1980 [Kohonen, 1984], constitue un compromis entre les deux algorithmes précédents. Cette méthode est plus robuste aux conditions initiales que ne lest lalgorithme des K-moyennes ; elle ne suppose pas que les directions de lespace des observations ont la même importance (lois normales réduites pour chacune des classes), et ne nécessite pas la définition a priori du nombre de classes. Elle consiste à représenter, dans un espace de faible dimension (1, 2 ou 3) appelé « carte » des référents ; ces derniers ne sont pas ici des représentants de classes, mais constituent un petit nombre de points abstraits de lespace des observations. La propriété essentielle des cartes de Kohonen réside dans le fait que la topologie de lespace initial est conservée dans cette projection dans un espace de faible dimension. Un algorithme itératif, proche de celui des K-moyennes, permet daboutir à une distribution des référents sur la carte qui constitue une caricature à faible dimension de lensemble des points dobservation. On fait généralement suivre la construction de cette carte par une classification hiérarchique sur les référents. Deux inconvénients apparaissent ici : le temps de calcul associé aux itérations qui permettent la construction de la carte est important, et surtout, ce type de méthode statistique nest pas adapté à notre classification. En effet, comme nous le verrons par la suite, nous serons amenés à classer des paquets de 1200 battements en au moins deux groupes qui seront respectivement identifiés comme les battements dorigine supraventriculaire et les battements dorigine ventriculaire. Chez les patients en bonne santé, un grand déséquilibre entre les cardinaux de ces classes est généralement observé : typiquement un patient peut présenter un unique battement ventriculaire pour 1200 battements normaux. Ce type de déséquilibre est mal géré par les méthodes statistiques qui auront tendance à « considérer » ce battement différent comme une réalisation peu probable de loi de probabilité associée à la classe des battements normaux, plutôt que comme le représentant dune classe à part entière constituée dun unique élément. Ces méthodes étant peu adaptées à notre problème, nous avons été amenés à développer un algorithme simple, donc rapide, et bien adapté à la classification qui nous intéresse. Cet algorithme est présenté dans la section suivante.

156

Chapitre 7

Classification non supervisée des battements

III Principe général de lalgorithme Dans un premier temps, on sépare les battements de lECG en trois groupes, en fonction du nombre de voies utilisées lors du calcul en composantes principales : rappelons que le critère de choix du nombre de voies pour le calcul de la voie principale est fondé sur les niveaux de bruits de haute et basse fréquences qui affectent ces voies. On effectue ainsi trois classifications différentes : une pour les battements issus dune voie principale calculée à partir de 3 voies, une pour ceux qui sont calculés sur 2 voies, et une pour les battements qui ne sont pas exprimés sur une voie principale car seule une voie est valide. Les trois algorithmes sont très proches, mais nutilisent pas tout à fait les mêmes paramètres, comme nous le verrons dans la suite. Ainsi on initie lalgorithme en attribuant le premier battement à une famille, qui devient référence pour tout battement construit à partir du même nombre de voies que ce premier battement ; un battement issu dun nombre différent de voies que ce premier battement conduit à la création dune nouvelle famille, qui devient lui aussi référence pour ce nombre de voies. Les battements sont alors traités un à un, dans lordre de leur apparition temporelle. Pour un battement donné, si celui-ci a des paramètres proches de ceux dune famille existante, il est associé à cette famille ; sinon, lalgorithme crée une nouvelle famille qui deviendra référence pour tous les battements à même nombre de voies.

III.1 Caractérisation dune famille Chaque famille est caractérisée par: - le modèle en bosses du battement qui lui a donné naissance : ce modèle sera appelé prototype de la famille IV , - des paramètres qui sont fixés au moment de la création de la famille, - dautres paramètres qui sont réestimés chaque fois quun battement est ajouté à la famille. IV On remarque ici que lon modélise le premier battement à lorigine de la famille, qui nest pas forcément le battement le plus représentatif de cette famille ce point pourrait constituer une évolution eventuelle de lalgorithme.

157

Chapitre 7

Classification non supervisée des battements

III.1.1 Le prototype Le prototype de la famille est construit à partir du premier battement qui a donné naissance à celle-ci. On applique à ce battement, exprimé sur sa voie principale (donc sur une piste unique), lalgorithme de décomposition en bosses présenté dans le chapitre précédent ; à lissue de cet algorithme, on obtient un modèle analytique du battement sous la forme dune somme de 6 bosses (Figure 1) : ce modèle est le prototype de la famille. Chaque battement ultérieur est comparé, par un calcul convenable, au prototype de chaque famille déjà créée, ce qui fournit un critère de décision permettant dassocier ce battement à une des familles, ou de créer une nouvelle famille pour laquelle le modèle de ce battement devient le prototype.

Premier battement de la famille

Modélisation en bosses 2

5 4 3 6

Prototype

1 Figure 1 : A la création dune nouvelle famille, on construit le prototype de la famille par une modélisation en 6 bosses du battement qui lui a donné naissance. III.1.2 Paramètres fixes En plus du prototype, des descripteurs permettent de caractériser la famille. Les premiers descripteurs présentés ici sont fixés à la création de la famille, et restent fixes tout au long de lanalyse.

158

Chapitre 7

Classification non supervisée des battements

III.1.2.a Rapport des intervalles RR Appelons RRs la distance entre londe R du battement qui engendre la famille et londe R du battement suivant, et appelons RRp la distance entre londe R du battement qui engendre la famille et londe R du battement précédent (Figure 2). Le rapport RRs / RRp est un paramètre qui caractérise la famille. Dans le cas dun rythme régulier, ce rapport est voisin de 1, mais il peut largement dépasser cette valeur dans le cas dextrasystole avec repos compensatoire (cf. Chapitre 2). La valeur de ce rapport est fixée à la création de la famille.

RRp RRs Figure 2 : Le rapport de RRs/RRp caractérise la famille. Sa valeur est fixée à la création de celle-ci, et reste fixe tout au long de lanalyse. Lavantage dutiliser le rapport RRs / RRp plutôt que lune ou lautre des distances qui le définissent est quil est indépendant de la fréquence cardiaque : ainsi, sa valeur pour un battement normal dun rythme rapide sera très voisine de celle dun battement normal dun rythme lent par exemple, et ce paramètre ne sera alors pas éliminatoire pour le regroupement de battements provenant dépisodes dactivité cardiaque où seule la fréquence diffère. III.1.2.b Intervalles RR avec le battement suivant (RRs) Létude de différentes bases de données nous a permis de mettre en évidence le fait que la distance RRs était un élément parfois utile à la caractérisation de la famille, afin déviter des erreurs de classification notamment en présence dextrasystoles ventriculaires à complexes peu élargis et interpolées : c'est-à-dire des battements ventriculaire qui sinscrivent dans un rythme régulier pour lequel le rapport précédent vaut 1. Cette distance constitue donc

159

Chapitre 7

Classification non supervisée des battements

également un paramètre caractéristique de la famille. Lutilisation de cette grandeur RRs et la précédente (le rapport RRs / RRp ) est plus pertinente que lutilisation séparée des deux grandeurs RRs et RRp car dans ce dernier cas, lors daccélération du rythme, les deux paramètres ( RRs et RRp) sont différents dun battement à lautre ce qui conduirait à la création dune famille supplémentaire et nous ne le souhaitons pas, alors quavec les paramètres retenues ( RRs et RRs / RRp) seule RRs est différent et ça ne suffit pas, en général, à créer une nouvelle famille comme nous le verrons dans la suite. III.1.2.c Amplitude du battement initial Depuis létape de segmentation de lECG en fenêtres, lamplitude maximale des battements est normalisée à 1, c'est-à-dire que les complexes ont tous une dynamique de 1, quelle que soit leur taille originale. Pour éviter de confondre des battements de tailles trop différentes, les amplitudes de chacune des voies valides sont retenues comme descripteurs de la famille V . III.1.3 Paramètres réestimés En plus des paramètres fixes, on caractérise les familles avec des paramètres qui sont réestimés dès quun battement est ajouté à la famille . Ces paramètres subissent en général une légère dérive due notamment à des changements de position du patient, qui, sur de longues durées, peuvent être importantes. De plus, lamplitude de variation de ces paramètres dépend fortement du patient; ainsi, une procédure de réestimation lors de lajout de chaque nouveau battement permet dune part de suivre une éventuelle dérive temporelle, et, dautre part, de sadapter spécifiquement au patient . III.1.3.a Laxe principal Comme nous lavons indiqué précédemment, laxe principal issu de lanalyse en composantes principales est un paramètre particulièrement important pour la caractérisation de la famille : il est parfois un des seuls paramètres qui permette la distinction entre un battement normal et

V On note ici que deux battements bi-phasiques très proches peuvent être à lorigine de la création de deux familles différentes.

160

Chapitre 7

Classification non supervisée des battements

un battement anormal (chapitre 5). Les informations de laxe principal sont caractérisées par les deux groupes de valeurs suivantes : - La moyenne des angles ACP sur les vingt derniers battements VI inclus dans la famille. Dans le cas dun enregistrement à 2 voies, il sagit donc de langle θ défini précédemment (cf. chapitre 5.IV Résultats de lanalyse en composantes principales) entre laxe principal issu de lanalyse en composantes principales et un axe fixe (Figure 3). Pour les enregistrements sur 3 voies, cest le couple formé par langle θ et langle φ provenant des coordonnées sphériques de laxe principal qui est retenu. Dans le cas dun enregistrement nayant quune seule voie, cette notion dangle ACP na pas de signification : ce paramètre nest donc pas considéré. - Lécart type de la distribution de langle θ dans le cas de 2 voies, ou la matrice de covariance 2x2 (pour les angles θ et φ ) pour les enregistrements 3 voies, ces deux grandeurs traduisant la distribution des valeurs autour de la valeur moyenne.

θ Axe principal

A Figure 3 : langle θ correspond à langle que forme laxe principal cardiaque repéré par la méthode danalyse en composantes principales détaillée au chapitre 5 et un axe fixe, ici laxe formé par la première voie denregistrement A. Dans le cas dun repérage en trois dimensions de laxe principal, il est repéré par ses coordonnées sphériques (angle θ et φ ) quil forme avec ce même axe fixe. Le calcul de lécart-type de la distribution (ou de la matrice de covariance) est imposé par la nécessité de sadapter au patient ; en effet, certains patients présentent des variations dangles de quelques centièmes de radians entre deux battements normaux alors que cette variation VI Lorsque la famille nest pas suffisamment importante (moins de 20 éléments) lensemble des battements la constituant est utilisé pour lestimation des paramètres.

161

Chapitre 7

Classification non supervisée des battements

atteint plusieurs dixièmes chez dautres.Lécart-type (ou la matrice de covariance) permettra de calculer, pour la classification dun battement, des distances de Mahalanobis [Everitt, 1974] (c'est-à-dire des distances normalisées par lécart type de la famille) plutôt que des distances euclidiennes. III.1.3.b Le produit des deux premières valeurs propres de la matrice de covariance Le produit des deux plus grandes valeurs propres de la matrice de covariance présentée pour lanalyse en composantes principales (cf. Chapitre 5, eq. 2) constitue un troisième paramètre pertinent pour la classification des battements en familles. Ce produit est une caractéristique de la forme du vectocardiogramme. Rappelons que les valeurs propres de la matrice de covariance correspondent aux longueurs des axes principaux du vectocardiogramme : le produit des deux valeurs propres est donc proportionnel à la surface de la courbe. De même que pour laxe principal, nous disposons de deux types de valeurs pour caractériser le produit des deux premières valeurs propres : sa valeur moyenne, qui est recalculée sur les 20 derniers battements de la famille, et son écart-type. Mais, contrairement au cas précédent, on peut éviter la réestimation systématique de lécart-type. En effet, contrairement à lécart-type associé à laxe principal, qui varie en fonction de la position du patient, donc au cours de lenregistrement, la variation du produit des deux premières valeurs propres est dominée par des caractéristiques physiologiques inhérentes au patient et au positionnement des électrodes. On calcule donc cet écart-type dès le début de lalgorithme, sur lensemble des battements de lECG. Ainsi chaque famille créée est définie par 5 paramètres et un prototype continu. Chaque nouveau battement est alors analysé ; il est soit associé à une famille existante, soit à lorigine dune nouvelle famille.

162

Chapitre 7

Classification non supervisée des battements

III.2 Principe de la classification non supervisée Comme nous lavons indiqué plus haut, les battements sont traités un à un dans lordre de leur apparition temporelle. On remarque que, au cours du temps, pour un même type de battement, laxe principal change légèrement de direction, notamment à cause des changements de position du patient, et des mouvement de la cage thoracique pendant la respiration : ainsi, on peut observer que, à un instant donné, laxe principal dun battement normal coïncide avec un axe principal dun battement anormal (typiquement une extrasystole ventriculaire) enregistré peu de temps auparavant, alors que le patient adoptait vraisemblablement une autre position. Or ladaptation de certains paramètres ne permet pas, à elle seule, déviter le regroupement de battements qui doivent être séparés ; on complète donc cette approche adaptative en y ajoutant une découpe de lECG en séries de 1200 battements ce qui correspond environ à 20 mm dECG ; on redéfinit donc les familles tous les 1200 battements. Le regroupement des familles considérées comme identiques des séries temporelles successives nest effectué quune fois que ces familles ont été identifiées, cest-à-dire une fois que les ondes de leurs prototypes respectifs ont été étiquetées VII . Pour chaque série de 1200 battements, la classification seffectue schématiquement de la manière suivante : pour un battement donné, on calcule une distance globale entre le battement et chaque famille déjà créée dans la série ; cette distance, qui sera définie plus précisément dans le paragraphe suivant, est une combinaison linéaire des distances sur les différents paramètres caractéristiques et dune valeur de « ressemblance » de londe R à celle des battement de la famille calculée en référence à son prototype . La famille qui représente au mieux le battement est celle pour laquelle la distance est la plus faible. Dans le cas où cette distance est supérieure à un seuil prédéfini, aucune famille nest satisfaisante et le battement étudié donne naissance à une nouvelle famille.

VII Ce deuxième regroupement na pas été effectué dans cette étude. Il est principalement nécessaire à laffichage des données dans le logiciel pour eviter un trop grand nombre de famille ; et ELA Medical possède un tel outil de rassemblement, cest ce dernier qui sera utilisé.

163