Chapitre 6 : clustering

tex2r cluster
Quand classifier c’est retracer l’histoire et les buissons de l’évolution

On y revient toujours, grouper les mots, grouper les discours, les individus. Parfois retrouver des généalogies, des phylogénies, des cladistiques… La classification doit beaucoup la biologie notamment avec la profusion des méthodes hiérarchiques qu’elle appliquent sur des données phénotypique que génétique. Cette histoire mérite une thèse.

On s’en tiendra ici aux méthodes de base avec quelques incursions sur des problèmes plus difficiles. Pour les méthodes de base le lecteur français pourra revenir à l’ouvrage de Jean louis Chandon qui en 1980 en donnait une bonne synthèse. Elles ont suivies les évolutions des sciences qu’elles accompagnent de la théorie de l’évolution au marketing. mais leurs principes sont acquis.

Certaines de ses méthode donnent le germe de l’ apprentissage non supervisés dont le  k-means est le modèle emblématique

des méthodes hiérarchiques

la question du nombre optimal.

 

1 – les fonctions de bases

k-means

La méthode de classification la plus simple est très certainement la méthode k-means sont l’algorithme est d’une grande simplicité

  1. 1 – choisir un nombre de groupe k
  2. Tant que d>alpha
  3. pour chaque objet i
    1. calculer des d(i,k)
    2. 2-2 attribuer i au groupe k
    3. 2-3 recalculer les coordonnée de k
  4. calculer d (somme des écarts de position des k(t) -k(t+1))

en r, c’est une focntion toute simple

Kclus<- kmeans(df, 3)

Réaliser une classification hiérarchique avec r est d’une grande simplicité comme en témoigne la ligne suivante. Le résultat, dend, est obtenu a) en calculant la distance entre les point à partir des 5 premières colonnes avec la fonction dist  b) en appliquant sur cette matrice  la fonction hclust avec pour méthode, celle de Ward.

dend <- as.dendrogram(hclust(dist(c(1:5)), method = "ward.d2"))

ce style d’écriture, traditionnel peut être aisément remplacé par une approche en pipe

dend <- c(1:5) %>% # take the a vector from 1 to 5
         dist %>% # calculate a distance matrix, 
         hclust(method = "average") %>% # on it compute hierarchical clustering using the "average" method, 
         as.dendrogram # and lastly, turn that object into a dendrogram.

L’objet dend est ici un objet dendrogramme qui pourra être utilisé à fin de représentation plus riche et plus claire avec des package de complements ( section 2)

Le choix d’un modèle est dépendant de deux décision : le choix d’un indice de distance, et celui d’une méthode de calcul des distance entre deux sous-groupe. L’éternelle question des distances

  • euclidienne
  • binaire avec une faveur pour Kuzinski
  • le cosinus si important dans le textuel et autre mesure de corrélation

ce que l’on compare :

  1. des profils sur des variables hétérogènes ( échelle)
  2. les connexions dans un réseau
  3. des proximités spatiales (voronoi)
  4. des profils spectrographiques
  5. des co-occurrence de termes : c’est ce qui nous intéresse

Pour le textuel d’abord la question des unités ( caractère, mots, lemmes, phrase, paragraphe, texte…)

les méthodes hiérarchiques

Les méthodes hiérarchiques s’appuient sur un élément clé : une matrice des distances entre les objets que l’on veut représenter. leur principe est simple !

  • tant que le nombre de classe est inférieur à 1
  • identifier les deux objet les plus proches
  • les regrouper en une classe
  • recalculer les distance entre toute les classes
  • recommencer

Le résultat est une arborescence des regroupements qui est indicée par une mesure de distance. Il peut prendre cette allure

(insérer un dendogram)

les méthodes hiérarchiques se distinguent selon deux critères :

  • le calcul de la distance. On en trouve des listes qu’elle soient basée sur du binaire ou du continu.
  • le choix des distances à comparer. La plus petite des ditances entre lkes individus qui appartienent aux deux groupes que l’on veut comparer, ou à la plus grande? Préfère-t-on une moyenne, une médiane ?

2. Manipuler le dendogramme

La visualisation est importante en analyse typologique. L’objet que l’on manipule est un arbre et il peut prendre différentes représentation.

L’objet dend est ici un dendrogramme qui pourra être utilisé à fin de représentation plus riche et plus claire avec le package dendextent

les ressources de Ape, donne le moyen de représenter un même arbres dans différentes perspective : hierarchique, radiale, ….

de dendextent

une source intéressante est celle-ci !

3. Une approche par les Self Organisating Maps (Som)

C’est une des première méthodes employant des réseaux de neurones. Elle n’est pas récente mais peu utilisée.

Le package Som offre des fonctionnalités graphiques et numérique intéressantes.  On en trouvera une application précise pour des questions de segmentation marketing ici.

4 – trouver le nombre optimal de groupe

Pour les data miner du début du siècle c’est sans doute un progrès de nombreuses procédure sont désormais disponibles pour évaluer le nombre optimum de groupe dans un jeu de données.

Les critères principaux sont

  • test de rapport de variance

5 – décrire les profils

C’est le plus difficile intellectuellement, même si techniquement c’est une question de choix d’indicateurs et de choix graphiques qui feront la qualité visuelle des résultats.

le choix des indicateur

Doit-on comparer les valeurs dans l’absolu ou raisonner en écart plus ou moin standardisé.

le choix graphiques

Avec  ggplot ….qui n’est pas un package commode, mais une véritable grammaire des graphiques s’appyant sur l’idée d’une superposition de couche.

  • la première celle des données définit ce qui est en abscisses, ce qui est en ordonnée, et les groupes. c’est l’ aesthetic (aes)
  • La seconde définit le type de graphique : des lignes, des barres, des points
  • la troisième la mise en forme
  • la quatrième la labellisation
  • la cinquièmes des commentaires et des formes

la démo suivante en donne une illustration

(mettre la demo)

Le choix des graphiques dépend du nombre de descripteurs et de groupes. Trois solutions sont :

  • le diagramme radial : quand il y a beaucoup de variables

(exemple)

  • barres et lignes : quand il y a beaucoup de groupes

(exemple)

  • spectral quand il y a bcp s de tout

(exemple)

En voici l’illustration

Bibliographie

en management et science de l’information

Chandon typologie

en biologie

Mayr E. 1942. Systematics and the Origin of Species. Columbia University Press, New York.

Sokal R. & P. H. A. Sneath 1963. Principles of Numerical Taxonomy. San Francisco, W. H. Freeman.

PASCAL TASSY, 1991. L’arbre à remonter le temps : les rencontres de la systématique et de l’évolution. Paris : Christian Bourgeois. à propos :

 

Publicités