Chapitre 5 : la vénérable AFCM

10838630106_d6f05692ac_k

C’est une de premières méthodes utilisée pour l’analyse des contenus textuelles. C’est aussi une invention française, dont le travail s’est poursuivi sur plusieurs générations à partir des années 60. Les noms sont Benzecri, Pages, Saporta,  Bouroche et autres. Une des grandes pages des maths appliquées à la française, mise en code avant même les PCs, les premières qui y ont vécues. Des pionniers se souviendront du software satitcf de l’Institut des Techniques Céréalières et Fourragères sur floppy disk ( « On parle d’un temps…. ») dont Richard Tomassone a été un des acteurs fin des années 80 (sommes demandeurs d’info sur l’histoire de Statitcf!).

Dans les sciences sociales, « la distinction » de Pierre Bourdieu lui a donné ses lettres de noblesse ( il y a un magnifique exemple dans les annexes). Elle a alimenté les études de styles de vie des années 80 de Bernard Cathelat. ( et on est preneur de référence remarquable de ses applications).

D’un point de vue technique l’analyse des correspondances multiples est une Analyse en Composante Principale appliquée sur un tableau particulier : le tableau disjonctif complet qui revient à travailler sur le tableau de Burt qui n’est rien d’autre que l’ensemble des tableaux croisés entre les variables qualitatives analysées et on fera d’abord quelques rappels sur la techniques de base qu’est l’analyse des correspondances simples.

Pour la mise en oeuvre sous r on examinera la solution r.Temis qui en est une est plus belle réalisation, complétement dévouée à l’analyse textuelle. Pour ceux qui recherchent des solutions plus personnalisées on introduira le package Factominer qui en propose de nombreuses variantes.

Pour aller plus loin on se reportera aux méthodes typologiques ( et au chapitre x)  qui en sont la continuation. Audelà des ressources interprétative, l’analyse des correspondances est la première méthode visant à quantifier les qualités, le monde discrêt. Elle fournit ainsi à d’autres méthodes une quantification qui peut être exploitée noatmment pour identifier des groupes d’individus qui partagent un même profil.

Retour sur l’Analyse Factorielle des correspondances

Sa forme la plus simple est l’analyse des correspondances simple qui permet d’analyser un tableau croisés en représentant les distances entre les lignes, versus les colonnes, en termes de chi2, autrement dit une mesure de déviance à la moyenne.

L’objet de l’analyse factorielle des correspondances est celle d’un tableau croisé, autrement dit la distribution bivariée de deux variables qualitatives, par exemples les catégories sociales et les activités culturelles. L’objectif est d’analyser les associations entre les modalités de ces deux variables. On remarquera d’emblée qu’un cas particulier de ce type de tableau est un tableau termes x document ( pour autant qu’il soit d’une taille raisonnable, c’est à dire lisible!)

On prendra pour exemple le résultat d’une enquête sur la répartition des tâches domestiques au sein des couples.

ca-housetasks

Pour analyser un tel tableau, il y a un outil ancien qui s’inscrit dans le calcul du test du chi² et sa décomposition. C’est à Karl Pearson en 1900 que l’on doit cette invention capitale. Illustrons le principe sur un exemple très simple, celui de notre tableau précédent. Le principe de la statistique du chi² consiste à comparer la distribution empirique à une distribution théorique qui suit un principe simple : si les deux variables sont indépendantes le nombre d’observation dans une cellule, est égal au produit de ses marges.

En calculant la différence entre les deux distributions on découvre déjà des éléments d’analyse :  quand la différence est grande, négative ou positive, c’est qu’il y a une association particulière, on dira plus tard une correspondance.

Le chi² est une métrique qui normalise cette quantité par la formule suivante. Il est la composition de valeur propre à chaque cellule dont voici une représentation graphique.

Comment représenter ces nombres? Une simple ACP permet de réaliser cette tâche. Les lignes  peuvent être représentées par des points dans l’espace des vecteurs colonnes. L’opération symétrique peut être opérée, et les deux représentations peuvent être superposées.

Mise en oeuvre avec R.Temis

Sur r le package le plus aisé, pour l’analyse textuelle, est très certainement celui de  R. temis  qui mériterait un rewamping mais est farci d’utilitaires pratiques. Il a l’avantage d’être complet et de mettre au coeur de ses outils une belle implémentation de l’afcm, destinées à construire des typologies.

E.temis se présente comme un addon de Rcmdr, et se manipule par une interaction avec un menu. On peut récupérer cependant aisément le script pour l’ajuster à des besoins plus spécifiques.  On en trouvera un manuel ici.

Les ressources de factominer

Mais on peut jouer directement avec factominer qui offre un choix élargi de méthodes dérivées de l’AFC et permet de gérer les variables illustratives, celles dont on calcule la position dans un espace sans qu’elles contribuent au calcul de cet espace

voir aussi http://maths.cnam.fr/IMG/pdf/Epose-Pages-Dec09.pdf

Un bon guide qui exploite plus le  package est disponible ici.

 

Des classiques

 

  • Benzécri, J.-P. (1973). L’Analyse des Données. Volume II. L’Analyse des Correspondances. Paris, France: Dunod.
  • Greenacre, Michael (1983). Theory and Applications of Correspondence Analysis. London: Academic Press. ISBN 0-12-299050-1.
  • BOUROCHE J.M., SAPORTA G. : »L’analyse des données »Que sais-je ? PUF Paris 1977
  • FENELON J.P. : »Qu’est-ce que l’analyse des données ? » LEFONEN Paris 1983
  • LEBART L., MORINEAU A., TABARD N. : »Techniques de la description statistique »
    DUNOD, Paris 1977

 

Publicités