Manuel

2349889836_703d691671_b

Ce manuel pratique est consacré aux méthodes modernes de text mining et d’analyse des contenus. Il s’appuie largement sur les ressources de Tidyverse.

Son plan est progressif, on commence par la préparation des données et on finit par l’automatisation avec du machine learning.  En conclusion un état des recherche sur l’application du deep learning au texte, mais là on va au-delà du projet.

Chapitre 0 : Acquérir les données (API, Scrapping, scan, OCR…..)

Chapitre 1 : Préparer les données (80% du boulot et de bons dictionnaires)

Chapitre 2 : Compter les mots (c’est par là que ça commence)

Chapitre 3 : La vénérable AFCM ( et un salut à Pierre)

Chapitre 4 : Ngram ( un mot ne suffit pas…)

Chapitre 5 : Topic Analysis (de quoi qu’on cause ?)

Chapitre 6 : Clustering ()

Chapitre 7 : la vectorisation ( il sera question d’un très gros oursin)

Chapitre 8 : TSNE ( de la perplexité pour tout mettre à plat)

Chapitre 9 : Analyse du sentiment (cris et lamentations)

Chapitre 10 : prédire pour annoter ( quand la machine est entraînée…)

Chapitre 11 : les perspective du deep learning ( rêvons un peu)

Annexe I : les fonctions utilisées.

…..

Publicités