Chapitre 4 : Ngrams

sophie_calle_pas-pauvre_sophie-calle-42212_46737_w800_190913

 

Un mot ne suffit pas à donner le sens, deux c’est mieux : « Monsieur Jeune »,  et trois encore mieux : « Monsieur Jeune 100000 » … L’idée est simple mais lourde car requiert des corpus important (faire la démo numérique) la diversité des ngrams croissant de manière exponentielle avec la taille du lexique.

L’exemple de Ngrams Viewers de Google Books

Le service ngrams viewers de Google s’appuie sur le processus de numérisation de Google books qui aurait cumuler plus de 20 millions d’ouvrages. En voici un exemple sur la base d’ 1 5grams, d’un bigram et d’un unigram : « pays en voie de développement », « Pays émergents », « colonie ».

https://books.google.com/ngrams/interactive_chart?content=pays+en+voie+de+d%C3%A9veloppement%2Cpays+%C3%A9mergents%2Ccolonies%2C+tiers+monde&year_start=1920&year_end=2008&corpus=19&smoothing=3&share=&direct_url=t1%3B%2Cpays%20en%20voie%20de%20d%C3%A9veloppement%3B%2Cc0%3B.t1%3B%2Cpays%20%C3%A9mergents%3B%2Cc0%3B.t1%3B%2Ccolonies%3B%2Cc0%3B.t1%3B%2Ctiers%20monde%3B%2Cc0

Dans cet exemple, on constate trois périodes claires :

  • Avant 1955, on ne parle que de « colonies », qui avec les anglais dès 1945 et les français jusqu’au début des années 60 ans s’engagent dans un processus d’indépendance et de décolonisation. Le terme survit, les colonies sont objets des livres d’histoire certainement.
  • A partir de la fin des années soixante une nouvelle dénomination s’impose : les pays en voie de développement. elle est accompagnée par l’expression  » tiers monde ». Ce sont sans doute des expressions concentré dans le champs de la sociologie et de l’économie.
  • Au cours des années 90 c’est la notion de « pays émergents » qui surgit assez propres à une littérature managériales. La diversité observée résultent sans doute de la diversité idéologique.

La limite de l’analyse réside ici dans ce que tous les domaines sont pris en compte, certaines expression pouvant couvrir un territoire plus vaste que les autres, les bases de comparaison ( les échelles) ne sont pas assurées.

Google met à disposition les fichiers pour les analystes qui souhaitent développer des solution produite d’analyse. (On y obtient justement non seulement le nombre de fois où le terme a été cité, mais aussi le nombre de livres dans lequel il est apparu).

Ngram avec tm

tm propose une solution simple pour construire les ngrams.

voir cet exemple

bigramme en tidy verse

chunk r

On se rend compte dans la pratique que ce nombre est explositifs. n unigramme, forme potentiellement n² bigrammes. Un lexique de mille termes génère un million au plus de bigram possibles dont seuls une fraction sera trouvée dans le corpus, mais elle sera sans doute de plusieurs dizaines de milliers, dont une grande proportion a une fréquence de quelques unités.

 

Une selection des bigramm est donc nécessaire ( a fortiriori pour les Ngrams)

Publicités