#Pos : Part of Speech tagging

pos01.pngLe corpus est constitué de phrases où chaque partie (mots) relève de catégories grammaticales différentes : des substantifs, des adjectifs, des verbes, des pronoms, …

Il peut être particulièrement intéressant d’identifier ces catégories. Par exemple, dans une analyse du sentiment, on peut souhaiter de ne s’intéresser qu’aux adjectifs pour ce concentrer sur les éléments expressifs du contenu, ou dans une analyse de topics de ne la réaliser que sur les verbes pour identifier des modalités d’action. Une des applications purement linguistique est d’employer l’étiquetage PoS pour des tâches de désambigüisation.

Dans r plusieurs solutions sont proposées. Une première est proposée par RDRPOSTagger que nous n’avons pas encore testé mais qui semble à première vue d’une grande simplicité d’usage. D’autres sont proposées sur cette page. Un autre exemple est donnée ici. pour aller plus loin lire ceci.

 

Publicités