L'analyse lexicale : la loi de ZIPF

 

Fréquence x Rang => Constante


Que signifie cette formule barbare ? Imaginons que nous ayons compté tous les mots significatifs d'un ensemble de textes, et que nous les ayons classés par ordre d'occurrences décroissant.

Chaque mot possèdera alors un rang (sa place dans le classement) et une fréquence (le nombre de fois où on l'a trouvé dans les textes).

Et bien, quand la loi de ZIPF se vérifie (et elle se vérifie à condition d'avoir gardé tous les mots, même les mots-outils et de posséder un corpus assez grand d'environ 500000 mots), nous avons, à peu près les résultats suivants:

Rang
Mot
Fréquence
R x F
1
Je
500
500
2
Banque
225
500
3
Banquier
150
450
4
Guichet
115
460
...
...
...
500
fourmi
1
500

A quoi peut bien servir la loi de Zipf ? Tout simplement à déterminer statistiquement le nombre de MOTS-CLES que l'on doit étudier.

Nos calculs personnels ont montré, en enlevant les mots outils et les mots trop redondants que nous avions le tableau suivant dans presque toutes les études lexicales :

% occurrences
% cumulé de mots
70 %
10 %
90 %
20 %

Que signifie ce tableau : qu'en prenant les 10% des mots du lexique les plus fréquents, nous arrivons déjà à 70% du nombre total des occurrences ? Avec 20% des mots, nous couvrons 90% des occurrences.

Est-il alors vraiment utile de nous préoccuper et d'étudier les 80% des mots du lexique qui, à eux tous, ne font que 10% des occurences.


Note : nous rappelons le sens du mot "occurrence" = "Nombre de fois où un mot est trouvé dans un ensemble de textes".


Ce site fait partie des sites de la communauté de l'Analyse Relationnelle
 
Citations
Les lexiques des sujets étudiés semblent posséder leurs propres lois internes. La fréquence des mots du lexique n'est pas le fait du hasard.
Le lexique est un ensemble de mots structurés autour de certains d'entre eux, en quelque sorte les mots "dominants" de la meute.
Ce sont ces mots dominants qui sont les plus fréquents, et qui représentent à eux seuls certains thèmes de l'étude.
On les appelle
les MOTS-THEMES.
Et pour jouer à créer des mots, le LOGOTRON.

NOS ANACIP
d'OR !

Le plus puissant

Le plus utile
Le plus proche
 
Analyse
  Notions d'analyse
3 niveaux pour connaître
   

Analyse de langage

 


Analyse relationnelle
L'analyse de langage
Linguistique
Ferdinand de Saussure
Chomsky
Définitions sémantiques
Sens des mots
Trois niveaux de l'analyse de langage

Langage non conscient
Langage et prévisions

Analyse lexicale
Loi de Zipf
Langage et redondance
Analyse thématique
Une thématique objective
Analyse syntaxique
L'analyse d'un graphe
Les cartes mentales
Les associations verbales

Analyse relationnelle
 
Les 6 critères

Contenu et Relation
Les axiomes de Palo Alto
Critères de hiérarchie
Paix et Guerre
Carte et Territoire
La sémantique générale
Je - Tu - Nous
Satisfait ou non
Analyse croisée
Analyse diachronique
   
Anacip agent intelligent
 
Lexique automatique

les boîtes thématiques
Comparaisons et indices
Prévisions et évolutions
   
Applications
 
Vie quotidienne

Audit d'entreprise
Formation à la vente
Relation clients
Le modèle Pharma