Lexique SEO : TF-IDF

Définition simple du TF-IDF

TF-IDF est l’acronyme de Term Frequency – Inverse Document Frequency. En français : fréquence du terme rapportée à la fréquence inverse dans l’ensemble des documents. Tout cette formulaire cache un concept visant à mesurer à quel point un mot est important dans un texte précis, en le comparant à sa présence dans un corpus de référence bien plus large.

Pensez-y de cette façon. Si le mot « contrat » apparaît cent fois dans un document juridique, ça ne dit pas grand-chose de sa pertinence, il est courant dans ce domaine. En revanche, si le terme « rescision » apparaît fréquemment dans ce même document alors qu’il est rare ailleurs, là, la statistique devient parlante : ce terme signifie quelque chose par rapport à ce texte spécifique.

C’est exactement ce que mesure le TF-IDF. Vous pouvez le voir comme un score qui récompense les termes à la fois fréquents dans un document et rares dans la masse documentaire globale. Plus ce score est élevé, plus le terme est caractéristique de ce document en particulier.

Comprendre le principe du TF-IDF

Pour bien saisir la mécanique, il faut décomposer la formule en deux temps distincts. Le TF-IDF est le produit de deux valeurs : le TF d’un côté, l’IDF de l’autre. Ces deux composantes jouent des rôles opposés mais complémentaires.

 

Le TF, ou la fréquence brute du terme

La Term Frequency est la partie la plus simple. Elle mesure combien de fois un mot apparaît dans un document donné, généralement normalisée par rapport au nombre total de mots dans ce document. Un terme qui revient souvent dans un texte est supposé y jouer un rôle central. C’est une hypothèse raisonnable, mais à elle seule, insuffisante. Les mots de liaison comme « et », « dans » ou « pour » auraient des scores TF astronomiques sans rien dire du contenu réel.

 

L’IDF, ou le poids de la rareté

C’est là qu’intervient l’Inverse Document Frequency. L’IDF attribue un coefficient d’importance en fonction de la rareté du terme à l’échelle du corpus entier. Un mot qui apparaît dans tous les documents du corpus reçoit un score IDF proche de zéro. Il est trop commun pour être informatif. À l’inverse, un terme rare, qui ne se retrouve que dans quelques documents, recevra un score IDF élevé, ce qui amplifiera son poids dans le calcul final.

 

Formule TF-IDF

TF-IDF(t, d, D) = TF(t, d) × IDF(t, D)

Avec : t = le terme analysé · d = le document · D = le corpus de référence

IDF(t, D) = log ( N / df(t) ) · où N = nombre total de documents, df(t) = nombre de documents contenant t

Le produit TF × IDF donne donc un score qui monte quand un terme est à la fois fréquent dans le document et rare dans le corpus. C’est cette combinaison qui en fait un indicateur de pertinence thématique bien plus fin que la simple densité de mots-clés.

Votre site ne vous rapporte rien ?

Donnons-lui une seconde chance.
Nous vous offrons l’audit SEO de votre site.

Demander mon audit

TF-IDF et impact SEO

Google et les autres moteurs de recherche utilisent des variantes de ce principe depuis leurs premières versions. L’idée sous-jacente est toujours la même : identifier ce qui rend un document unique et pertinent par rapport à une requête, plutôt que de simplement compter les occurrences d’un mot-clé.

Pour le référencement naturel, l’analyse TF-IDF permet de répondre à une question stratégique : quels termes les contenus qui se positionnent sur ma cible utilisent-ils, et dans quelles proportions ? Si vos concurrents positionnés sur « mutuelle santé senior » mentionnent systématiquement des termes comme « contrat responsable », « ticket modérateur » ou « reste à charge », c’est que ces mots font sémantiquement partie du champ lexical attendu par Google pour cette requête.

À noter : La majorité des outils SEO qui proposent une analyse TF-IDF construisent leur corpus en collectant les pages déjà positionnées sur la requête cible. Leur score de recommandation est donc relatif à ce corpus spécifique et non à l’ensemble du web. Autrement dit, optimiser via TF-IDF revient à s’aligner sur ce que Google juge déjà pertinent pour cette requête, pas sur une vérité absolue.

Comment utiliser le TF-IDF intelligemment

L’approche la plus productive est d’utiliser l’analyse TF-IDF non pas comme un objectif en soi, mais comme un audit de complétude sémantique. Avant de rédiger ou lors d’une refonte de contenu existant, l’analyse des termes à fort score chez vos concurrents positionnés vous indique les thèmes que votre contenu doit couvrir pour être jugé complet et fiable sur une requête donnée.