Méthodologie — Le poids des mots

Pourquoi cette page

La chronique Le Poids des Mots mêle des chiffres produits par un pipeline d'analyse automatique, un brouillon rédigé par un grand modèle de langage, et une édition humaine. Cette page expose les trois étapes : ce qui est mesuré et comment ; ce qu'apporte le modèle de langage ; et le final cut humain qui signe la chronique.

Vue d'ensemble du pipeline

Trois étapes, dans cet ordre :

Transcription du texte source (interview scannée, audio, PDF, article web) en un transcript exploitable.
Analyse NLP : sept indicateurs sont calculés à partir du transcript et donnent six graphiques. L'objectif est un pipeline déterministe et reproductible — cinq des sept indicateurs (réseau d'entités, radar thématique, Latouromètre, lisibilité, fondations morales) sont strictement reproductibles d'un run à l'autre. Deux indicateurs (polarité par entité, carte d'arguments) font appel à un modèle de langage pour une étape précise et bornée — c'est documenté dans les sections concernées. Aucun de ces sept indicateurs n'est rédigé par le modèle de langage : tous sont des chiffres, calculés à partir du texte.
Brouillon de synthèse par le modèle de langage Mistral Large, à partir de ces chiffres et de ces graphiques — puis édition et signature par un humain.

Le modèle ne réécrit jamais les chiffres ; il les commente. Et c'est l'humain qui décide, in fine, ce qui est publié.

Les sept indicateurs

1. Réseau d'entités — qui parle de qui ?

On extrait les personnes, organisations et lieux cités, puis on relie deux entités quand elles apparaissent dans la même phrase. Le graphe qui en sort fait apparaître les noyaux d'attention : qui est central dans le discours, qui n'est mentionné qu'en marge.

Modèle de reconnaissance d'entités : cmarkea/distilcamembert-base-ner.

2. Polarité par entité — chaque nom est-il évoqué positivement ou négativement ?

Pour chaque personne ou organisation citée, on regarde le contexte de ses mentions et on évalue si la tonalité est plutôt positive, plutôt négative, ou neutre. La couleur des nœuds du graphe d'entités encode ce résultat (rouge à vert).

L'idéal aurait été d'utiliser de l'Aspect-Based Sentiment Analysis (ABSA) — une famille de modèles entraînés à dire, pour chaque entité mentionnée dans une phrase, si elle est évoquée positivement ou négativement (voir les revues de la littérature ABSA). Mais il n'existe pas, en français et en open-source, de modèle ABSA suffisamment robuste pour du discours politique.

Nous avons donc construit une approche « pseudo-ABSA » : pour chaque transcript, un appel au modèle de langage Mistral extrait verbatim dix phrases du texte (cinq évaluatives positives, cinq négatives), qui servent ensuite de règle d'étalonnage pour mesurer la polarité de chaque entité par similarité sémantique. Les embeddings sont produits par le modèle sentence-CamemBERT large. Le modèle de langage ne note rien lui-même — il sélectionne des phrases-repères, et c'est le modèle d'embeddings (déterministe) qui compare. Conséquence assumée : la polarité est calibrée dans le registre propre du locuteur (« adaptive seeds »), mais les valeurs absolues d'une chronique à l'autre ne sont pas directement comparables.

3. Radar thématique — sur quoi parle le texte ?

Cinq thèmes politiques de référence (économie, immigration, écologie, institutions, social) sont définis par des phrases-amorces. On mesure à quel point le texte « ressemble sémantiquement » à chaque thème, et on en fait un radar.

Méthode : similarité cosinus entre embeddings du texte et embeddings des amorces, dans la lignée de Sentence-BERT (Reimers & Gurevych, 2019).

4. Latouromètre — la grille des quatre attracteurs

Indicateur original d'AFK.live, traité dans la section dédiée ci-dessous.

5. Lisibilité Kandel-Moles — l'effort de lecture

Une formule classique mesure la difficulté de lecture d'un texte français à partir de la longueur des phrases et de la complexité des mots. Plus le score est élevé, plus le texte est facile à lire.

On positionne le score du texte analysé sur une échelle ancrée par quatre textes de référence qui balisent le spectre : un arrêt du Conseil d'État (29,8 — texte juridique très dense), un extrait du Discours de Rome de Jacques Lacan (37,4 — registre savant), une plaquette Facile à lire et à comprendre du FRAC Bretagne (72,0 — destinée à l'accessibilité cognitive), et la comptine Promenons-nous dans les bois (100,3 — phrases très courtes, mots familiers). Les baselines sont calculées à partir de textes intégraux et stockées dans le pipeline ; l'arbitrage entre un repère technique et un repère grand public sert à donner une intuition, pas à distribuer des bons points.

Référence : Kandel & Moles, L'Année Psychologique, 1958.

6. Fondations morales — quel registre de valeurs est mobilisé ?

Cinq grands axes de la morale politique : Bienveillance, Équité, Loyauté, Autorité, Pureté. On compte la fréquence (par millier de mots) des termes français rattachés à chaque axe, à partir d'un dictionnaire d'environ 230 lemmes.

Cadre théorique : Moral Foundations Theory de Jonathan Haidt et Jesse Graham. Adaptation française du dictionnaire MFD.

7. Carte d'arguments — quelles affirmations, étayées par quoi ?

On extrait jusqu'à sept couples (affirmation, justification) du transcript. Pas un graphique : ces couples sont listés en fin de synthèse, pour qu'on puisse vérifier d'un coup d'œil sur quoi le locuteur appuie ses thèses.

Méthode : un appel unique à Mistral en mode JSON, dans la lignée des travaux d'argument mining — voir la revue de Lawrence & Reed (2020).

Le Latouromètre

Pourquoi cet indicateur ?

L'axe gauche-droite est devenu insuffisant pour situer un discours politique contemporain. Quand un homme de droite parle d'écologie populaire, quand un homme de gauche défend les frontières, quand un libertarien de la Silicon Valley promeut une « cité-réseau » sans territoire, le clivage gauche-droite ne dit rien de leur rapport au monde habité. C'est notre conviction : la grille proposée par le philosophe Bruno Latour saisit mieux la texture politique réelle de l'époque.

Les quatre attracteurs de Latour

Dans Où atterrir ? Comment s'orienter en politique (La Découverte, 2017), Latour dessine une géométrie politique à quatre pôles :

Local — l'attachement au sol, aux traditions, à un terroir. Latour distingue un Local-plus (ancrage légitime, ouvert) d'un Local-moins (identitaire, défensif, qui se replie sur la frontière).
Global — l'horizon de la mondialisation, du progrès, de l'universel. Là aussi un Global-plus (multiplication des points de vue, ouverture aux cultures) et un Global-moins (uniformisation néolibérale, dérégulation).
Hors-Sol — l'horizon de ceux qui n'appartiennent plus à une terre qui réagirait à leurs actions : paradis fiscaux, climato-négationnisme organisé, fantasmes de sécession technologique (vivre sur Mars, fonder des cités-réseaux, fusionner avec la machine). Latour identifie ce pôle à partir de l'élection de Trump et du retrait de l'Accord de Paris.
Terrestre — le sol comme acteur politique, pas comme décor. Hérité des mouvements écologiques, mais distinct du Local : il ne se replie pas sur l'identité, il accepte la cohabitation entre humains et non-humains sur un sol qui réagit.

Ces définitions sortent du livre — nous nous en tenons strictement à Où atterrir ? pour ne pas mélanger avec d'autres concepts latouriens (Gaïa, acteur-réseau, Anthropocène).

Comment on mesure

Pour chacun des quatre pôles, nous avons constitué un corpus de textes archétypaux — 21 textes au total, calibrés à la main : François Ruffin pour le Local-plus, Marine Le Pen et Éric Zemmour pour le Local-moins, Emmanuel Macron à la Sorbonne et la Charte du Forum social mondial pour le Global, Peter Thiel et Marc Andreessen pour le Hors-Sol, les Soulèvements de la Terre et Aurélien Barrau pour le Terrestre, et d'autres.

Chaque texte à analyser est projeté dans un espace sémantique (les mêmes embeddings CamemBERT que pour la polarité), puis on mesure sa proximité aux quatre pôles. Le résultat se lit sur un radar à quatre branches qui reproduit la figure publiée par Latour. Sur le corpus de calibration v3 (mai 2026), la précision est de 18 textes correctement classés sur 21.

Ce que le Latouromètre ne fait pas

La méthode est encore en construction. Trois textes du corpus de calibration restent mal classés — typiquement les inversions sujet-position, comme une tribune anti-écologique qui parle abondamment de la Terre pour mieux l'attaquer.
Le Latouromètre est une lecture sémantique du lexique, pas une lecture politique de l'intention. Un discours peut être Hors-Sol au sens de Latour — par exemple le discours de Trump retirant les États-Unis de l'Accord de Paris — et Local-moins au sens lexical (« nos travailleurs », « Pittsburgh, pas Paris »). C'est une limite que nous assumons et que nous signalons quand le cas se présente dans une chronique.
Pour la discussion technique détaillée (calibration des amorces, désambiguïsation entre Local et Terrestre, choix de l'embedder), un article dédié arrivera sur sylvain.artois.io. Article technique à venir.

La synthèse éditoriale et le final cut humain

Le modèle de langage Mistral (mistral-large-2512) reçoit le fichier de mesures, les graphiques et la métadonnée éditoriale (titre, source, date). Il produit un brouillon de synthèse en cinq sections. Il ne réécrit jamais les chiffres, il les commente.

Cette synthèse est un brouillon. Chez AFK, on la relit intégralement, on l'édite, on tranche les ambiguïtés, on coupe ce qui sur-interprète, on ajoute le contexte que les chiffres ne portent pas — l'histoire du locuteur, la séquence politique, ce que les graphiques ne peuvent pas dire. C'est AFK, en tant que publication, qui signe la chronique et en endosse la responsabilité éditoriale.

Cette précision n'est pas une caution rhétorique pour rassurer le lecteur sur l'usage du modèle de langage. C'est le point d'arrivée du dispositif. Sans final cut humain, ces sept indicateurs resteraient une note de calcul. La chronique commence quand l'humain en fait quelque chose.

Reproductibilité

Les modèles utilisés sont publiquement accessibles sur Hugging Face, la configuration tient en quelques fichiers YAML, et le code Python du pipeline (répertoire words-weight/) sera publié en logiciel libre après cinq ou six chroniques, le temps de stabiliser l'API et la documentation. À ce moment-là, toute personne munie d'une clé d'API Mistral pourra rejouer une chronique sur la même source et obtenir, aux marges du non-déterminisme du modèle de langage près, les mêmes chiffres.

Limitations générales

Les modèles d'embeddings utilisés sont monolingues français (sentence-camembert-large). Un discours en anglais ou en italien serait analysé séparément avec des modèles différents (all-mpnet-base-v2 pour l'anglais).
L'analyse tourne sur CPU et reste compatible avec une machine standard. Seule la transcription audio (Whisper) demande un GPU.

Pour aller plus loin

Bruno Latour, Où atterrir ? Comment s'orienter en politique, La Découverte, 2017 — fiche éditeur.
Discussion technique détaillée à venir sur sylvain.artois.io — calibration du Latouromètre, choix d'embedder, désambiguïsation des amorces.

← Toutes les chroniques

Comment ces chroniques sont fabriquées.