AFK.live
Pipeline · 18 h 15 Mer. 17 juin · N° 0549
ACCUEIL · LE POIDS DES MOTS · MÉTHODOLOGIE
← Toutes les chroniques
Le poids des mots
Méthodologie

Comment ces chroniques sont fabriquées.

Ce qui est mesuré, avec quels modèles, qui signe. Un pipeline NLP déterministe, un brouillon Mistral, et un final cut humain qui endosse la chronique.

Pourquoi cette page

La chronique Le Poids des Mots mêle des chiffres produits par un pipeline d'analyse automatique, un brouillon rédigé par un grand modèle de langage, et une édition humaine. Cette page expose les trois étapes : ce qui est mesuré et comment ; ce qu'apporte le modèle de langage ; et le final cut humain qui signe la chronique.

Vue d'ensemble du pipeline

Trois étapes, dans cet ordre :

  1. Transcription du texte source (interview scannée, audio, PDF, article web) en un transcript exploitable.
  2. Analyse NLP : sept indicateurs sont calculés à partir du transcript et donnent six graphiques. L'objectif est un pipeline déterministe et reproductible — cinq des sept indicateurs (réseau d'entités, radar thématique, Latouromètre, lisibilité, fondations morales) sont strictement reproductibles d'un run à l'autre. Deux indicateurs (polarité par entité, carte d'arguments) font appel à un modèle de langage pour une étape précise et bornée — c'est documenté dans les sections concernées. Aucun de ces sept indicateurs n'est rédigé par le modèle de langage : tous sont des chiffres, calculés à partir du texte.
  3. Brouillon de synthèse par le modèle de langage Mistral Large, à partir de ces chiffres et de ces graphiques — puis édition et signature par un humain.

Le modèle ne réécrit jamais les chiffres ; il les commente. Et c'est l'humain qui décide, in fine, ce qui est publié.

Les sept indicateurs

1. Réseau d'entités — qui parle de qui ?

On extrait les personnes, organisations et lieux cités, puis on relie deux entités quand elles apparaissent dans la même phrase. Le graphe qui en sort fait apparaître les noyaux d'attention : qui est central dans le discours, qui n'est mentionné qu'en marge.

Modèle de reconnaissance d'entités : cmarkea/distilcamembert-base-ner.

2. Polarité par entité — chaque nom est-il évoqué positivement ou négativement ?

Pour chaque personne ou organisation citée, on regarde le contexte de ses mentions et on évalue si la tonalité est plutôt positive, plutôt négative, ou neutre. La couleur des nœuds du graphe d'entités encode ce résultat (rouge à vert).

L'idéal aurait été d'utiliser de l'Aspect-Based Sentiment Analysis (ABSA) — une famille de modèles entraînés à dire, pour chaque entité mentionnée dans une phrase, si elle est évoquée positivement ou négativement (voir les revues de la littérature ABSA). Mais il n'existe pas, en français et en open-source, de modèle ABSA suffisamment robuste pour du discours politique.

Nous avons donc construit une approche « pseudo-ABSA » : pour chaque transcript, un appel au modèle de langage Mistral extrait verbatim dix phrases du texte (cinq évaluatives positives, cinq négatives), qui servent ensuite de règle d'étalonnage pour mesurer la polarité de chaque entité par similarité sémantique. Les embeddings sont produits par le modèle sentence-CamemBERT large. Le modèle de langage ne note rien lui-même — il sélectionne des phrases-repères, et c'est le modèle d'embeddings (déterministe) qui compare. Conséquence assumée : la polarité est calibrée dans le registre propre du locuteur (« adaptive seeds »), mais les valeurs absolues d'une chronique à l'autre ne sont pas directement comparables.

3. Radar thématique — sur quoi parle le texte ?

Cinq thèmes politiques de référence (économie, immigration, écologie, institutions, social) sont définis par des phrases-amorces. On mesure à quel point le texte « ressemble sémantiquement » à chaque thème, et on en fait un radar.

Méthode : similarité cosinus entre embeddings du texte et embeddings des amorces, dans la lignée de Sentence-BERT (Reimers & Gurevych, 2019).

4. Latouromètre — la grille des quatre attracteurs

Indicateur original d'AFK.live, traité dans la section dédiée ci-dessous.

5. Lisibilité Kandel-Moles — l'effort de lecture

Une formule classique mesure la difficulté de lecture d'un texte français à partir de la longueur des phrases et de la complexité des mots. Plus le score est élevé, plus le texte est facile à lire.

On positionne le score du texte analysé sur une échelle ancrée par quatre textes de référence qui balisent le spectre : un arrêt du Conseil d'État (29,8 — texte juridique très dense), un extrait du Discours de Rome de Jacques Lacan (37,4 — registre savant), une plaquette Facile à lire et à comprendre du FRAC Bretagne (72,0 — destinée à l'accessibilité cognitive), et la comptine Promenons-nous dans les bois (100,3 — phrases très courtes, mots familiers). Les baselines sont calculées à partir de textes intégraux et stockées dans le pipeline ; l'arbitrage entre un repère technique et un repère grand public sert à donner une intuition, pas à distribuer des bons points.

Référence : Kandel & Moles, L'Année Psychologique, 1958.

6. Fondations morales — quel registre de valeurs est mobilisé ?

Cinq grands axes de la morale politique : Bienveillance, Équité, Loyauté, Autorité, Pureté. On compte la fréquence (par millier de mots) des termes français rattachés à chaque axe, à partir d'un dictionnaire d'environ 230 lemmes.

Cadre théorique : Moral Foundations Theory de Jonathan Haidt et Jesse Graham. Adaptation française du dictionnaire MFD.

7. Carte d'arguments — quelles affirmations, étayées par quoi ?

On extrait jusqu'à sept couples (affirmation, justification) du transcript. Pas un graphique : ces couples sont listés en fin de synthèse, pour qu'on puisse vérifier d'un coup d'œil sur quoi le locuteur appuie ses thèses.

Méthode : un appel unique à Mistral en mode JSON, dans la lignée des travaux d'argument mining — voir la revue de Lawrence & Reed (2020).

Le Latouromètre

Pourquoi cet indicateur ?

L'axe gauche-droite est devenu insuffisant pour situer un discours politique contemporain. Quand un homme de droite parle d'écologie populaire, quand un homme de gauche défend les frontières, quand un libertarien de la Silicon Valley promeut une « cité-réseau » sans territoire, le clivage gauche-droite ne dit rien de leur rapport au monde habité. C'est notre conviction : la grille proposée par le philosophe Bruno Latour saisit mieux la texture politique réelle de l'époque.

Les quatre attracteurs de Latour

Dans Où atterrir ? Comment s'orienter en politique (La Découverte, 2017), Latour dessine une géométrie politique à quatre pôles :

Ces définitions sortent du livre — nous nous en tenons strictement à Où atterrir ? pour ne pas mélanger avec d'autres concepts latouriens (Gaïa, acteur-réseau, Anthropocène).

Comment on mesure

Pour chacun des quatre pôles, nous avons constitué un corpus de textes archétypaux — 21 textes au total, calibrés à la main : François Ruffin pour le Local-plus, Marine Le Pen et Éric Zemmour pour le Local-moins, Emmanuel Macron à la Sorbonne et la Charte du Forum social mondial pour le Global, Peter Thiel et Marc Andreessen pour le Hors-Sol, les Soulèvements de la Terre et Aurélien Barrau pour le Terrestre, et d'autres.

Chaque texte à analyser est projeté dans un espace sémantique (les mêmes embeddings CamemBERT que pour la polarité), puis on mesure sa proximité aux quatre pôles. Le résultat se lit sur un radar à quatre branches qui reproduit la figure publiée par Latour. Sur le corpus de calibration v3 (mai 2026), la précision est de 18 textes correctement classés sur 21.

Ce que le Latouromètre ne fait pas

La synthèse éditoriale et le final cut humain

Le modèle de langage Mistral (mistral-large-2512) reçoit le fichier de mesures, les graphiques et la métadonnée éditoriale (titre, source, date). Il produit un brouillon de synthèse en cinq sections. Il ne réécrit jamais les chiffres, il les commente.

Cette synthèse est un brouillon. Chez AFK, on la relit intégralement, on l'édite, on tranche les ambiguïtés, on coupe ce qui sur-interprète, on ajoute le contexte que les chiffres ne portent pas — l'histoire du locuteur, la séquence politique, ce que les graphiques ne peuvent pas dire. C'est AFK, en tant que publication, qui signe la chronique et en endosse la responsabilité éditoriale.

Cette précision n'est pas une caution rhétorique pour rassurer le lecteur sur l'usage du modèle de langage. C'est le point d'arrivée du dispositif. Sans final cut humain, ces sept indicateurs resteraient une note de calcul. La chronique commence quand l'humain en fait quelque chose.

Reproductibilité

Les modèles utilisés sont publiquement accessibles sur Hugging Face, la configuration tient en quelques fichiers YAML, et le code Python du pipeline (répertoire words-weight/) sera publié en logiciel libre après cinq ou six chroniques, le temps de stabiliser l'API et la documentation. À ce moment-là, toute personne munie d'une clé d'API Mistral pourra rejouer une chronique sur la même source et obtenir, aux marges du non-déterminisme du modèle de langage près, les mêmes chiffres.

Limitations générales

Pour aller plus loin

← Toutes les chroniques