Méthodologie
Comment ces chroniques sont fabriquées : ce qui est mesuré, comment, avec quels modèles, et qui signe.
Pourquoi cette page
Une chronique Le Poids des Mots mêle des chiffres produits par un pipeline d'analyse automatique, un brouillon rédigé par un grand modèle de langage, et une édition humaine qui tranche. Cette page expose les trois étapes pour qu'aucune ne reste opaque : ce qui est mesuré et comment ; ce qu'apporte le modèle de langage ; et le final cut humain qui signe la chronique et engage la responsabilité éditoriale d'AFK.live.
Vue d'ensemble du pipeline
Trois étapes, dans cet ordre :
- Transcription du texte source (interview scannée, audio, PDF, article web) en un transcript propre.
- Analyse NLP déterministe : sept indicateurs sont calculés à partir du transcript et donnent six graphiques. Ces chiffres ne dépendent pas d'un modèle de langage génératif — ils sont reproductibles à l'identique d'un run à l'autre.
- Brouillon de synthèse par le modèle de langage Mistral, à partir de ces chiffres et de ces graphiques — puis édition et signature par un humain.
Le modèle ne réécrit jamais les chiffres ; il les commente. Et c'est l'humain qui décide, in fine, ce qui est publié.
Les sept indicateurs
1. Réseau d'entités — qui parle de qui ?
On extrait les personnes, organisations et lieux cités, puis on relie deux entités quand elles apparaissent dans la même phrase. Le graphe qui en sort fait apparaître les noyaux d'attention : qui est central dans le discours, qui n'est mentionné qu'en marge.
Modèle de reconnaissance d'entités :
cmarkea/distilcamembert-base-ner, layout du graphe par algorithme de Kamada-Kawai.
2. Polarité par entité — chaque nom est-il évoqué positivement ou négativement ?
Pour chaque personne ou organisation citée, on regarde le contexte de ses mentions et on évalue si la tonalité est plutôt positive, plutôt négative, ou neutre. La couleur des nœuds du graphe d'entités encode ce résultat (rouge à vert).
Méthode : embeddings du modèle sentence-CamemBERT large projetés sur des phrases-amorces de polarité extraites du transcript lui-même par un appel à Mistral (« adaptive seeds » : on calibre la polarité dans le registre propre du locuteur, pour ne pas écraser les nuances). Inspiration côté littérature : revues d'Aspect-Based Sentiment Analysis.
3. Radar thématique — sur quoi parle le texte ?
Cinq thèmes politiques de référence (économie, immigration, écologie, institutions, social) sont définis par des phrases-amorces. On mesure à quel point le texte « ressemble sémantiquement » à chaque thème, et on en fait un radar.
Méthode : similarité cosinus entre embeddings du texte et embeddings des amorces, dans la lignée de Sentence-BERT (Reimers & Gurevych, 2019).
4. Latouromètre — la grille des quatre attracteurs
Indicateur original d'AFK.live, traité dans la section dédiée ci-dessous.
5. Lisibilité Kandel-Moles — l'effort de lecture
Une formule classique mesure la difficulté de lecture d'un texte français à partir de la longueur des phrases et de la complexité des mots. Plus le score est élevé, plus le texte est facile à lire.
On positionne le score du texte analysé sur une échelle ancrée par quatre textes de référence qui balisent le spectre : un arrêt du Conseil d'État (29,8 — texte juridique très dense), un extrait du Discours de Rome de Jacques Lacan (37,4 — registre savant), une plaquette Facile à lire et à comprendre du FRAC Bretagne (72,0 — destinée à l'accessibilité cognitive), et la comptine Promenons-nous dans les bois (100,3 — phrases très courtes, mots familiers). Les baselines sont calculées à partir de textes intégraux et stockées dans le pipeline ; l'arbitrage entre un repère technique et un repère grand public sert à donner une intuition, pas à distribuer des bons points.
Référence : Kandel & Moles, L'Année Psychologique, 1958.
6. Fondations morales — quel registre de valeurs est mobilisé ?
Cinq grands axes de la morale politique : Bienveillance, Équité, Loyauté, Autorité, Pureté. On compte la fréquence (par millier de mots) des termes français rattachés à chaque axe, à partir d'un dictionnaire d'environ 230 lemmes.
Cadre théorique : Moral Foundations Theory de Jonathan Haidt et Jesse Graham. Adaptation française du dictionnaire MFD.
7. Carte d'arguments — quelles affirmations, étayées par quoi ?
On extrait jusqu'à sept couples (affirmation, justification) du transcript. Pas un graphique : ces couples sont listés en fin de synthèse, pour qu'on puisse vérifier d'un coup d'œil sur quoi le locuteur appuie ses thèses.
Méthode : un appel unique à Mistral en mode JSON, dans la lignée des travaux d'argument mining — voir la revue de Lawrence & Reed (2020).
Le Latouromètre
Pourquoi cet indicateur ?
L'axe gauche-droite est devenu insuffisant pour situer un discours politique contemporain. Quand un homme de droite parle d'écologie populaire, quand un homme de gauche défend la frontière, quand un libertarien de la Silicon Valley promeut une « cité-réseau » sans territoire, le clivage gauche-droite ne dit rien de leur rapport au monde habité. C'est notre conviction : la grille proposée par le philosophe Bruno Latour saisit mieux la texture politique réelle de l'époque.
Les quatre attracteurs de Latour
Dans Où atterrir ? Comment s'orienter en politique (La Découverte, 2017), Latour dessine une géométrie politique à quatre pôles :
- Local — l'attachement au sol, aux traditions, à un terroir. Latour distingue un Local-plus (ancrage légitime, ouvert) d'un Local-moins (identitaire, défensif, qui se replie sur la frontière).
- Global — l'horizon de la mondialisation, du progrès, de l'universel. Là aussi un Global-plus (multiplication des points de vue, ouverture aux cultures) et un Global-moins (uniformisation néolibérale, dérégulation).
- Hors-Sol — l'horizon de ceux qui n'appartiennent plus à une terre qui réagirait à leurs actions : paradis fiscaux, climato-négationnisme organisé, fantasmes de sécession technologique (vivre sur Mars, fonder des cités-réseaux, fusionner avec la machine). Latour identifie ce pôle à partir de l'élection de Trump et du retrait de l'Accord de Paris.
- Terrestre — le sol comme acteur politique, pas comme décor. Hérité des mouvements écologiques, mais distinct du Local : il ne se replie pas sur l'identité, il accepte la cohabitation entre humains et non-humains sur un sol qui réagit.
Ces définitions sortent du livre — nous nous en tenons strictement à Où atterrir ? pour ne pas mélanger avec d'autres concepts latouriens (Gaïa, acteur-réseau, Anthropocène).
Comment on mesure
Pour chacun des quatre pôles, nous avons constitué un corpus de textes archétypaux — 21 textes au total, calibrés à la main : François Ruffin pour le Local-plus, Marine Le Pen et Éric Zemmour pour le Local-moins, Emmanuel Macron à la Sorbonne et la Charte du Forum social mondial pour le Global, Peter Thiel et Marc Andreessen pour le Hors-Sol, les Soulèvements de la Terre et Aurélien Barrau pour le Terrestre, et d'autres.
Chaque texte à analyser est projeté dans un espace sémantique (les mêmes embeddings CamemBERT que pour la polarité), puis on mesure sa proximité aux quatre pôles. Le résultat se lit sur un radar à quatre branches qui reproduit la figure publiée par Latour. Sur le corpus de calibration v3 (mai 2026), la précision est de 18 textes correctement classés sur 21.
Ce que le Latouromètre ne fait pas
- La méthode est encore en construction. Trois textes du corpus de calibration restent mal classés — typiquement les inversions sujet-position, comme une tribune anti-écologique qui parle abondamment de la Terre pour mieux l'attaquer.
- Le Latouromètre est une lecture sémantique du lexique, pas une lecture politique de l'intention. Un discours peut être Hors-Sol au sens de Latour — par exemple le discours de Trump retirant les États-Unis de l'Accord de Paris — et Local-moins au sens lexical (« nos travailleurs », « Pittsburgh, pas Paris »). C'est une limite que nous assumons et que nous signalons quand le cas se présente dans une chronique.
- Pour la discussion technique détaillée (calibration des amorces, désambiguïsation entre Local et Terrestre, choix de l'embedder), un article dédié arrivera sur sylvain.artois.io. Article technique à venir.
La synthèse éditoriale et le final cut humain
Le modèle de langage Mistral (mistral-large-2512) reçoit
le fichier de mesures, les graphiques et la métadonnée éditoriale
(titre, source, date). Il produit un brouillon de synthèse en cinq
sections. Il ne réécrit jamais les chiffres, il les
commente.
Cette synthèse est un brouillon. Je la relis intégralement, je l'édite, je tranche les ambiguïtés, je coupe ce qui sur-interprète, j'ajoute le contexte que les chiffres ne portent pas — l'histoire du locuteur, la séquence politique, ce que les graphiques ne peuvent pas dire. C'est moi qui signe la chronique. Le pipeline mesure ; je donne du sens. La responsabilité éditoriale de chaque mot publié est humaine, et je la tiens.
Cette précision n'est pas une caution rhétorique pour rassurer le lecteur sur l'usage du modèle de langage. C'est le point d'arrivée du dispositif. Sans final cut humain, ces sept indicateurs resteraient une note de calcul. La chronique commence quand l'humain en fait quelque chose.
Reproductibilité
Le pipeline est en logiciel libre, les modèles utilisés sont
publiquement accessibles sur Hugging Face, la configuration tient en
quelques fichiers YAML. Le code Python vit dans le répertoire words-weight/ du dépôt
afk. Toute personne munie d'une clé d'API Mistral peut rejouer une
chronique sur la même source et obtenir, aux marges du
non-déterminisme du modèle de langage près, les mêmes chiffres.
Limitations générales
-
Les modèles d'embeddings utilisés sont monolingues français (
sentence-camembert-large). Un discours en anglais ou en italien serait analysé séparément avec des modèles différents (all-mpnet-base-v2pour l'anglais). - L'analyse tourne sur CPU et reste compatible avec une machine standard. Seule la transcription audio (Whisper) demande un GPU.
- Les baselines de lisibilité (Macron, Mélenchon, Bardella, presse) sont des repères, pas une norme. Elles sont là pour donner un ordre de grandeur, pas pour distribuer des bons ou mauvais points.
Pour aller plus loin
- Bruno Latour, Où atterrir ? Comment s'orienter en politique, La Découverte, 2017 — fiche éditeur.
-
Code source du pipeline :
github.com/sartois/afk, répertoire
words-weight/. - Discussion technique détaillée à venir sur sylvain.artois.io — calibration du Latouromètre, choix d'embedder, désambiguïsation des amorces.