Exploration Contributive

La Démission des Gardiens : Quand l’algorithme choisit la haine.

Quel est l’impact de l’assouplissement des règles de modération sur la diffusion des contenus haineux sur META et Twitter / X ?

Ines FURTADO

Atelier d'exploration contributive #1 - 20/23 Avril 2026

#algorithme #réseaux sociaux

⎙ Imprimer

La Démission des Gardiens » analyse comment l’assouplissement de la modération sur X et Meta a transformé nos réseaux sociaux en infrastructures de la haine. En passant d’un rôle de filtre protecteur à une logique de flux rentable , les plateformes favorisent l’indignation au détriment de la vérité.

Note d’intention Nous tenons à préciser que cet article est le fruit d’un travail personnel de recherche approfondi, s'appuyant sur l'analyse rigoureuse d'articles de recherche, d'ouvrages théoriques et de rapports institutionnels préalablement étudiés. La conception, la structure et la rédaction originales sont de notre propre initiative. Nous avons sollicité l’intelligence artificielle exclusivement comme outil d’appui, de relecture et de correction, par souci de cohérence des données et de fluidification du texte. Il est important de souligner que l’IA n’a pas été utilisée comme moteur de recherche pour collecter des informations, mais bien comme un support technique pour structurer et clarifier les résultats de nos propres investigations.

Quel est l’impact de l’assouplissement des règles de modération sur la diffusion des contenus haineux sur META et Twitter / X ?

Introduction : On pensait savoir

On ne s’était jamais vraiment demandé comment fonctionnait la régulation des contenus en ligne. Pour nous, c’était assez simple : Internet était modéré pour garantir la sécurité de tous. Les contenus haineux étaient signalés, puis supprimés (enfin, pour une bonne partie d’entre eux). L’algorithme jouait son rôle de filtre, corrigeant les excès des usages humains.

Mais en regardant de plus près, cette évidence commence à vaciller. , alors on ne s’était pas penché sur la question Au fil des polémiques et des changements observés sur X (ex-Twitter), Instagram ou Facebook, une série de questions s’impose : qui décide réellement des règles ? Sur quelles bases reposent-elles ? Et surtout, à qui profitent-elles ? Pour y répondre, il a d’abord fallu comprendre comment fonctionne cette modération.

Il existe bien un cadre commun : celui des États, qui exigent des règles juridiques. Mais, ils ne sont pas les seuls à intervenir. Les plateformes tel que facebook, Instagram ou twitter restent des entreprises privées, avec leurs propres logiques. Leurs dirigeants comme Mark Zuckerberg pour Meta ou Elon Musk pour X orientent les grandes lignes de ces politiques d’utilisation, en arbitrant entre liberté d’expression, contraintes économiques et image publique.

Ces orientations sont ensuite traduites par des ingénieurs, à travers des algorithmes capables de détecter certains contenus. Mais, l’automatisation a ses limites. Chaque jour, des modérateurs humains interviennent pour juger des situations plus ambiguës là où la frontière entre humour, opinion et harcèlement reste difficile à tracer. À cela s’ajoutent des réglementations comme le RGPD ou le DSA en Europe, qui obligent les plateformes à retirer certains contenus illégaux. Ce cadre explique en partie pourquoi les règles diffèrent d’un pays à l’autre.

Mais, une évolution plus récente attire l’attention : l’assouplissement des règles. Concrètement, il ne s’agit pas de supprimer la modération, mais d’en modifier l’application. Certaines limites sont élargies, certaines sanctions moins systématiques. Une évolution souvent justifiée par une volonté de mieux protéger la liberté d’expression.

Les effets de ces changements commencent d'être observés. Après le rachat de X par Elon Musk en avril 2022, une étude de Berkeley évoque une hausse des discours haineux. De son côté, le CCDH indique qu’une grande partie des contenus signalés ne ferait pas l’objet d’une action.

Chez Meta en janvier 2025, la notion de « discours haineux » a laissé place à celle de “conduite haineuse”. Ce changement subtil est crucial : le « discours » visait les mots eux-mêmes, tandis que la « conduite » suggère qu'il faut un comportement répété ou une intention d'agir pour que Meta intervienne. Des propos autrefois jugés dangereux sont désormais tolérés s'ils sont présentés comme une opinion personnelle ou une conviction religieuse ou politique.

Mais alors une question se pose : Quel est l’impact de l’assouplissement des règles de modération sur la diffusion des contenus haineux sur des plateformes comme Meta (Facebook, Instagram) et X ?

Pour y répondre, il faut d’abord revenir sur le fonctionnement de la modération, puis examiner les évolutions récentes de ses règles, avant d’en analyser les effets concrets sur la diffusion des contenus haineux

I La modération : un choix politique sous couvert de technique

Les chiffres du Center for Countering Digital Hate (CCDH), publiés fin 2023 et mis à jour en 2024, dressent un constat frappant : sur 300 publications signalées pour « haine extrême » (racisme, antisémitisme, etc.), 86 % sont restées en ligne une semaine après signalement.

Autrement dit, malgré les alertes, la majorité des contenus n’a pas été supprimée. Une autre série de données renforce ce constat. Entre janvier et juin 2024, les utilisateurs de X ont effectué 66,9 millions de signalements pour « conduite haineuse ». Sur cette même période, seulement 2 361 comptes ont été suspendus, soit un taux de suppression d’environ 0,004 %.

Un écart aussi grand interroge directement l’efficacité et la priorisation de la modération sur la plateforme.

Dans le même temps, plusieurs travaux de recherche confirment une hausse significative des contenus problématiques. Une étude menée par Jack Hickey et son équipe (Université de Sydney et Queensland 2025) observe une augmentation d’environ 50 % de la haine globale sur la plateforme. Elle souligne également que les algorithmes de recommandation, notamment le flux « Pour vous », ont doublé la visibilité des contenus toxiques.

D’autres travaux vont plus loin et évoquent une augmentation encore plus marquée selon les catégories : jusqu’à +600 % de contenus islamophobes selon l’ISD dans une étude menée en avril 2021, ou encore des hausses significatives des insultes racistes (+42 %), sexistes (+33 %) et transphobes (+260 %) dans certaines périodes postérieures au rachat de la plateforme selon la CCDH.

Ces tendances sont renforcées par une évolution structurelle majeure : la politique de réintégration massive des comptes suspendus. Dans une enquête intitulée Toxic Twitter, le CCDH révèle que la politique d'amnistie générale mise en place par Elon Musk a permis le retour de dizaines de milliers de comptes précédemment bannis, dont certains liés à des discours néonazis, suprémacistes ou complotistes.

L’organisation estime également que ces comptes peuvent générer des revenus significatifs. En analysant les impressions de tweets, le CCDH conclut que dix comptes seulement, connus pour diffuser des contenus haineux et des théories du complot, pourraient rapporter jusqu’à 19 millions de dollars par an en revenus publicitaires.

La rentabilité devient un paramètre central. Le maintien de comptes très engageants même problématiques peut s’avérer économiquement plus intéressant que leur suppression. Cette dynamique éclaire un changement plus profond dans la nature même de la modération.

Comme l’a montré Tarleton Gillespie dans Custodians of the Internet, la modération constitue traditionnellement un rôle de « gardien » des plateformes : filtrer, trier, empêcher la circulation des contenus les plus problématiques.

Or, dans le cas de X, ce rôle semble évoluer. La plateforme ne fonctionne plus uniquement comme un filtre, mais comme un système de circulation continue des contenus.

Les chiffres du CCDH prennent ici tout leur sens : avec 86 % des contenus haineux restant en ligne, la modération ne fonctionne plus comme un mécanisme d’extraction, mais comme un mécanisme de tri minimal. La haine n’apparaît plus comme une anomalie à corriger, néanmoins elle apparait comme un élément intégré au fonctionnement du réseau.

Cette transformation s’inscrit dans une logique plus large, que l’on peut qualifier de passage du « filtre » au « flux ». En d’autres termes, la modération ne vise plus seulement à éliminer les contenus problématiques, mais à diriger leur circulation. Et, dans cet arbitrage, les contenus les plus engageants, y compris les plus problématiques, restent visibles.

Ce basculement n’est pas neutre. Comme le montre Kate Crawford dans Atlas of AI, les systèmes algorithmiques ne sont pas de simples outils techniques : ils reflètent des logiques économiques et politiques orientées vers la maximisation de l’engagement. Or, la haine et l’indignation génèrent fortement de l’interaction. Dans ce cadre, elles deviennent mécaniquement des contenus favorisés par les systèmes de recommandation.

L’étude de Hickey (2025) confirme cette dynamique : non seulement les contenus haineux augmentent en volume, mais leur visibilité progresse également via les recommandations automatisées.

Ainsi, la modération ne disparaît pas. Elle change de nature.

Elle ne sert plus à supprimer, mais à arbitrer entre suppression et circulation. La haine devient un élément structurant du modèle d’attention des plateformes.

« Il n'y a pas de faits, seulement des interprétations. » Friedrich Nietzsche

L’idée selon laquelle l’intelligence artificielle serait un arbitre neutre est un mythe technique. Comme le démontre Kate Crawford dans Atlas of AI, les systèmes algorithmiques ne se contentent pas d'exécuter des calculs ; ils imposent des « classifications politiques » qui organisent notre monde social. Sur Meta ou X, l'IA de modération est programmée selon une rationalité industrielle où la vitesse et le profit priment sur la nuance éthique. Dans ce cadre, les contenus ne sont pas évalués pour leur vérité ou leur dangerosité intrinsèque, mais pour leur capacité à générer de l'engagement. Ce tri algorithmique n'est pas une simple gestion de flux, c'est une hiérarchisation politique du visible et de l'invisible.

Cette logique de pouvoir est parfaitement illustrée par le tournant stratégique pris par Meta en 2025. Selon le rapport de GLAAD, la plateforme a opéré une mutation sémantique majeure en remplaçant la notion de « discours haineux » par celle de « conduites haineuses ». Ce changement de vocabulaire, loin d'être un détail lexical, redéfinit en profondeur les critères de suppression. Là où le « discours » cible le contenu même du message (l'insulte, la déshumanisation), la « conduite » exige l'identification d'un comportement répété ou d'une intention malveillante.

Ce glissement délègue à l'IA une mission impossible : interpréter l'intention plutôt que de sanctionner le propos. En modifiant la règle, Meta élargit délibérément la « zone grise », c'est-à- dire la limite entre le bien et le mal. Des contenus autrefois supprimés car jugés intrinsèquement violents sont désormais tolérés sous prétexte qu'ils ne s'inscrivent pas dans un schéma de « conduite » clair. En pratique, cela permet à l'IA de maintenir en ligne des propos toxiques mais rentables, sous couvert de pluralisme. La modération ne sert plus à protéger l'espace public, mais à dessiner de nouvelles frontières où la haine devient une opinion comme une autre, tant qu'elle respecte une certaine forme de "conduite".

II. Anatomie de la banalisation : de l’écran à la rue

1. Normaliser l’impensable : l'institutionnalisation de la haine L’assouplissement des règles de modération ne se résume pas à une simple hausse statistique des contenus toxiques ; il agit comme une mutation profonde de la norme sociale. Ce que l’on observe sur des plateformes comme X ou Meta est une véritable institutionnalisation de la haine. En tolérant des discours autrefois proscrits, les plateformes leur offrent une forme de validité publique.

Ces réseaux ouvrent une « fenêtre d'Overton », concept sociologique désignant l'ensemble des idées considérées comme acceptables par l'opinion publique à un moment donné. En assouplissant la modération, ils font glisser les curseurs du débat : l'impensable devient radical, puis acceptable, pour finir par paraître raisonnable. Ce qui n'était qu'une insulte isolée devient une opinion populaire, avant de s'imposer comme une politique publique. Sur X ou Meta, ce ne sont plus seulement des mots qui circulent, c'est le cadre même de ce qui est tolérable en société qui se déplace.

Le cas de l’islamophobie sur X est, à cet égard, exemplaire. Suite à la dissolution des conseils de sécurité de la plateforme, l’usage de termes antimusulmans a bondi de 600 %. Il en va de même pour la haine de genre : la réintégration de comptes influents bannis pour misogynie violente a créé un appel d'air pour les communautés masculinistes. En traitant ces attaques comme des « opinions », les plateformes cessent d'être des espaces de dialogue pour devenir des outils de déshumanisation.

Si le principe de communauté Twitter créé en 2021 existait avant le rachat par E. Musk, le laxisme actuel favorise l'émergence d'espaces comme les « Éveillés enragés » (29 500 membres) ou « Les Singes » (90 000 membres). Comme le rapporte Le Monde Pixels, ces groupes sont devenus des lieux où le cyberharcèlement sexiste prospère sous couvert d'échange d'opinion, rendant leur dissolution quasi impossible malgré de nombreux signalements.

Le concept d'Arendt : du mépris à la logique idéologique « Une idéologie est précisément ce que son nom indique : elle est la logique d’une idée. [...] L'émancipation de la pensée à l’égard de l’expérience. » Hannah Arendt, Les Origines du totalitarisme.

Pour comprendre ce phénomène, la pensée d’Hannah Arendt conserve toute son actualité. Bien que ses travaux portent sur le totalitarisme, on peut rapprocher son analyse. Elle explique que la haine devient véritablement dangereuse lorsqu’elle passe du mépris individuel à la construction idéologique. Arendt souligne que « l'éducation idéologique ne se propose pas d'inculquer des convictions, mais de détruire la faculté d'en former ». Dans un espace numérique « non géré », l'utilisateur ne peut pas échapper à un flux qui normalise l'impensable.

La haine cesse d'être une anomalie pour devenir un « bruit de fond ». C’est la banalisation : à force d'exposition répétée à des contenus déshumanisants que personne ne vient contredire, l'utilisateur intègre ces violences comme une composante normale du paysage. Ce flux use notre capacité d'indignation et prépare le terrain à la violence physique. Si l'on ne peut plus s'accorder sur la dignité humaine de l'autre parce que l'algorithme a rendu sa déshumanisation rentable, alors le « monde commun » cher à Arendt s'effondre. La haine devient la norme de l'espace public, rendant toute cohabitation démocratique impossible.
L'algorithme comme organisateur logistique : le cas du Royaume-Uni “La liberté d'opinion est une farce si l'information factuelle n'est pas garantie.” Arendt, Vérité et politique

L’illustration la plus tragique de ce glissement réside dans les émeutes raciales du Royaume-Uni à l’été 2024. Ici, l’algorithme n’est plus seulement un diffuseur, il devient l'organisateur logistique de la violence.

Tout part d'une étincelle de désinformation après l'attaque de Southport. Sous l'effet de la réduction des équipes de fact-checking, ce mensonge n'est pas freiné. Au contraire, le système de « flux » privilégie cette nouvelle pour son potentiel d'indignation massive. En quelques heures, une réalité parallèle incendiaire est créée. La plateforme agit alors comme un multiplicateur de force : l’algorithme de recommandation peut contribuer à la formation, sans intervention humaine, des foules devant des mosquées ou des hôtels de réfugiés.

Elle devient alors une infrastructure facilitant l'instabilité civile C’est ici que la fenêtre d'Overton finit sa course : après avoir rendu le discours haineux acceptable en ligne, les plateformes l'ont rendu physiquement praticable. Lorsque Elon Musk affirme que « la guerre civile est inévitable », il valide la logique de violence que ses propres algorithmes organisent. Le monde commun est piétiné : deux populations ne partagent plus la même réalité. La plateforme n'est plus un réseau social, elle est devenue l'infrastructure d'une insurrection.

Partie III — Le Coût Humain : Silence, Désolation et Impunité

La « Peur de la Meute » et l'Autocensure « Personne ne peut être libre s'il n'a pas accès au domaine public, personne ne peut être libre s'il n'est pas assuré d'un espace où il puisse apparaître et agir. » Hannah Arendt, La Condition de l'homme moderne (1958).

L’effet paradoxal de l’assouplissement de la modération est qu’il ne favorise pas la liberté d’expression, mais le silence. En laissant le champ libre à l’agressivité, les plateformes déclenchent un « effet de gel » (chilling effect). Un chiffre clé illustre cette réalité : 77 % des utilisateurs déclarent s’autocensurer ou se retirer totalement d’une discussion dès qu’ils perçoivent une montée de l'agressivité. Cette donnée est relatée dans l'enquête de janvier 2025 menée par l’institut Orygen, intitulée Digital Silence: The Cost of Under-Moderation on Youth Public Discourse (Le silence numérique : le coût de la sous-modération sur le discours public des jeunes).

Sur 10 000 jeunes interrogés (15-24 ans), 77 % affirment avoir déjà renoncé à poster un commentaire, à donner leur avis ou à participer à un débat politique par peur des retours agressifs ou du harcèlement ciblé. Pour Hannah Arendt, l’espace public ne peut exister que s’il est un lieu de sécurité où l’on peut se montrer tel que l’on est. Ici, il devient un « espace fantôme ». La liberté d’expression est étouffée par l’agressivité autorisée : la parole n'est plus un échange, mais une prise de risque. Lorsque la "meute" est protégée par l'absence de sanctions, la majorité disparaît pour se protéger. Le débat ne s'élargit pas : il se vide de ses voix les plus modérées.
La Désolation Numérique et l'Impact Psychologique Au-delà de l'autocensure, la faiblesse de la modération a un coût sanitaire direct. L'enquête Orygen (2025) révèle un lien de corrélation entre l'exposition à des espaces numériques « non gérés » et la dégradation de la santé mentale des jeunes.
Le chiffre noir : Chaque heure passée sur une plateforme à faible modération (comme X) augmenterait le risque de symptômes dépressifs de 13 % chez les 15-24 ans.

Le diagnostic : Ce n'est pas seulement le contenu qui blesse, c'est l'environnement global. Orygen qualifie cet état de « désolation numérique » : un sentiment de solitude absolue face à une violence gratuite et permanente que plus personne ne vient réguler.
Naviguer dans une « ville sans police » : le sentiment d'injustice Le ressenti final des utilisateurs est celui d'une insécurité systémique. Naviguer sur X ou Méta aujourd'hui s'apparente à traverser une ville sans police. Le sentiment d'injustice est nourri par l'impunité : voir un agresseur récompensé par l'algorithme (gain de visibilité) tandis que le signalement de la victime est ignoré crée une rupture du contrat social numérique.

Cette impunité ne se limite plus aux insultes politiques ; elle s'étend désormais à la diffusion de contenus à caractère pornographique non consentis. Une enquête de 2024 a mis en lumière l'existence de vastes groupes Facebook, comptant parfois des dizaines de milliers de membres, dédiés au partage de photos et vidéos intimes volées ou détournées, souvent via l'usage de l'intelligence artificielle. Ce qui choque ici, ce n'est pas seulement l'existence de ces groupes, mais l'inertie de la modération. Malgré des milliers de signalements précis, ces communautés ont mis des mois à être supprimées, la plateforme jugeant souvent que les images « ne violaient pas les standards de la communauté » sous prétexte qu'elles ne montraient pas de nudité intégrale un argument technique utilisé pour ignorer la violence des deepfakes ou des photos volées.

Ce laxisme algorithmique crée une double victimisation : L'agression initiale : Le vol et la diffusion de l'image. L'abandon institutionnel : Le refus de la plateforme de supprimer le contenu, ce qui permet à l'agression de se poursuivre en boucle. Ce sentiment d'impunité totale, désormais ressenti par 92 % des victimes, ne génère pas seulement de la tristesse, mais une colère froide et un désengagement total vis-à-vis des institutions. L'espace numérique n'est plus un lieu de connexion, mais un terrain de chasse où l'agresseur bénéficie de la passivité du système.

C'est l'exemple type de ce que nous appelons la « désolation numérique » : une souffrance réelle qui se heurte au silence d'une modération automatisée et déshumanisée. En choisissant de réduire la régulation, les plateformes n'ont pas créé une agora libre ; elles ont bâti un espace de désolation où la loi du plus fort devient la seule règle, transformant l'utilisateur en une proie permanente et érodant, petit à petit, l'idée même de justice.

Conclusion : Vers une désolation programmée ?

Notre constat est donc sans appel : l’assouplissement de la modération sur des plateformes comme X et Meta ne constitue pas une victoire pour la liberté d’expression, mais un changement radical de modèle économique et social. En passant d'un rôle de « gardien » (filtre) à un rôle de « gestionnaire de flux », les plateformes ont intégré la haine et l'indignation comme des moteurs d'engagement rentables. C’est la différence entre un tamis et une passoire, si l’on veut le vulgariser. Là où le tamis retient les impuretés pour préserver la qualité du débat, la passoire élargit délibérément ses mailles pour maximiser le débit du flux, laissant passer les contenus les plus toxiques car ils sont mécaniquement les plus rentables.

Nous avons démontré comment ce choix technique se traduit par une institutionnalisation de la haine. En déplaçant la fenêtre d'Overton, les réseaux sociaux ont rendu l'insulte, la désinformation climatique et les discours déshumanisants acceptables, voire populaires. Cette banalisation, analysée à travers le prisme d'Hannah Arendt, ne reste pas confinée au virtuel : elle fragilise notre « monde commun » et devient le carburant logistique de violences réelles, transformant l'algorithme en un organisateur de crises civiles, comme l'ont illustré les émeutes au Royaume-Uni en 2024.

Enfin, le coût humain de cette stratégie est celui du silence et de l'insécurité. Qu'il s'agisse du harcèlement politique ou de l'industrie de l'humiliation dans les groupes Facebook, l'impunité systémique condamne 77 % des utilisateurs à l'autocensure. La liberté d'expression meurt paradoxalement sous le poids d'une agressivité autorisée, laissant place à une « désolation numérique » où l'utilisateur n'est plus un citoyen, mais une proie.

Dès lors, une question s'impose : peut-on encore parler d'espaces « sociaux » lorsque l'infrastructure même de nos échanges est programmée pour nous diviser au profit du clic ? Si la modération renonce à protéger l'individu pour privilégier la circulation du flux, le défi de 2026 n'est plus seulement technique, il est civilisationnel. Sauver le débat public, c'est avant tout restaurer cet espace où chacun, comme le voulait Arendt, est assuré de pouvoir apparaître et agir en sécurité.

Pour citer cet article

DUGBE, Julia & FURTADO, Ines (2026). La Démission des Gardiens : Quand l'algorithme choisit la haine.. Exploration Contributive. https://lecorpus.fr/numero/atelier-dexploration-contributive-1-20-23-avril-2026/article/la-demission-des-gardiens-quand-lalgorithme-choisit-la-haine/