Modération et système de filtrage

20 août 2010   //   par atchikservices    //  Pas de commentaires

filtrage_moderation
Comme dans tous les domaines professionnels, la veille des espaces communautaires n’a pas échappé au fantasme de remplacer totalement l’Homme par la Machine.
Devant les risques encourus, les éditeurs de contenus postés par l’internaute ont rapidement cherché des moyens automatiques de limiter les débordements (insultes, racisme, spam, etc.) avec plus ou moins de réussite.
De l’effacement pur et simple des mots problématiques aux techniques les plus sophistiquées d’analyse, comme nous l’expliquera Raphael, architecte logiciel chez Atchik Services, la modération automatique de contenu textuel n’a cessé d’évoluer et connaît actuellement sa révolution.
 
Le précurseur de la modération automatique est le caviardage automatique, étymologiquement issu de caviar, car le texte censuré devient rempli de points noirs, comme des œufs d’esturgeon. Cette technique, toujours utilisée, permet de dissimuler automatiquement des associations de lettres, des mots, des groupes de mots etc. préalablement enregistrés dans la machine : une fois un contenu détecté par la machine, celui-ci est remplacé par des … des ***** ou encore des _______
C’est le caviardage automatique.
 
Ce système, à l’image de nombreux modes de filtrage par mot ou lettres, a rapidement montré ses limites. Un « Espèce de gros c** » n’échappe à personne et caviarder le mot « nègre » n’est pas toujours pertinent. Pauvre Aimé Césaire et sa négritude…
Cela dit, que le mot « nègre » soit caviardé automatiquement pour éviter les messages racistes, pourquoi pas, mais encore faudrait-il que le contexte soit étudié !
 
Cet impératif est au cœur des problématiques des développeurs d’Atchik Services. Raphaël nous en dit un peu plus :
 
« Dans le cadre d’une prise en compte plus large du contexte, nous travaillons à un système d’apprentissage automatique des décisions de modération humaines pour les réappliquer sur des textes similaires à ceux déjà rencontrés.
 

Cet apprentissage supervisé par des experts permet de garder une base de connaissances à jour face à l’évolution constante du langage et des moyens de contournement que les utilisateurs mal intentionnés mettent en place.
 

La mixité automatique/manuelle du système en fait sa force car la compréhension, par la machine, du sens des textes est encore hors de portée mais une part importante (en volume) peut tout à fait être traitée automatiquement. Sans en comprendre le sens, de nombreux textes contiennent des éléments pouvant mener à un refus de publication. A l’inverse, de nombreux textes peuvent être marqués comme acceptables au vu des mots qui les composent sans pour autant en comprendre le sens. En cas de doute le texte est revu par un humain.

 

L’imperfection inhérente à tout système est contrôlée par des moyens statistiques et des tests en aveugles pour s’assurer qu’aucun décalage ne se produit entre les résultats attendus et ceux fourmis par le système au cours du temps. »
 
A l’image de la robotique, où la recherche a permis de passer des automates aux androïdes, les avancées en programmation feront rapidement évoluer le basique caviardage vers une modération automatique intelligente. C’est cet angle que choisit Atchik Services dans le cadre de ses développements sans pour autant se passer de l’Homme, irremplaçable. Une association intelligente de l’homme et de la machine : la machine pour simplifier le travail de la modération humaine et l’homme pour palier les limites du système, ceci afin d’offrir à nos clients la meilleure qualité de modération possible.


Articles Liés


Laissez un commentaire

* Champs obligatoire

logo moderation atchik-services
Derniers Tweets