Blog Cyberjustice - DarkBERT, le ChatGPT du Dark Web

Sujet à la mode, l’intelligence artificielle fait parler d’elle. Ouvrant de nouvelles possibilités et permettant une efficacité accrue, les applications d’intelligence artificielle fleurissent à l’heure actuelle. C’est le cas de nombreux modèles de langage tels que ChatGPT ou Bard qui sont alimentés à l’aide de données issues du web dit « accessible ».

Toutefois, ces modèles seraient-ils aussi efficaces sur le Dark Web où tous les codes sont différents ? C’est pour répondre à ce problème que la société sud-coréenne S2W Inc., spécialisée dans la cybersécurité, a entrepris de créer un modèle de langage uniquement alimenté par des données issues du darkweb : DarkBERT.

Le darkweb, face cachée du web

Le darkweb fait référence à la partie du web à laquelle on ne peut pas directement accéder, mais nécessite de passer par des logiciels spécifiques tels que le célèbre Tor (« The Onion Router », en référence aux différentes couches du web). Dès lors, le darkweb représente en quelque sorte la partie immergée de l’iceberg. Plus difficilement accessible, le darkweb effraie en raison de sa grande concentration d’activités illicites. Drogues, armes, images pédopornographiques, informations sensibles, tout se vend et s’achète sur ce web caché.

Sur le darkweb, bien que l’esprit reste similaire à celle du « surface web » (web normalement trouvable), on retrouve un système d’indexation particulier ainsi qu’un langage différent. De plus, les LLM actuels (large language models) sont incapables de bien fonctionner sur le darkweb. C’est pour toutes ces raisons que la société S2W Inc. a choisi de créer la première intelligence artificielle entraînée grâce au darkweb.

DarkBERT peut donc permettre à son utilisateur d’avoir accès à des informations se trouvant sur le darkweb.

L’objectif d’une surveillance accrue du darkweb au service de la cybersécurité

Le DarkBERT tire son nom de l’acronyme « Bidirectional Encoder Representations from Transformers » (BERT), projet lancé par Google en 2018 pour comprendre le sens d’un mot en analysant ceux présents avant et après.

On pourrait donc naturellement s’interroger sur le degré de dangerosité d’un tel outil au regard du panel d’activités illégales qui se trouvent sur le darkweb. En raison d’une particulière méfiance de l’opinion publique, à la fois sur l’intelligence artificielle et sur le darkweb, mélanger les deux ensemble apparaît risqué. Cependant, l’objectif de la société S2W Inc. s’inscrit parfaitement dans une démarche d’amélioration de la cybersécurité.

En effet, le but recherché par DarkBERT est d’agir comme un agent infiltré au sein du darkweb. Du fait du gros volume de données ayant servi au développement de l’outil, ce dernier est en mesure de réaliser « des tâches liées à la cybersécurité telles que la détection de discussions sur le darkweb et la détection de ransomwares ou de fuites », comme l’indique le rapport de recherche de DarkBERT.

Un fonctionnement différent de ChatGPT

ChatGPT a été entraîné pour prédire le mot suivant dans une conversation. Ceci permet donc à l’outil de pouvoir interagir avec des utilisateurs humains puisqu’il a pu apprendre leur façon de s’exprimer. L’objectif de DarkBERT est un peu différent puisqu’il cherche quant à lui à prédire la présence de certains mots spécifiques, que l’on ne retrouve que dans le darkweb. De ce fait, DarkBERT est capable de s’adapter au darkweb là où ChatGPT en serait incapable. Cependant, il est à noter que cela s’applique aussi aux autres modèles de langage tels que BARD de Google, Chinchilla de DeepMind ou LLaMA de Meta.

Pour mettre en place DarkBERT, la société S2W Inc. a fonctionné en suivant plusieurs étapes. Tout d’abord, les chercheurs ont entrepris une collecte de données issues du darkweb. Ce sont 10GB de données qui ont été extraites, équivalentes à 6 millions de pages web, composées à la fois de données brutes et pré-traitées. Pour ce faire, c’est une intelligence artificielle de traitement automatique du langage naturel (NLP) qui a été utilisée afin d’interpréter du texte et des données.

Puis, un filtrage a été opéré afin de ne conserver que du texte pertinent. En effet, l’idée n’était pas d’alimenter DarkBERT avec des données sensibles et illicites. Par conséquent, seules les données textuelles ont été conservées, permettant d’ôter tous les contenus non-éthiques tels que des images ou vidéos à contenu pédopornographique.

Un outil encore trop sensible pour une utilisation grand public

Le projet permet pour le moment à la société S2W Inc. d’accompagner leurs clients en matière de cybersécurité et n’est donc pas accessible au grand public. Par ailleurs, il est précisé dans la publication scientifique (DarkBERT: A Language Model for the Dark Side of the Internet) « nous prévoyons de ne publier que la version prétraitée de DarkBERT afin d’éviter toute mauvaise pratique une fois le modèle rendu public ».

De plus, étant uniquement fonctionnel en anglais à l’heure actuelle, les chercheurs n’excluent pas un DarkBERT « polyglotte » capable de sonder le darkweb en différentes langues.

C’est donc une réelle avancée qui a été faite dans l’intelligence artificielle et le darkweb. Il s’agit donc pour l’instant d’attendre les développements de DarkBERT et peut-être la sortie d’une version publique. Toutefois, les risques de dérives restent élevés.

Léonard Simoens
M2 Cyberjustice – Promotion 2023/2024

Sources :

https://arxiv.org/pdf/2305.08596.pdf

https://s2wjapan.com/en_darkbert/

https://youtu.be/8uzCkKRL7N4

https://medium.com/s2wblog/part1-getting-to-know-darkbert-a-language-model-for-the-dark-side-of-the-internet-7c4c178faf3d

https://www.numerama.com/tech/1380868-le-modele-dia-darkbert-est-entraine-avec-les-recoins-les-plus-sombres-dinternet.html

https://www.01net.com/actualites/voici-darkbert-chatgpt-dark-web.html