Ce grand modèle de langage a été formé sur le dark web pour évaluer les menaces de cybersécurité. Voici ce que vous devez savoir.
La popularité des grands modèles linguistiques (LLM) est en plein essor, et de nouveaux modèles entrent continuellement en scène. Ces modèles, comme ChatGPT, sont généralement formés sur diverses sources Internet, notamment des articles, des sites Web, des livres et des médias sociaux.
Dans un mouvement sans précédent, une équipe de chercheurs sud-coréens a développé DarkBERT, un LLM formé sur des ensembles de données extraits exclusivement du dark web. Leur objectif était de créer un outil d'IA qui surpasse les modèles de langage existants et aide les chercheurs sur les menaces, les forces de l'ordre et les professionnels de la cybersécurité à lutter contre les cybermenaces.
Qu'est-ce que DarkBERT?
DarkBERT est un modèle d'encodeur basé sur un transformateur basé sur l'architecture RoBERTa. Le LLM a été formé sur des millions de pages Web sombres, y compris des données provenant de forums de piratage, de sites Web d'escroquerie et d'autres sources en ligne associées à des activités illégales.
Le terme "Dark Web" fait référence à une section Internet cachée inaccessible via les navigateurs Web standard. La sous-section est réputée pour héberger des sites Web et des marchés anonymes tristement célèbres pour leurs activités illégales, telles que le commerce de données volées, de drogues et d'armes.
Pour former DarkBERT, les chercheurs ont acquis accès au dark web via le réseau Tor et collecté des données brutes. Ils ont soigneusement filtré ces données à l'aide de techniques telles que la déduplication, l'équilibrage des catégories et le prétraitement pour créer une base de données Web sombre raffinée, qui a ensuite été transmise à RoBERTa pendant environ 15 jours pour créer DarkBERT.
Utilisations possibles de DarkBERT dans la cybersécurité
DarkBERT a une compréhension remarquable du langage des cybercriminels et excelle dans la détection de menaces potentielles spécifiques. Il peut effectuer des recherches sur le dark web et identifier et signaler avec succès les menaces de cybersécurité telles que les fuites de données et les ransomwares, ce qui en fait un outil potentiellement utile pour lutter contre les cybermenaces.
Pour évaluer l'efficacité de DarkBERT, les chercheurs l'ont comparé à deux modèles NLP renommés, BERT et RoBERTa, évaluant leurs performances dans trois cas d'utilisation cruciaux liés à la cybersécurité, la recherche, Posté sur arxiv.org, indique.
1. Surveiller les forums du Dark Web pour détecter les fils de discussion potentiellement dangereux
La surveillance des forums du dark web, qui sont couramment utilisés pour échanger des informations illicites, est cruciale pour identifier les fils de discussion potentiellement dangereux. Cependant, les examiner manuellement peut prendre du temps, ce qui rend l'automatisation du processus bénéfique pour les experts en sécurité.
Les chercheurs se sont concentrés sur les activités potentiellement dommageables dans les forums de piratage, en élaborant des directives d'annotation pour les fils de discussion remarquables, y compris le partage de données confidentielles et la distribution de logiciels malveillants critiques ou vulnérabilités.
DarkBERT a surpassé les autres modèles de langage en termes de précision, de rappel et de score F1, devenant le meilleur choix pour identifier les fils de discussion remarquables sur le dark web.
2. Détecter les sites qui hébergent des informations confidentielles
Les pirates et les groupes de rançongiciels utilisent le dark web pour créer des sites de fuite, où ils publient des données confidentielles volées à des organisations qui refusent de se conformer aux demandes de rançon. D'autres cybercriminels téléchargent simplement des données sensibles divulguées, comme des mots de passe et des informations financières, sur le dark web avec l'intention de les vendre.
Dans leur étude, les chercheurs ont recueilli des données de groupes de rançongiciels notoires et analysé les sites de fuites de ransomwares qui publient les données privées des organisations. DarkBERT a surpassé les autres modèles de langage dans l'identification et la classification de ces sites, démontrant sa compréhension du langage utilisé dans les forums de piratage clandestins sur le dark web.
DarkBERT exploite la fonction de masque de remplissage, une caractéristique inhérente aux modèles de langage de la famille BERT, pour identifier avec précision les mots-clés associés à des activités illégales, y compris les ventes de drogue sur le dark web.
Lorsque le mot "MDMA" était masqué dans une page de vente de médicaments, DarkBERT générait des mots liés à la drogue, alors que d'autres modèles suggéraient des mots généraux et des termes sans rapport avec la drogue, comme diverses professions.
La capacité de DarkBERT à identifier des mots clés liés à des activités illicites peut être précieuse pour suivre et traiter les cybermenaces émergentes.
DarkBERT est-il accessible au grand public?
DarkBERT n'est actuellement pas accessible au public, mais les chercheurs sont ouverts aux demandes d'utilisation à des fins académiques.
Exploitez la puissance de l'IA pour la détection et la prévention des menaces
DarkBERT a été pré-formé sur les données du dark web et surpasse les modèles de langage existants dans de multiples cas d'utilisation de la cybersécurité, se positionnant comme un outil crucial pour faire avancer la recherche sur le dark web.
L'IA formée au dark web a le potentiel d'être utilisée pour diverses tâches de cybersécurité, y compris l'identification de sites Web vendant des fuites données confidentielles, surveiller les forums du dark web pour détecter le partage d'informations illicites et identifier les mots-clés liés à la cyber des menaces.
Mais vous devez toujours vous rappeler que, comme les autres LLM, DarkBERT est un travail en cours et que ses performances peuvent être améliorées grâce à une formation continue et à des ajustements.