vx-underground, une équipe de recherche qui prétend posséder la plus grande collection de codes sources de malwares au monde, a récemment publié sur la plateforme sociale X que la quantité totale de données de malwares qu'elle enregistre actuellement est d'environ 30 To (téraoctets). Peu de temps après, Bernardo Quintero, fondateur du service d'analyse antivirus multimoteur en ligne VirusTotal, a déclaré dans une réponse que le nombre total d'échantillons de logiciels malveillants soumis à VirusTotal par les utilisateurs au fil des ans avait atteint environ 31 pétaoctets (pétaoctets). Selon les conversions couramment utilisées, un pétaoctet équivaut approximativement à mille téraoctets, ce qui signifie que l'échelle des données des deux a largement dépassé l'imagination intuitive des utilisateurs ordinaires.

Les entreprises de cybersécurité, les chercheurs en intelligence artificielle et les agences de renseignement sur les menaces considèrent généralement ce type de bibliothèque d'échantillons de logiciels malveillants comme des données de base clés pour entraîner les modèles de détection, étudier l'évolution des techniques d'attaque et analyser les nouvelles menaces. Cependant, lorsque ces données, souvent mesurées en téraoctets et pétaoctets, sont résumées en chiffres, il est souvent difficile de trouver une référence dans le monde physique quant à leur « taille ». Par conséquent, quelqu'un a soulevé une question plutôt graphique : si toutes ces données sont stockées sur un disque dur traditionnel et empilées une par une, à quelle hauteur ces « banques de logiciels malveillants » peuvent-elles être empilées ? Comment se compare-t-il aux bâtiments emblématiques du monde réel ?
Un journaliste de TechCrunch a essayé de poser cette question à un chatbot IA dans la salle de rédaction, mais la réponse qu'il a obtenue était « si scandaleuse qu'elle était si incroyable » qu'il a dû abandonner. L'équipe éditoriale a donc opté pour la méthode la plus directe : prendre un stylo et du papier et faire quelques "calculs approximatifs sur le dos d'une serviette" basés sur le bon sens. Considérant que vx-underground et VirusTotal décrivent leur volume de données en termes « d'environ TB/PB », le journaliste a également suivi cette approche « approximative ».
Afin de permettre aux lecteurs de se forger une idée intuitive, le journaliste suppose qu'un disque dur mécanique de bureau standard de 1 To de 3,5 pouces est utilisé - ce type de disque dur a fondamentalement la même taille physique pour s'adapter à un châssis général, avec une hauteur d'environ 1 pouce (environ 2,54 cm). Dans ce principe, il suffit de prêter attention à la dimension de « hauteur » pour simuler l'effet de « soulever le disque dur un par un ». L'article ignore également la différence entre la capacité nominale et la capacité disponible du disque dur en utilisation réelle, et la calcule directement sur la base du 1 To nominal pour simplifier la déduction.
Selon les résultats d'un outil de conversion d'unités de stockage en ligne, vx-underground revendique environ 30 To de données malveillantes, ce qui équivaut à peu près à la capacité de 30 disques durs de 1 To. Si ces 30 disques durs étaient empilés de bas en haut, ils mesureraient environ 30 pouces de hauteur, soit environ 2,5 pieds (moins de 1 mètre). L'auteur de l'article a utilisé sa propre taille comme comparaison. Comparée à sa hauteur de 6 pieds (environ 1,83 mètres), une telle pile de disques durs ressemble davantage à une petite boîte empilée à ses pieds.
Lorsque la perspective se tourne vers VirusTotal, cette comparaison se produit immédiatement un « saut d’ampleur ». En convertissant le volume total de 31 Po, environ 31 744 disques durs de 1 To sont nécessaires pour l'accueillir entièrement. Si la même méthode "empilée verticalement" est utilisée, la hauteur théorique de cette "tour de données" composée de disques durs atteindra environ 2 645 pieds (environ 806 mètres). Sur la liste mondiale des bâtiments les plus hauts, cette hauteur se rapproche déjà de celle du Burj Khalifa, le plus haut bâtiment du monde à Dubaï, qui mesure environ 2 722 pieds (environ 829 mètres).
En d’autres termes, si l’on considère l’échantillon de malware de VirusTotal comme une colonne entièrement composée de disques durs, sa hauteur n’est que de moins de 80 pieds plus courte que celle du Burj Khalifa, ce qui est suffisant pour rivaliser avec l’horizon de cette « ville verticale ». Le journaliste a également choisi une autre référence emblématique : la Tour Eiffel à Paris, qui mesure environ 1 083 pieds (environ 330 mètres) de hauteur. Selon une estimation approximative présentée dans cet article, la quantité d'échantillons de logiciels malveillants actuellement accumulés par VirusTotal équivaut à peu près à une pile de disques durs aussi haute que « deux tours Eiffel et demie ».
TechCrunch a distribué un diagramme schématique de visualisation d'informations dans le rapport, disposant plusieurs objets de référence horizontalement de haut en bas en fonction de la hauteur. De gauche à droite : le Burj Khalifa, mesurant environ 2 722 pieds de haut ; la « tour de données » de disques durs VirusTotal d'environ 2 645 pieds de haut ; le One World Trade Center, d'environ 1 792 pieds de haut ; la Tour Eiffel d'environ 1 083 pieds de haut ; le journaliste mesurant 6 pieds lui-même ; et une petite pile de disques durs, mesurant seulement environ 2,5 pieds de haut, représentant les 30 téraoctets de données de vx-underground. Grâce à cet arrangement, les lecteurs peuvent clairement ressentir l'énorme écart de taille des données entre les différentes « banques de logiciels malveillants ».
Le rapport souligne enfin que ces bibliothèques d'échantillons de logiciels malveillants d'une taille incroyablement grande ne sont pas seulement des « nécessités » pour la recherche en matière de sécurité, mais qu'elles représentent également de manière invisible l'ombre immense de la situation actuelle des menaces sur les réseaux. Lorsque les sociétés de sécurité et les chercheurs recherchent, étiquetent et modélisent ces piles de données, ils se lancent en réalité dans une course contre des « tours invisibles » pour découvrir le plus tôt possible les indices de la prochaine vague d'attaques.