Google a récemment ouvert un nouveau vectoriseur de texte multilingue appelé RETVec sur GoogleColab. Ce vectoriseur a été déployé sur Gmail pour améliorer le taux de reconnaissance des emails de spam et de phishing tout en réduisant le taux de faux positifs. Google affirme que RETVec est formé pour résister aux opérations au niveau des caractères, notamment les insertions, les suppressions, les fautes d'orthographe,Homographes, remplacement LEET, etc. Ce modèle est formé sur un nouvel encodeur de caractères qui peut encoder efficacement tous les caractères et mots UTF-8.

Pourquoi former un tel modèle ? Parce que Gmail envoie et reçoit des dizaines de millions d'e-mails chaque jour, et s'il contient différents types de spam, il peut y en avoir des milliards, et les spammeurs contourneront le système de détection de Google, par exemple en utilisant des homographes.

RETVec prend en charge plus de 100 langues et est conçu pour aider à créer une classification de texte plus flexible et plus efficace sur le serveur et l'appareil, tout en étant plus puissant et plus efficace.

Selon les propres statistiques de Google, après avoir appliqué RETVec à Gmail, le taux de détection du spam a augmenté de 38 % par rapport à la référence, le taux de faux positifs a été réduit de 19,4 % et l'utilisation de l'unité de traitement tenseur (TPU) a été réduite de 83 %.

Les ingénieurs de Google affirment que les modèles formés à l'aide de RETVec présentent des vitesses d'inférence plus rapides en raison de leur représentation compacte. Des modèles plus petits peuvent réduire les coûts de calcul et la latence, ce qui est essentiel pour les modèles sur des systèmes et des appareils à grande échelle.

La vectorisation est une méthode de traitement du langage naturel, ou traitement du langage naturel, utilisée pour mapper des mots ou des expressions du vocabulaire aux expressions numériques correspondantes afin d'effectuer une analyse plus approfondie, telle que l'analyse des sentiments, la classification de texte et la reconnaissance d'entités nommées.