La plateforme AI Studio de Google teste un modèle d'IA sans nom et a réalisé d'importants progrès dans le déchiffrement des manuscrits historiques illisibles. Le taux d'erreur du modèle dans la reconnaissance des caractères principaux n'est que de 0,56 % et sa précision est proche du niveau des chercheurs professionnels dans ce domaine.
L'historien Mark Humphries a mené une évaluation systématique du modèle à l'aide d'un ensemble de données de référence spécialement conçu. Dans les cinq manuscrits difficiles des XVIIIe et XIXe siècles couverts par le test, le taux d'erreur de caractères global du modèle était d'environ 1,7 %. La plupart des erreurs concernaient des problèmes non essentiels tels que les spécifications de ponctuation et de majuscules, et n'affectaient pas la reconnaissance correcte des mots eux-mêmes.
Si ces erreurs non critiques sont exclues, le taux d'erreur de caractère du modèle peut être encore réduit à 0,56 %, ce qui équivaut à une seule erreur de fond pour 200 caractères transcrits. Ses performances sont déjà comparables à celles des professionnels qui se concentrent sur la translittération de documents.
Les manuscrits du test couvrent un large éventail de styles d'écriture, y compris des situations complexes telles qu'une écriture manuscrite illisible, une orthographe non standard et une grammaire incohérente, vérifiant pleinement la forte adaptabilité du modèle.Ce qui est plus remarquable, c'est que ce modèle peut non seulement compléter la transcription de textes, mais également démontrer certaines capacités de raisonnement contextuel.
Par exemple, lors du traitement du journal d'un marchand du XVIIIe siècle, le modèle a rencontré un enregistrement d'achat de sucre de « 145 » sans étiquette d'unité. En vérifiant le total du compte et en le combinant avec les systèmes de monnaie britannique et d'unités de poids de l'époque, il a réussi à en déduire que le chiffre représentait « 14 livres 5 onces ».
Humphries a également souligné que l’évaluation actuelle présente encore certaines limites. Ce modèle n’apparaissant que sporadiquement sous forme de tests A/B, il est difficile de procéder à une vérification systématique à grande échelle. Actuellement, seulement 10 % environ des échantillons de l’ensemble de données de référence ont été évalués.
