Google utilise d'anciennes actualités et de grands modèles pour résumer les nouvelles méthodes de prévision des crues éclair

Les crues soudaines sont l’une des catastrophes météorologiques les plus meurtrières au monde, tuant plus de 5 000 personnes chaque année. Cependant, ils ont longtemps été difficiles à prédire avec précision en raison de leur apparition rapide, de leur faible portée et de leur courte durée. Face à ce problème, la nouvelle réponse de Google est de « laisser l’IA lire les reportages ».

La surveillance météorologique traditionnelle a accumulé une grande quantité de données telles que la température, les précipitations et le débit des rivières. Cependant, pour les crues éclair soudaines et extrêmement fortes, les humains ne disposent pas d’enregistrements d’observation aussi complets et continus que les autres éléments météorologiques. Cela a conduit au fait que même si l'apprentissage profond devient de plus en plus puissant dans le domaine de la prévision météorologique, il n'a pas été en mesure de fournir le même niveau de performance en matière de prévision des crues soudaines, car il manque suffisamment de données à « valeur réelle » pour entraîner le modèle.

Pour combler cette lacune en matière de données, l'équipe de recherche de Google a utilisé son grand modèle de langage Gemini pour filtrer environ 5 millions de reportages d'actualité du monde entier, identifier et extraire automatiquement environ 2,6 millions d'événements d'inondation différents, puis convertir ces rapports textuels en un ensemble de données séquentielles « Groundsource » avec des balises temporelles et géographiques. Gila Loike, responsable des produits de recherche chez Google, a déclaré que c'était la première fois que l'entreprise utilisait un grand modèle de langage pour réaliser ce type de travail de construction de données quantitatives. Les résultats de recherche et les ensembles de données pertinents ont été rendus publics tôt jeudi matin.

Après avoir obtenu cette « référence du monde réel », les chercheurs ont formé un nouveau modèle de prévision des crues soudaines basé sur un réseau neuronal à mémoire à long terme et à court terme (LSTM), lui permettant d'entrer des données de prévisions météorologiques mondiales et de produire la probabilité de crues soudaines dans une zone spécifique. Actuellement, le modèle de prévision des crues éclair de Google a fourni des conseils sur les risques pour les zones urbaines de 150 pays sur sa plateforme Flood Hub et a ouvert les données à de nombreuses agences de gestion des urgences à travers le monde. António José Beleza, responsable des interventions d'urgence à la Communauté de développement de l'Afrique australe (SADC), a déclaré lors d'un essai avec Google que le modèle avait aidé son équipe à réagir plus rapidement aux inondations.

Cependant, ce système présente encore des limites évidentes. D'une part, sa résolution spatiale est relativement faible et il ne peut actuellement fournir une évaluation des risques qu'à une échelle d'environ 20 kilomètres carrés ; d’autre part, comme il n’intègre pas de données de surveillance des précipitations en temps réel telles que celles d’un radar local, sa précision n’est pas aussi précise que celle du système d’alerte aux inondations existant du National Weather Service aux États-Unis.

Google a souligné que l'une des intentions initiales de ce projet était de jouer un rôle dans le développement de zones dépourvues d'infrastructures d'observation météorologique coûteuses et ne disposant pas d'enregistrements météorologiques à long terme. En regroupant des millions de reportages d'actualité du monde entier, l'ensemble de données Groundsource « rééquilibre la carte » à un degré qui permet aux modèles d'extrapoler des prédictions à des zones où les données sont autrement rares. Juliet Rothenberg, responsable de programme au sein de l'équipe de résilience de Google, a déclaré que cette approche permettait à l'équipe de couvrir des domaines où les informations manquaient auparavant cruellement.

Rothenberg a également déclaré que l'idée d'utiliser de grands modèles linguistiques pour convertir des récits textuels en données quantitatives structurées ne se limite pas aux crues éclair. À l’avenir, des technologies similaires devraient être utilisées pour constituer des ensembles de données sur des phénomènes naturels tout aussi éphémères mais extrêmement importants, tels que les vagues de chaleur et les coulées de boue, fournissant ainsi une base pour la prévision de catastrophes météorologiques et géologiques plus extrêmes.

Selon des experts du secteur, la tentative de Google constitue une étape importante dans la promotion du développement de prévisions météorologiques par apprentissage profond grâce à une collecte de données créative. Marshall Moutenot, PDG d'Upstream Tech, une entreprise qui utilise également l'apprentissage profond pour prédire le débit des rivières pour des clients tels que des sociétés hydroélectriques, a souligné que le domaine actuel des sciences de la Terre est confronté au problème persistant de la « rareté des données » : d'une part, les données d'observation de la Terre sont extrêmement complexes, et d'autre part, il existe très peu de « valeurs de vérité » de haute qualité qui peuvent être utilisées pour calibrer et valider les modèles. Moutenot est également co-fondateur de Dynamical.org, une organisation dédiée à l'organisation d'ensembles de données météorologiques pour les chercheurs et les startups pouvant être directement utilisés en apprentissage automatique. Il estime que le travail de Google est un exemple typique d’obtention de données précieuses grâce à des « méthodes très créatives ».