Cette semaine, AICopilot dans le navigateur Microsoft Edge a ajouté une fonctionnalité qui génère des résumés de texte vidéo. Mais comme l'explique Mikhail Parakhin, PDG de Microsoft Advertising and Network Services, les fonctionnalités permettant de gagner du temps d'EdgeCopilot sont encore assez limitées et ne fonctionnent qu'avec des vidéos prétraitées ou des vidéos sous-titrées.
"Pour que cela fonctionne, nous devons prétraiter la vidéo. Si la vidéo a des sous-titres, nous pouvons toujours la restaurer ; s'il n'y a pas de sous-titres et que nous ne l'avons pas prétraité, alors cela ne fonctionnera pas", a écrit Parakhin.
En d’autres termes, EdgeCopilot lui-même n’est pas tant une vidéo récapitulative qu’une transcription résumant la vidéo. Copilot peut également exécuter des fonctions similaires dans Microsoft 365, notamment la synthèse des réunions vidéo Teams et des appels des agents du service client. Dans les deux cas, l'audio doit d'abord être transcrit par Microsoft. Copilot sur Microsoft Stream peut également résumer n'importe quelle vidéo, mais encore une fois, l'utilisateur doit générer une transcription écrite.
La conversation a commencé après que le designer Pietro Schirano a publié un enregistrement d'écran d'EdgeCopilot résumant la vidéo YouTube de la bande-annonce de GTAVI. Dans ce cas, Copilot semble avoir parfaitement fait le travail. L'utilisateur dans l'enregistrement appuie sur le bouton « Générer un résumé vidéo » dans la barre latérale de Copilot, et quelques secondes plus tard, Copilot génère un résumé vidéo avec les points clés et les horodatages.
Bien entendu, de nombreuses plateformes, dont YouTube et Vimeo, peuvent générer automatiquement des transcriptions et des sous-titres si l'utilisateur a activé cette fonctionnalité. TheVerge a demandé à Parakhin
Copilot n'est que le dernier exemple de Microsoft affrontant Google (et d'autres) dans une course pour générer une IA générative. Le mois dernier, Google a mis à niveau son chatbot Bard avec une extension YouTube qui lui permet de résumer le contenu vidéo et d'en extraire des informations spécifiques. Cette semaine encore, Google a annoncé une mise à jour majeure de Gemini, mais la mise à jour elle-même a ses problèmes : dans une présentation, les éditeurs de la société ont peut-être dénaturé certaines des capacités de l'IA, et Google ne comprend pas toujours les faits.
Parashin a parlé franchement sur les réseaux sociaux des différentes étapes de développement de Copilot.