Le « Projet Gutenberg » utilise la technologie neuronale de synthèse vocale pour publier 5 000 livres audio gratuits

Les livres audio ont explosé en popularité ces dernières années en raison de leur lisibilité, mais l’enregistrement de livres audio est difficile et coûteux. Récemment, des chercheurs ont démontré une méthode automatisée utilisant la synthèse vocale qui résout de nombreux problèmes rencontrés par la technologie et permet aux utilisateurs ordinaires de produire des livres audio. Désormais, les lecteurs peuvent écouter gratuitement des milliers de livres audio littéraires classiques et d’autres documents du domaine public via le Projet Gutenberg. Des chercheurs de Microsoft et du MIT ont créé la collection en numérisant les livres à l'aide d'un logiciel de synthèse vocale.

Ces textes comprennent des œuvres de Shakespeare, Agatha Christie, Jane Austen, Léonard de Vinci et d'autres. Les utilisateurs peuvent écouter sur InternetArchive, Spotify, ApplePodcasts et GooglePodcasts :

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

Le code utilisé pour créer la collection de livres audio est disponible sur GitHub :

https://github.com/microsoft/SynapseML

Apple a commencé à vendre des livres audio en janvier de cette année en utilisant la technologie de synthèse vocale automatique. Cependant, cette tentative a suscité le scepticisme de la part de l'establishment littéraire, qui critique les objectifs commerciaux d'Apple, et des doubleurs qui dispensent des formations à l'intelligence artificielle de l'entreprise. L'approche de Gutenberg peut susciter des réactions mitigées car elle est open source et n'a aucun but lucratif.

Le projet Gutenberg a passé des décennies à créer un référentiel de littérature libre au format texte largement disponible gratuitement, mais les livres audio peuvent rendre ce matériel plus accessible. Les livres audio sont utiles pour les lecteurs qui conduisent, effectuent plusieurs tâches à la fois, sont malvoyants, apprennent à lire ou apprennent une nouvelle langue.

Produire des livres audio à l’aide de méthodes traditionnelles implique de consacrer du temps et de l’argent à ce que quelqu’un lise le livre en entier. Il n'est pas rentable d'enregistrer manuellement une version audio de chaque livre qui mérite d'être lu. La technologie de synthèse vocale était mieux adaptée au projet Gutenberg. Cependant, les chercheurs sont confrontés à de nombreux obstacles avec leurs outils d’apprentissage automatique.

La première et la plus importante question consiste à déterminer quels livres numériques le logiciel peut analyser. Le projet Gutenberg collecte des documents dans une variété de formats, et de nombreux fichiers contiennent des erreurs ou des analyses imparfaites. Les chercheurs se sont donc concentrés sur les livres stockés au format de fichier HTML et ont construit un outil (photo ci-dessus) pour découvrir quels éléments affichaient un format similaire.

Un autre problème auquel les chercheurs ont répondu était de s'assurer que le système savait quel texte lire ou ignorer. Il implique des éléments tels que la table des matières, les numéros de page, les notes de bas de page, les tableaux et autres éléments superflus.

De plus, le résultat doit être suffisamment proche de la parole humaine naturelle. Les chercheurs se sont concentrés sur les expressions vocales qui fonctionnent le mieux pour la non-fiction et la narration, mais les utilisateurs peuvent également modifier le logiciel pour expérimenter des lectures dramatiques.

Les chercheurs prévoient d'organiser une démonstration qui permettra aux utilisateurs de générer des livres audio avec leur propre voix. Après avoir enregistré quelques phrases pour entraîner l’algorithme, chaque participant pouvait en écouter un extrait avant de laisser le logiciel lire l’intégralité du livre. Ils recevront également une copie du livre audio par e-mail. Les utilisateurs peuvent choisir parmi des voix synthétisées pour personnaliser chaque livre audio.

accéder:

Alibaba Cloud - Des bons universels jusqu'à 1888 yuans disponibles immédiatement