L’état des lieux de la recherche audio (Audio Search)

par Gauthier Caizergues | 1 Mar 2021

Temps de lecture : 3 minutes

Dans un récent billet de blog, Google a fourni plusieurs détails sur les tests qu’il conduisait afin de faire de l’audio search une réalité dans les années à venir.

Est-ce qu’il sera un jour possible pour Google de créer un index de contenus audio que les utilisateurs pourront consulter comme des pages web dans leurs résultats de recherche organiques ? A la lecture d’un billet de blog publié par la firme de Mountain View, la recherche audio semble être un chantier délicat à mettre en place. Les résultats des derniers tests établis sont expliqués dans ce billet par Tim Olson de chez KQED, une station de radio de San Francisco avec laquelle Google est partenaire afin de rendre l’audio plus visible dans les résultats de recherche.

👉 Avec l’aide de KUNGFU.AI, entreprise spécialisée d’intelligence artificielle qui fournit de la data, Google et KQED sont en train de lancer plusieurs batteries de tests visant à déterminer comment transcrire le contenu audio rapidement et fidèlement, à la manière de contenus textuels.

Sommaire

La recherche audio : c’est pas gagné

💡 Le principal obstacle rencontré par l’audio search est le fait que le contenu audio doit être converti en texte avant qu’il puisse être indexé et visibles pour des résultats de recherche.

Actuellement, il n’y a pas de manière précise de transcrire avec exactitude un contenu audio afin de le rendre trouvable facilement pour des utilisateurs. La seule façon pour que la recherche audio soit déployée et rendue possible à l’échelle mondiale serait via des transcriptions automatisées des contenus audio vers du texte. En effet, solliciter des transcriptions manuelles de chaque contenu audio requerrait des ressources et des efforts énormes pour les créateurs de contenus !

Tim Olson de la station de radio KQED indique en effet que le degré de précision doit être élevé pour les transcriptions audio, surtout lorsqu’il s’agit de retranscrire le contenu d’une actualité audio (qui passe à la radio) vers un contenu texte. Et même la technologie de reconnaissance vocale automatique Speech-to-Text, qui utilise les technologies d’IA de Google, ne suffit pas pour atteindre ce niveau de précision.

Les limitations de la technologie Speech-to-Text

Google, KQED et KINGFU.AI ont mené des tests visant à appliquer la technologie Speech-to-Text à une série d’actualités audio issues de la radio KQED.

👉 Ces tests ont accouché des résultats mitigés. En effet, l’IA de cette technologie s’est vue limitée au moment d’identifier et comprendre correctement des noms propres se référant à des entités nommées. Bien souvent, les entités nommées ont besoin d’un contexte précis pour être comprises précisément. C’est justement ce contexte que l’IA de Speech-to-Text a du mal à assimiler.

💡 Pour apporter plus de concret, Tim Olson fournit un exemple d’actualités audio de la radio KQED qui contiennent plusieurs entités nommées relatives à la région de la baie de San Francisco. Comme beaucoup de radios de proximité, les actualités locales de la radio KQED sont riches en références locales via des noms propres faisant référence à des sujets, des personnes, des lieux et des entreprises en lien avec la région de San Francisco. Par exemple, les présentateurs radio emploient des acronymes comme « CHP » pour California Highway Patrol et « the Peninsula » pour la péninsule s’étendant de la région de San Francisco jusqu’à San Jose. Ces entités nommées qui prennent un sens bien spécifiques en fonction du contexte géographique ont du mal à être identifiées par l’IA de Speech-to-Text.

Par conséquent, lorsque les entités nommées ne sont pas comprises, l’IA tente de deviner tant bien que mal ce qui est dit. Bien entendu, cela représente une solution non applicable pour la recherche web, car une mauvaise transcription peut changer complètement la signification de ce qui a été dit oralement.

Quelles sont les perspectives ?

L’objectif pour Google et les entreprises de presse est de rendre la recherche audio possible globalement le plus vite possible. En effet, cela constituerait une nouvelle facette de la recherche sur le web, avec une visibilité octroyée à des milliards de contenus pour l’instant peu exposés.

David Stoller, le responsable des partenariats chez Google pour les actualités et la presse, a déclaré que cette technologie sera partagée globalement lorsqu’on son développement aura atteint le niveau d’exigence requis.

Tim Olson déclare également que les modèles de Maching Learning n’apprennent pas de leurs erreurs. D’où la nécessité que l’Humain intervienne pour améliorer la pertinence de ces technologies.

👉 Pour lui, la prochaine étape serait que tous les organes de presse soient investis dans le développement de cette technologie à travers les salles de rédaction qui ajouteraient constamment des feedbacks sur les erreurs communes des transcriptions audio en texte.

L’état des lieux de la recherche audio (Audio Search)

La recherche audio : c’est pas gagné

Les limitations de la technologie Speech-to-Text

Quelles sont les perspectives ?

0 commentaires

Soumettre un commentaire Annuler la réponse

Actualités

Nudges des LLM : comment l’IA oriente les parcours d’achat et ce que cela change pour votre GEO

Tracking server-side et marketing mix modeling : bâtir une mesure marketing robuste en 2026

ROAS Google Ads : comment réduire les dépenses inefficaces et améliorer son retour

Notre expertise

Contactez-nous