La dictée vocale a un défaut que peu d’utilisateurs interrogent : pour transformer votre voix en texte, la plupart des services l’envoient sur des serveurs distants. Canonical, l’éditeur de la distribution Linux Ubuntu, vient de présenter une application qui prend le contre-pied. Elle s’appelle Myna, et tout se passe sur votre machine.
Le fonctionnement tient en trois gestes. Vous appuyez sur un raccourci clavier, vous parlez, et le texte s’écrit tout seul dans l’application sous vos yeux. Un éditeur, un champ de recherche, une messagerie en ligne, peu importe la fenêtre active.
L’argument central, c’est la vie privée. Une fois le modèle de reconnaissance téléchargé, plus besoin de connexion internet. Votre audio est traité en mémoire, puis effacé dans la foulée. Rien n’est enregistré, rien n’est expédié ailleurs. À l’heure où chaque assistant vocal grand public renvoie des extraits sonores vers des serveurs, l’approche tranche.
Sous le capot, Myna s’appuie sur un petit modèle d’intelligence artificielle proche de Whisper, le système de reconnaissance vocale open source signé OpenAI, réputé pour tourner correctement sur un ordinateur personnel sans recourir au cloud. Des outils libres de ce genre existaient déjà sur Linux, mais ils réclamaient souvent de la bidouille en ligne de commande. L’apport de Canonical, c’est d’en faire une vraie application intégrée, pensée pour le grand public.
Pour dicter dans de bonnes conditions, un micro correct change tout :
Microphone USB à condensateur pour ordinateur → voir sur Amazon
Lien affilié Amazon. En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.
L’éditeur assume un périmètre volontairement étroit. Myna n’est pas un assistant vocal. Elle ne comprend pas les commandes, ne traduit pas, ne pilote pas votre bureau. Juste de la dictée, et c’est tout.
Côté calendrier, l’application est attendue avec Ubuntu 26.10, prévue pour octobre. Un dépôt de code est déjà ouvert, même s’il ne contient pour l’instant que des notes de préparation. Au lancement, l’expérience restera basique et limitée à l’interface graphique par défaut du système, d’autres environnements devant suivre.
L’enjeu réel n’est d’ailleurs pas de convertir la parole en texte, un modèle fait ça les doigts dans le nez. C’est d’écrire correctement dans toutes les applications, qui reposent sur des briques logicielles différentes. C’est là que le travail se complique.
Derrière cette annonce, il y a une volonté de rattraper la concurrence. Apple propose son Contrôle vocal, Microsoft son Accès vocal, et le bureau Linux ne disposait jusqu’ici de rien d’aussi intégré. Pour les personnes en situation de handicap qui peinent à taper, l’outil peut changer le quotidien. Reste à voir ce que la dictée donnera vraiment en français.
En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.
Crédit photo : Ubuntu / Canonical (Wikimedia Commons)
