Le 30/07/2025 à 09:21, Basile Starynkevitch a écrit :
On Sun, 2025-06-29 at 23:43 +0200, Pierre Estrem wrote:Bonjour, Je continue à explorer la reteranscription textuelle depuis une dictée vocale et autant que possible sans retardement...
[...]
J'ignore si un co-processeur vectoriel spécialisé est véritablement nécessaire pour un tel logiciel de transcription automatique vocale. Puisque un signal sonore (perceptible par un humain) c'est 44KHz d'échantillonnage (sur un CD Audio) avec 16 bits par échantillon. Avec l'âge on entend moins bien mais un humain même âgé comprend la parole.
16 bits à 44,1kHz (historiquement pour le CD audio commercialisé en 1982) est un format d'échantillonnage non-compressé pour la musique. Pour de la parole, en fait les besoins sont encore plus faibles, surtout avec les codecs modernes.
J'imagine que des techniques dites de réseaux de neurones artificiels sont pertinents. Une bibliothèque libre en C++ comme https://www.mlpack.org/ ou comme https://gudhi.inria.fr/index.html (cette dernière étant française) sont alors utiles, et ne requierent pas de matériel spécialisé. Mon point de vue est que techniquement c'est accessible par n'importe quel processeur x86-64 actuel.
[...]comme Pierre souhaitait une solution avec un temps de latence supportable en interaction courante (et vraisemblablement une continuité d'utilisation même en cas de coupure réseau) ça pourrait remettre en cause le bien-fondé d'un fonctionnement distribué (fonctionnement du réseau dégradé ou insuffisamment rapide en temps normal), je suppose.
Donc comme apparemment avec une solution locale purement CPU les besoins de calculs pour la transcription (pas la lecture) audio vers texte sont suffisants pour créer une latence parfois gênante, ce qui pourrait justifier l'emploi d'un GPU...
tout ça vu de ma fenêtre avec le coefficient d'erreur qui s'y rapporte, hein, je peux me tromper, je n'ai jamais été confronté à cette problématique :-)