Buenas,
El código que has mandado tiene pinta de ser un corta y pega de tu código
real, por lo que nadie mas que tu va a poder reproducirlo. Así que lo único
que veo viable es hablarte de las herramientas que usaría para investigarlo
y que lo hagas tu mismo por tu cuenta.
Usa un depurador
---
Si, el código es básicamente el ejemplo de reconocimiento de texto sobre audio
en streaming que tiene Google en su repo de github, solo que fallaba la parte
del streaming cuando esta viene de un fichero y no de una fuente como un
mícrófono.
Al final conseguí resolverlo modificando la función d