MADRID, 2 (Portaltic/EP)
PUBLICIDAD
PUBLICIDAD
Actualmente, el Asistente de Google funciona en más de 95 países y en más de 29 idiomas y se solo se puede activar con dos comandos, 'OK, Google' y 'Hey, Google'. Una vez puesto en marcha, escucha y ejecuta las órdenes que indique el usuario.
Con el objetico de que el contacto entre la persona y la máquina, la compañía ha explorado nuevos método de interacción, cuyos avances comentó a finales de 2020, en la presentación de 'Look to Speak'.
Entonces, la compañía de Mountain View indicó que esta aplicación tenía como objetivo permitir a las personas con discapacidad motora y del habla comunicarse con los dispositivos a través de los ojos, con la mirada, así como elegir rases prediseñadas para que estos las reproducieran.
Más adelante, en el marco de la conferencia para desarrolladores de Google I/O 2022, el fabricante fue un paso más allá con 'Look and Talk'. Esta tecnología es capaz de analizar audio, vídeo y texto para determinar si el usuario se está dirigiendo directamente al Nest Hub Max.
Ahora, la tecnológica ha ofrecido una actualización de esta tecnología en su blog sobre inteligencia artificial (IA) y ha dado a conocer en mayor detalle cómo funciona este sistema de reconocimiento.
En primer lugar, Google ha comentado que 'Look and Talk' emplea un algoritmo basado en ocho modelos de aprendizaje automático ('machine learning') . Gracias a él, puede distinguir las interacciones intencionales de las miradas a una distancia de hasta cinco pies (1,5 metros aproximadamente) para determinar si el usuario busca ponerse en contacto con el dispositivo.
La tecnológica ha desarrollado este algoritmo enfrentándolo a distintas variables y características. Entre ellas, las que son de carácter demográfico, como la edad y los tonos de piel, así como las diferentes condiciones acústicas y perspectivas de la cámara.
En tiempo real, esta tecnología también se enfrenta a perspectivas de cámara inusuales, debido a que generalmente estas pantallas inteligentes se sitúan en puntos concretos del hogar a una altura media-baja.
El proceso en el que se basa 'Look and Talk' consta de tres fases. Para empezar, el asistente identifica la presencia de una persona mediante una tecnología que detecta el rostro y establece la distancia a la que se sitúa el sujeto.
Gracias a la tecnología Face Match, esta solución determina si dicha persona está registrada en el sistema para comunicarse con el dispositivo, un método que utilizan otros asistentes, como Alexa.
En esta primera fase de reconocimiento, el asistente también se apoya en otras señales visuales, como el ángulo en el que se establece la mirada del usuario, con el fin de determinar si este busca interactuar visualmente con el dispositivo o no.
A continuación, da comienzo la segunda fase, en la que el asistente tiene en cuenta señales adicionales y escucha la consulta del usuario, para concretar si este discurso está dirigido a él.
Para ello, se apoya en tecnologías como Voice Match, que valida el resultado arrojado por Face Match previamente y lo complementa. A continuación, 'Look and Talk' ejecuta un modelo de reconocimiento de voz automático, que transcribe las palabras y las órdenes del emisor.
Más adelante, el asistente analiza esta transcripción y la información de naturaleza no léxica del audio, como el tono, la velocidad del discurso o sonidos que puedan muestren la indecisión del usuario durante el enunciado. También se apoya en señales visuales contextuales para determinar la probabilidad de que la interacción estuviese destinada al Asistente.
En último lugar, cuando el modelo de comprensión de esta intención determina que la declaración del usuario estaba destinada al Asistente, 'Look and Talk' pasa a la fase en la que procesa la consulta y busca darle respuesta.
Finalmente, la compañía ha reconocido que cada modelo que admite este sistema se ha evaluado y mejorado de forma aislada, así como probado en una gran variedad de condiciones ambientales que permitan introducir parámetros de personalización para su uso.