Buscar este blog

lunes, 16 de abril de 2018

El equipo de Siri habla sobre 'Hey Siri' personalizado en la nueva entrada del Diario de Aprendizaje Automático

Ya en octubre, el Equipo Siri se tomó un tiempo para publicar una nueva entrada en el diario de aprendizaje automático de Apple, centrándose en la función "Hey Siri".

Ahora, el equipo ha vuelto con una nueva entrada en el diario, y entrará un poco más en detalle cuando se trata de la personalización de la función "Hey Siri". Como se mencionó en la entrada anterior, Apple señala que fue con la función de voz "Hey Siri" porque era tan natural que muchos usuarios de iOS ya lo estaban usando antes de que Apple siquiera presentara la función. Cuando lanzarían Siri con el botón Inicio en versiones anteriores de la función, comenzarían su pedido con "Hey Siri".

"La frase" Hey Siri "fue originalmente elegida para ser lo más natural posible; de hecho, era tan natural que incluso antes de que se introdujera esta característica, los usuarios invocarían a Siri usando el botón de inicio e inadvertidamente antepondrían sus peticiones con las palabras "Hey Siri". Sin embargo, su brevedad y facilidad de articulación dan lugar a desafíos ".

La entrada completa sin duda vale la pena mirar si te gusta el lado técnico de las cosas. Como es normal para el curso con estas entradas de diario de aprendizaje automático, ciertamente están destinadas a profundizar en los detalles clave, en lugar de solo mirar una característica en un alcance general.

Habiendo dicho eso, la entrada también mira hacia el futuro sobre las características o los desafíos que el equipo planea tomar a continuación. Eso incluye la capacidad de usar Siri en una sala abarrotada, o incluso en una sala grande, y aún así tener la misma eficacia que los usuarios de Siri han esperado a lo largo de los años.

"Aunque el rendimiento promedio del reconocimiento de los altavoces ha mejorado significativamente, la evidencia anecdótica sugiere que el rendimiento en ambientes reverberantes (espacios grandes) y ruidosos (automóviles, eólicos) sigue siendo más desafiante. Uno de nuestros esfuerzos actuales de investigación se centra en comprender y cuantificar la degradación en estas difíciles condiciones en las que el entorno de un enunciado de prueba entrante es una falta de coincidencia grave de las emisiones existentes en el perfil del hablante de un usuario. En nuestro trabajo posterior [2], demostramos el éxito en la forma de entrenamiento de estilo múltiple, en el que un subconjunto de los datos de entrenamiento se aumenta con diferentes tipos de ruido y reverberación ".

No hay comentarios.: