Los algoritmos de aprendizaje automático han superado a los humanos al reconocer el habla

Los algoritmos de aprendizaje automático (machine learning) ya han superado a los humanos al reconocer el habla conversacional ordinaria, tal y como sugieren los resultados de un software de Microsoft.

Un paso más para propiciar que los seres humanos nos estemos volviendo obsoletos cada vez en más campos.

Reconocimiento del habla

Si bien en el reconocimiento facial se estaban dando pasos enormes, el reconocmiento del habla parecía más difícil. Sin embargo, esto ya no es así. Geoff Zweig y sus colegas de Microsoft Research en Redmond, Washington, dicen que ahora los algoritmos ya superan a los humanos al reconocer el habla coloquial ordinaria.

La investigación de reconocimiento de voz tiene una larga historia. En la década de 1950, las primeras computadoras podían reconocer hasta 10 palabras pronunciadas con claridad por un solo orador. En la década de 1980, los investigadores construyeron máquinas que podían transcribir el habla simple con un vocabulario de 1.000 palabras. En la década de 1990 progresaron a grabaciones de una persona que leía el Wall Street Journal.

Pero el habla ordinaria es mucho más complejo, porque las oraciones no están tan bien construidas, es mucho menos formal. Las personas también hacen muchos ruidos aparte de los estrictos que producen el habla. Y el vocabulario es más cambiante y está jalonado de connotaciones.

Los humanos son muy competentes en esta clase de reconocimiento. El consenso general es que tienen una tasa de error de alrededor del 4 por ciento. En otras palabras, transcriben incorrectamente cuatro palabras por cada cien. Ahora Microsoft dice que finalmente ha igualado el rendimiento humano, aunque con una advertencia importante.

Los investigadores de Microsoft comenzaron por volver a evaluar el rendimiento humano en las tareas de transcripción. Hicieron esto enviando grabaciones telefónicas a un servicio de transcripción profesional.

Para su sorpresa, descubrieron que este servicio tenía una tasa de error de 5.9 por ciento para las conversaciones entre individuos sobre un tema asignado y 11.3 por ciento para las conversaciones entre amigos y familiares. Una tasa más elevada de lo que se creía convencionalmente.

Sea como fuere, las máquinas nos pueden haber superado o solo estar a nuestro nivel, pero ya no están por debajo. Dentro de unos años, quizá estas comparaciones empiecen a resultar absurdas.

Fuente XATAKA



Artículo Anterior Artículo Siguiente