Thursday, April 06, 2017

Reconocimiento de voz casi humano (la increíble trayectoria IBM)


Que los sistemas de reconocimiento de voz se acercan cada vez al nivel de entendimiento humano es algo (más o menos) sabido, pero lo que NO es (tan) conocido es hasta que punto estamos cerca de conseguir que un sistema artificial alcance el nivel de comprensión auditivo de una persona 

El mes pasado la (admirada) IBM nos dio alguna pista entre fascinante y aterradora:
su sistema de reconocimiento de voz había alcanzado el nivel del 5.5% de error, es decir que de cien palabras en una conversación normal entre personas, el sistema se equivoca en poco más de 5 

Antes de titular esto como el hito más grande etc etc, hay que tener en cuenta que la calidad de los sistemas de reconocimiento de voz se mide en relación a la capacidad media humana, y esta se encuentra entorno al 5.1% de error, según descubrió en la investigación la propia IBM y APPEN, una empresa australiana de servicios especializada en búsquedas por voz (la que desarrolló con Microsoft el servicio de traducción  en tiempo real de Skype)

aunque son unas décimas de diferencia, lo cierto es que todavía existe un gran camino que recorrer ya que la comprensión oral no funciona como la visual, y la mayoría de las veces cuando NO entiendes un término es muy posible que NO entiendas el objetivo completo de una conversación 

Aun asi, IBM ha vuelto a pulverizar los estándares industriales de estos sistemas de reconocimiento de voz (ASR), ya que en sólo 12 meses ha bajado la tasa de error un 20%, lo que en teoría quiere decir que el año que viene tendríamos ya sistemas que entienden mejor las conversaciones (humanas) que las personas

No me cabe duda que esto va a ocurrir, pero NO al ritmo de la ley de Moore, o sea que las mejoras a partir de ahora son mucho más difíciles ya que estamos tratando de identificar diferentes acentos, diferentes construcciones gramaticales intencionales, y conversaciones libres sin guión previo,como las que tenemos en nuestros hogares a diario, donde la tasa de error todavía es considerablemente más alta (entorno al 10%)

Sin que alcancemos el nivel 100% de eficacia ya podemos hablar de efectos inmediatos aplicables a todas aquellas empresas que viven de analizar lo que sus clientes dicen que quieren (piensa en los call centers), y en la transcripción de buena a excelente de clases en la universidad/escuela para personas con dificultades de audición

Es más, tenemos que pensar que en breve será normal acudir a un sistema de reconocimiento de voz en situaciones cotidianas, dado que el sistema entenderá tanto o mejor que nosotros, permitiendo una comprobación fiel de un mensaje/orden que a veces puede ser vital ....  

No comments: