¿Podrán los asistentes de voz cumplir su promesa?

La voz, como cualquier otra innovación que permita a las personas interactuar, puede tener éxito o fracasar, dependiendo no solo de su capacidad para resolver una serie de funciones lógicas, sino también de su capacidad para hacernos sentir. Lo que está claro es que de momento las tecnologías de voz no generan en los usuarios las sensaciones que se esperaban.

Si nos dejásemos influir por el ordenador HAL 9000 de 2001: Odisea en el espacio (Stanley Kubrick, 1968) probablemente desconectaríamos nuestro Alexa. De hecho, solo el 2% de los usuarios que poseen un Alexa ha comprado alguna vez por voz, según The Information, que cita fuentes internas de la propia Amazon. Y de los que compraron, solo uno de cada diez repitió la experiencia. Esto indica que todavía existe gran distancia entre lo que Amazon espera de su asistente de voz y el valor que el mercado percibe.

Como siempre ocurre con cualquier tecnología orientada al consumidor, suele haber diferencias entre la visión que tienen sus creadores y la percepción de los usuarios; una distancia que en el caso de la tecnología de voz es significativa. De hecho, los usuarios de altavoces inteligentes esperan más de lo que están recibiendo, y la clave está en la naturaleza humana de estas expectativas.

Cuando nos enfrentamos por primera vez a la tecnología de voz generalmente tenemos la percepción de que se trata de algo “vivo”, que está presente, algo con lo que podemos relacionarnos de manera natural. Por eso, cuando nos damos cuenta de que estos dispositivos son de todo menos “inteligentes” aparecen la desilusión y la frustración.

¿Se puede crear tecnología “humana”?

Atribuir cualidades humanas a tecnologías como la voz no lleva a ningún sitio, teniendo en cuenta que implicaría crear una tecnología capaz de comportarse como un ser humano. La emulación del comportamiento humano exige dilucidar en términos neuro-biológicos todos los aspectos de la relación cuerpo-mente que, en su mayor parte, seguirán siendo un misterio durante muchos años más.

Crear una tecnología capaz de comprender, expresarse y conversar como las personas requiere más que machine learning. Inevitablemente, implica la creación de tecnologías que involucren software (mente) e interfaz (cuerpo) como una unidad que funcione de forma integrada y permanezca alerta y consciente.

Una tecnología de este tipo tendría que ser capaz de generar un flujo de contenidos mentales como los humanos (causados por respuestas emocionales) y de identificar, originar y desarrollar estados emocionales que se puedan considerar causa y origen de inteligencia. También tendría que ser capaz de comprender y expresarse más allá del reconocimiento de frases, palabras o imágenes. Tendría que poder “pensar”; Santo Grial de la Inteligencia Artificial y todavía muy lejos de lo que el machine learning puede ofrecernos hoy en día.

Un futuro aún incierto

El futuro de las tecnologías de ambición “humana”, como la voz, es todavía incierto. No obstante, teniendo en cuenta los enormes esfuerzos que se están destinando a la investigación en este campo, es probable que se sigan haciendo muchos progresos. Dicho esto, deberíamos darnos cuenta de que estos avances solo tendrán lugar en áreas muy concretas donde se puedan minimizar las frustraciones de los usuarios.

Google, Apple, Facebook y Microsoft invertirán 5.000 millones de dólares al año en tecnologías de voz, según las previsiones de Lupe Ventures. Estamos hablando de una fuerza bruta especialmente reveladora si nos fijamos en las inversiones que Amazon está realizando en startups como Bamboo Learning, Endel o Aiva y su herramienta de asistencia al paciente (que también cuenta con inversión de Google). Y de nuevo, es interesante ver cómo estas innovaciones se están realizando en áreas específicas en las que se reduce la frustración y se maximiza la percepción de valor.

Así que… ¿puede la tecnología de voz cumplir su promesa? Sí, pero solo en áreas muy específicas en las que la variedad de opciones de la conversación se reduzcan a un mínimo. ¿Conversaremos alguna vez con nuestros dispositivos como Dave hacía con HAL 9000? Si cambiamos la nave de 2001 por un coche y a HAL 9000 por un drive-through de cualquier cadena de hamburguesas tendremos un ejemplo de lo que podrá ofrecernos la voz.

ÁNGEL MALDONADO
Fundador de Empathy Broker

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s