Asistente de voz bilingüe PT‑BR/ES‑LATAM:
Flujo conversacional para reducir errores por acento, code‑switching de código y falsos cognados

Proyecto de autoría en el que desarrollé un flujo conversacional para asistentes de voz enfocado a usuarios hispanohablantes utilizando una VUI (voice user interface) configurada para portugués-BR. El objetivo era reducir los errores de comprensión en situaciones de code-switching, acento y falsos cognados, creando una experiencia más inclusiva y eficiente para las personas bilingües latinoamericanas.

01 / Sumário

01 Sumário
02 Proceso del proyecto
03 Contexto
04 Problema
05 Princípios de design para VUI bilíngue
06 Objetivos

07 Mi papel y actuación
08 Solución propuesta (flujo conversacional)
09 Actualización: tecnologías modernas (2024–2026), cómo evoluciona este flujo
10 Resultados y conclusiones
11 Aprendizados

02 / Proceso del proyecto

empatizar

research

idear

protótipo

concepto

03 / Contexto

Vivo en Brasil y soy hija de un padre chileno. Mi uso diario de asistentes de voz revela un problema recurrente: los nombres de artistas latinos, comandos y acentos influenciados por el español se interpretan como un error cuando las asistentes están configuradas en portugués, mientras que las solicitudes en inglés funcionan sin dificultad.

Ejemplo real de uso:

“Tocar System of a Down” → funciona
“Tocar Los Prisioneros" → no funciona

Gracias.

Esta inconsistencia afecta a millones de personas bilingües que cambian naturalmente entre el PT-BR y el ES-LATAM en su vida diaria. Cuando realicé este proyecto, en 2022, las asistentes de voz todavía trataban esta variación como “ruido”, no como parte de la experiencia.

Diagrama de flujo que muestra los pasos de procesamiento del lenguaje de IA.

Diagrama de flujo que ilustra los pasos de interacción de una interfaz de voz.

04 / Problema

Las asistentes de voz generales (Alexa, Siri, Google Assistant) tienen limitaciones estructurales al reconocer el habla bilingüe en portugués-BR/español-ES:

Code‑switching: dificultad para interpretar frases que alternan entre el portugués brasileño y el español latino.
Acento: los fonemas hispanos confunden el reconocimiento de palabras en PT-BR.
Falsos cognados: interpretaciones erróneas de palabras similares entre idiomas.
Recuperación insuficiente: respuestas repetidas de “no entendí”.
Percepción de sesgo: los usuarios sienten que el error es “de ellos”, no de la tecnología.

Proto-personas bilingües PT-ES:

Estas fallas hacen que las personas bilingües dejen de usar la VUI incluso en tareas simples, lo que genera frustración, pérdida de confianza y baja adherencia. Ante este escenario, se crearon dos proto-personas:

Ilustración de un hombre con barba que lleva un traje azul y una corbata rosa. @Freepik.

Raul Gonzáles

Edad: 25 años - nivel educativo: título universitario

“Tengo que repetir mis palabras. La asistente simplemente no entiende mi acento, ya que está configurada en portugués”.

Biografía: Hispano que vive en Brasil desde hace poco tiempo, utiliza asistentes de voz virtuales configurados en portugués para familiarizarse más con el idioma. Utiliza su tiempo de trabajo para practicar la conversación con sus colegas brasileños. Frustración: Todavía no domina muy bien el portugués y necesita mejorar su fluidez. Usuario digitalizado, acostumbrado a la tecnología.

Mariela Aguirre

Edad: 40 años - nivel educativo: escuela secundaria

“No se entendió porque tengo acento, por lo que no completé la tarea indicada”.

Biografía: Hispana que vive en Brasil desde hace algunos años, pero todavía tiene mucha dificultad con los sonidos nasalizados típicos de la lengua portuguesa. Casada con un brasileño y madre de un hijo, vive en una familia bilingüe español-portugués porque quiere que el niño crezca involucrado con las culturas de ambos padres. Frustración: Tiene dificultad con los fonemas típicos del portugués que no existen en el español. La usuaria utiliza la tecnología para pequeñas actividades cotidianas. No está interesada en las últimas innovaciones del mercado, sino en productos que puedan ayudarla a resolver sus problemas.

05 / Princípios de design para VUI bilíngue

Priorizar la intención en lugar de la literalidad.
Confirmar significados ambiguos (falsos cognados).
Recuperación con tres caminos: repetir / opciones / cambiar idioma.
Ofrecer palabras clave cortas para superar dificultades por acento.

Mantener un tono neutro y no punitivo.
Detectar mezcla de idiomas y preguntar por el idioma preferido.
Incorporar repertorio latinoamericano (nombres, jerga, bandas).

06 / Objetivos

Reducir los errores de interpretación

Disminuir los errores causados por el acento, code‑switching y los falsos cognados.

Ícono que muestra una barrera de comunicación y un error de habla entre dos personas.

Evitar repeticiones frustrantes de “no entendí”, manteniendo la fluidez en la conversación.

Proponer caminos claros como repetir, ver opciones o cambiar de idioma.

Minimizar los bucles de error

Ofrecer una recuperación útil y guiada

Ícono que muestra ciclos de retroalimentación con un globo de diálogo con un signo de interrogación.

Ícono que muestra la traducción de idiomas con un apretón de manos y burbujas de diálogo.

Ícono de evaluación de riesgos, lista de verificación y señal de advertencia.

Preservar el contexto y la intención

Asegúrese de que el asistente comprenda el objetivo principal del usuario, incluso con variaciones en el habla.

Garantizar la inclusión lingüística

Evitar acciones incorrectas por ambigüedad

Tratar a los bilingües PT-BR/ES-LATAM como la norma, no como una excepción.

Utilizar la confirmación y la desambiguación para evitar interpretaciones erróneas (por ejemplo, falsos cognados).

Ícono de un perfil con un corazón, globos de diálogo y flechas.

Ícono de un globo terráqueo con burbujas de diálogo y una lupa que representa traducción global.

07 / Mi papel y actuación

Trabajé en todo el ciclo, desde el discovery hasta el diseño de la solución:

Investigación de vanguardia en reconocimiento de voz PT-BR ↔ ES-LATAM.
Investigación de las limitaciones técnicas de las inteligencias artificiales de 2022.
Construcción del árbol de decisión del flujo conversacional.
Definición de los principios de interacción bilingüe.
Prototipado de diálogos y escenarios de falla.
Evaluación heurística (VUI + Nielsen adaptado).

Un diagrama de flujo de IA conversacional detallado que ilustra la detección del idioma.

Diagrama de flujo que ilustra el árbol de decisión de la experiencia.

08 / Solución propuesta (flujo conversacional)

La solución se compone de cuatro pilares centrales:

Detección de idioma y code‑switching

Siempre que la frase contenga PT y ES juntos, el asistente identifica la mezcla y pregunta el idioma preferido para continuar.

Ejemplo:

“Quiero ver mi pedido, mas não lembro el número.”
“Detecté portugués y español. ¿Quieres continuar en portugués o español?

Desambiguación de falsos cognados

El asistente identifica términos ambiguos y ofrece opciones semánticas.

Ejemplo:

“Estoy embarazada.”
"¿Quiso decir embarazada (español) o avergonzada (portugués)?”

Navegación por intención para rodear el acento

Cuando el reconocimiento falla repetidamente, la VUI ofrece atajos de palabras clave.

Ejemplo:

“Quero 'rastreá' meu pedido.”
“¿Quieres seguir la entrega? Di 'entrega'”.

Recuperación respetuosa y no punitiva

En lugar de “hable correctamente”, la asistente asume la responsabilidad:

“Creo que me confundí aquí. Intentémoslo así...”

Ejemplo de falla

Pessoa Usuária (ES):
“Quiero ver mi pedido, mas não lembro el número.”

Assistente:
“Desculpe, não entendi. Pode repetir?”
(“Lo siento, no lo entendí. ¿Puede repetirlo?”)

Pessoa Usuária repete.

Assistente:
“Desculpe, não entendi.”
(“Lo siento, no entendí”)

Problema: mezcla de idiomas + acento → reconocido como error → ciclo de frustración.

Ejemplo de éxito (con el flujo propuesto)

Usuária (ES + PT):
“Quiero ver mi pedido, mas não lembro el número.”

Assistente:
“Percebi português e espanhol. Quer continuar em espanhol ou português?”
(“Entendí portugués y español. ¿Quieres continuar en español o portugués?”)

Usuária:
“Espanhol.”

Assistente:
“Certo. Para ver seu pedido, você pode dizer ‘mis pedidos’ ou ‘último pedido’.”
(“Correcto. Para ver tu pedido, puedes decir 'mis pedidos' o 'último pedido'”.)

Resultado: recuperación guiada, idioma definido, intención preservada.

El proyecto original se ejecutó en 2022. Desde entonces, la tecnología de inteligencia artificial ha evolucionado no solo para las asistentes virtuales, sino en su conjunto, en varios campos. Para las interfaces conversacionales de voz, podemos destacar las siguientes mejoras:

ASR contextual: los modelos modernos mantienen la memoria corta y reprocesan los fragmentos ambiguos con mayor precisión.
Incrustaciones fonéticas: reconocimiento más sólido de acentos y pronunciaciones híbridas.
Detección real de code-switching: no solo identifica idiomas, sino que separa bloques dentro de la oración.
Clasificadores de intención multimodales: comprenden comandos incluso con fallas léxicas.
Personalización dinámica: el asistente aprende el repertorio del usuario (nombres de bandas, acento, preferencias).
Ajuste adaptativo del tono: respuestas que cambian en función de la frustración y la entonación percibidas.

09 / Actualización: tecnologías modernas (2024–2026), cómo evoluciona este flujo

Esto hace que la solución propuesta sea aún más factible, escalable y relevante para los productos de voz actuales.

10 / Resultados y conclusiones

Ícono de cuadrícula lineal violeta que representa una tabla.

Problema estructural (no es del usuario)

La limitación es estructural, no conductual: en 2022, la IA dependía de palabras completas y no manejaba bien los fonemas y el contexto bilingüe.

11 / Aprendizados

Diseñar para personas bilingües requiere tratar la ambigüedad como una regla, no como una excepción. La experiencia de voz debe diseñarse para la diversidad lingüística, con un enfoque en la intención, la recuperación y la claridad.

Este proyecto reforzó cómo la UX, la lingüística y la IA deben trabajar en asociación para crear experiencias verdaderamente inclusivas en los productos de voz.

La solución es diseño + ingeniería

La confirmación + las guías evitan errores críticos

Recuperação devolve confiança

La respuesta requiere integración entre UX y tecnología, no solo NLU (natural language understanding /entendimiento del lenguaje natural) “más fuertes”.

Confirmar el significado y ofrecer rutas guiadas reduce las fallas críticas y evita las interpretaciones erróneas (especialmente con falsos cognados).

Los usuarios bilingües recuperan la confianza cuando el asistente asume la falla y ofrece alternativas claras para seguir.