Assistente de voz bilíngue PT‑BR/ES‑LATAM:
Fluxo conversacional para reduzir falhas por sotaque, code‑switching e falsos cognatos

Projeto autoral onde desenvolvi um fluxo conversacional para assistentes de voz com foco em usuários hispanohablantes utilizando uma VUI (voice user interface) configurada para português‑BR. O objetivo foi reduzir falhas de compreensão em situações de code‑switching, sotaque e falsos cognatos, criando uma experiência mais inclusiva e eficiente para bilíngues latino‑americanos.

01 / Sumário

01 Sumário
02 Processo do projeto
03 Contexto

04 Problema
05 Princípios de design para VUI bilíngue
06 Objetivos

07 Meu papel no projeto
08 Solução proposta (fluxo conversacional)
09 Atualização: tecnologias modernas (2024–2026): como este fluxo evolui
10 Resultados e conclusões
11 Aprendizados

02 / Processo do projeto

empatizar

>

pesquisa

>

ideação

>

protótipo

>

conceito

03 / Contexto

Vivo no Brasil e sou filha de pai chileno — meu uso diário de assistentes de voz revela um problema recorrente: nomes de artistas latinos, comandos e sotaques influenciados pelo espanhol são interpretados como erro, enquanto pedidos em inglês funcionam sem dificuldade.

Exemplo real de uso:

  • “Tocar System of a Down” → funciona

  • “Tocar Los Prisioneros → não funciona

Obrigada.

Essa inconsistência impacta milhões de bilíngues que transitam naturalmente entre PT‑BR e ES‑LATAM no dia a dia. Quando realizei esse projeto, no ano de 2022, assistentes de voz ainda tratavam essa variação como “ruído”, não como parte da experiência.

Fluxograma ilustrando a lógica de processamento de linguagem natural de IA.
Fluxograma ilustrando a lógica de processamento de linguagem natural de IA.

Fluxograma ilustrando as etapas de interação de uma interface de voz.

04 / Problema

Assistentes gerais de voz (Alexa, Siri, Google Assistant) apresentam limitações estruturais ao reconhecer fala bilíngue em português‑BR/espanhol-ES:

  • Code‑switching: dificuldade em interpretar frases que alternam PT e ES.

  • Sotaque: fonemas hispânicos confundem o reconhecimento de palavras em PT‑BR.

  • Falsos cognatos: interpretações equivocadas de palavras semelhantes entre idiomas.

  • Recuperação insuficiente: respostas repetidas de “não entendi”.

  • Percepção de viés: usuárias sentem que o erro é “delas”, não da tecnologia.

Proto-personas bilíngues PT-ES:

Essas falhas fazem com que bilíngues desistam do uso da VUI mesmo em tarefas simples — gerando frustração, perda de confiança e baixa adesão. Diante desse cenário, duas proto-personas foram criadas:

Ilustração de de um homem com barba usando um terno azul e gravata rosa. @Freepik.
Ilustração de de um homem com barba usando um terno azul e gravata rosa. @Freepik.

Raul Gonzáles

Idade: 25 anos - escolaridade: diploma universitário
"Tengo que repetir mis palabras. ​​El asistente simplemente no entiende mi acento, ya que está configurado en portugués”.

"Tenho que repetir minhas palavras. A assistente simplesmente não entende o meu sotaque, pois está configurado em português."

Biografia: Hispânico que mora no Brasil há pouco tempo, ele usa assistentes de voz virtuais configuradas em português para se familiarizar mais com a língua. Ele usa seu tempo de trabalho para praticar a conversação com seus colegas brasileiros. Frustração: Ele ainda não domina muito bem o português e precisa melhorar sua fluência. Usuário digitalizado, acostumado com a tecnologia.

Ilustração de mulher sorridente com cabelo azul e óculos em um avatar circular. @Freepik.
Ilustração de mulher sorridente com cabelo azul e óculos em um avatar circular. @Freepik.

Mariela Aguirre

Idade: 40 anos - escolaridade: ensino médio

“No se entendió porque tengo acento, por lo que no completé la tarea indicada”.

"Não foi compreendida porque tenho sotaque, portanto, não conclui a tarefa indicada."

Biografia: Hispânica que vive no Brasil há alguns anos, mas ainda tem muita dificuldade com os sons nasalizados típicos da língua portuguesa. Casada com um brasileiro e mãe de um filho, vive em uma família bilíngue espanhol-português porque quer que a criança cresça envolvida com as culturas de ambos os pais. Frustração: Ela tem dificuldade com fonemas típicos do português que não existem no espanhol. A usuária utiliza a tecnologia para pequenas atividades cotidianas. Ela não está interessada nas últimas inovações do mercado, mas em produtos que possam ajudá-la a resolver seus problemas.

05 / Princípios de design para VUI bilíngue
  • Priorizar intenção ao invés de literalidade.

  • Confirmar significados ambíguos (falsos cognatos).

  • Recuperação sempre com três caminhos: repetir / opções / trocar idioma.

  • Oferecer palavras‑chave curtas para contornar sotaque.

  • Manter tom neutro e não punitivo.

  • Detectar mistura de idiomas e pedir idioma preferido.

  • Incorporar repertório latino‑americano (nomes, gírias, bandas).

06 / Objetivos
Reduzir falhas de interpretação

Diminuir erros causados por sotaque, code‑switching e falsos cognatos.

Ícone mostrando uma barreira de comunicação e erro de fala entre duas pessoas.
Ícone mostrando uma barreira de comunicação e erro de fala entre duas pessoas.

Evitar repetições frustrantes de “não entendi”, mantendo fluidez na conversa.

Propor caminhos claros como repetir, ver opções ou trocar de idioma.

Minimizar loops de erro
Oferecer recuperação útil e guiada
Ícone mostrando ciclos de feedback com balão de fala com ponto de interrogação.
Ícone mostrando ciclos de feedback com balão de fala com ponto de interrogação.
Ícone mostrando tradução de idioma com um aperto de mão e balões de fala.
Ícone mostrando tradução de idioma com um aperto de mão e balões de fala.
Ícone de avaliação de risco, lista de verificação e sinal de aviso.
Ícone de avaliação de risco, lista de verificação e sinal de aviso.
Preservar contexto e intenção

Garantir que a assistente compreenda o objetivo principal da pessoa usuária mesmo com variações de fala.

Garantir inclusão linguística
Evitar ações incorretas por ambiguidade

Tratar bilíngues PT‑BR/ES‑LATAM como norma,
não exceção.

Usar confirmação e desambiguação para impedir interpretações equivocadas (ex.: falsos cognatos).

Ícone de um perfil com um coração, balões de fala e setas.
Ícone de um perfil com um coração, balões de fala e setas.
Ícone de um globo com balões de fala e uma lupa representando serviços de tradução global.
Ícone de um globo com balões de fala e uma lupa representando serviços de tradução global.
07 / Meu papel no projeto

Atuei em todo o ciclo, da análise ao desenho da solução:

  • Pesquisa de estado da arte em reconhecimento de fala PT‑BR ↔ ES‑LATAM.

  • Investigação de limitações técnicas das IAs de 2022.

  • Construção da árvore de decisão do fluxo conversacional.

  • Definição dos princípios de interação bilíngue.

  • Prototipação de diálogos e cenários de falha.

  • Avaliação heurística (VUI + Nielsen adaptado).

Fluxograma de lógica de chatbot mostrando detecção de idioma e mapeamento de intenção para IA.
Fluxograma de lógica de chatbot mostrando detecção de idioma e mapeamento de intenção para IA.

Fluxograma ilustrando árvore de decisão da experiência.

08 / Solução proposta (fluxo conversacional)

A solução é composta por quatro pilares centrais:

Detecção de idioma e code‑switching

Sempre que a frase contém PT e ES juntos, a assistente identifica a mistura e pergunta o idioma preferido para continuar.

Exemplo:

“Quiero ver mi pedido, mas não lembro el número.”
“Detectei português e espanhol. Quer seguir em português ou espanhol?”

Desambiguação de falsos cognatos

A assistente identifica termos ambíguos e oferece escolha semântica.

Exemplo:

“Estoy embarazada.”
“Você quis dizer grávida (espanhol) ou envergonhada (português)?”

Navegação por intenção para contornar sotaque

Quando o reconhecimento falha repetidamente, a VUI oferece atalhos por palavras‑chave.

Exemplo:

“Quero 'rastreá' meu pedido.”
“Você quer acompanhar entrega? Diga ‘entrega’.”

Recuperação respeitosa e não punitiva

Ao invés de “fale corretamente”, a assistente assume responsabilidade:

“Acho que me confundi aqui. Vamos tentar assim…”

Ícone de erro.
Ícone de erro.
Exemplo de falha

Pessoa Usuária (ES):
“Quiero ver mi pedido, mas não lembro el número.”
Assistente:

“Desculpe, não entendi. Pode repetir?
Pessoa Usuária repete.
Assistente:

“Desculpe, não entendi.”

Problema: mistura de idiomas + sotaque → reconhecida como erro → loop de frustração.

Exemplo de sucesso (com o fluxo proposto)

Usuária (ES + PT):
“Quiero ver mi pedido, mas não lembro el número.”

Assistente:
“Percebi português e espanhol. Quer continuar em espanhol ou português?”

Usuária:
“Espanhol.”

Assistente:
“Certo. Para ver seu pedido, você pode dizer ‘mis pedidos’ ou ‘último pedido’.”

Resultado: recuperação guiada, idioma definido, intenção preservada.

O projeto original foi executado no ano de 2022. De lá para cá, a tecnologia de inteligência artificial evoluiu não só para as assistentes virtuais, mas como um todo, em diversos âmbitos. Para interfaces conversacionais de voz, podemos destacar as seguintes melhorias:

  • ASR contextual: modelos modernos mantêm memória curta e reprocessam trechos ambíguos com mais precisão.

  • Embeddings fonéticos: reconhecimento mais robusto de sotaques e pronúncias híbridas.

  • Detecção real de code‑switching: não só identifica idiomas, mas separa blocos dentro da frase.

  • Classificadores de intenção multimodais: entendem comandos mesmo com falhas lexicais.

  • Personalização dinâmica: a assistente aprende o repertório da pessoa usuária (nomes de bandas, sotaque, preferências).

  • Ajuste adaptativo de tom: respostas que mudam com base na frustração e entonação percebidas.

09 / Atualização: tecnologias modernas (2024–2026), como este fluxo evolui

Isso torna a solução proposta ainda mais factível, escalável e relevante para produtos de voz atuais.

10 / Resultados e conclusões
Ícone de grade linear roxa representando uma tabela.
Ícone de grade linear roxa representando uma tabela.
Problema estrutural (não é do usuário)

A limitação é estrutural, não comportamental: em 2022, a IA dependia de palavras completas e não lidava bem com fonemas e contexto bilíngue.

11 / Aprendizados

Projetar para bilíngues exige tratar ambiguidade como regra, não exceção. A experiência de voz precisa ser pensada para diversidade linguística, com foco em intenção, recuperação e clareza.

Este projeto reforçou como UX, linguística e IA devem trabalhar em parceria para criar experiências verdadeiramente inclusivas em produtos de voz.

Solução é design + engenharia
Confirmação + guias evitam erro crítico
Recuperação devolve confiança

A resposta exige integração entre UX e tecnologia, não apenas NLUs (natural language understanding / entendimento de linguagem natural) “mais fortes”.

Confirmar significado e oferecer caminhos guiados reduz falhas críticas e evita interpretações erradas (especialmente com falsos cognatos).

Pessoas usuárias bilíngues retomam confiança quando a assistente assume a falha e oferece alternativas claras para seguir.

Ícone representando ferramentas de edição de imagem e design.
Ícone representando ferramentas de edição de imagem e design.
Ícone de balão de falarepresentando uma mensagem ou comentário.
Ícone de balão de falarepresentando uma mensagem ou comentário.
Ícone e uma janela do navegador com uma estrela.
Ícone e uma janela do navegador com uma estrela.
Ícone sucesso.
Ícone sucesso.
Outros projetos

Confira outros projetos e meus perfis de mídias sociais.