30 de novembro de 2015.
Aplicações baseadas
em síntese de fala de alta qualidade, em português falado no Brasil, com
flexibilidade para adaptação a ambientes embarcados (em dispositivos com baixa
capacidade de armazenamento) e com diferentes tipos de voz. Essas são as
principais vantagens da evolução das tecnologias de síntese de fala em que o
CPqD vem trabalhando atualmente – por intermédio de uma equipe de profissionais
especializados que também atua no desenvolvimento de soluções de biometria de
voz e de reconhecimento de fala. “O objetivo é oferecer ao mercado brasileiro
soluções cada vez mais amigáveis, naturais e de qualidade, que facilitem a
interação entre as empresas ou instituições e o seu público”, afirma Norberto
Alves Ferreira, gerente de Tecnologias de Fala, Imagem e Mobilidade do CPqD.
em síntese de fala de alta qualidade, em português falado no Brasil, com
flexibilidade para adaptação a ambientes embarcados (em dispositivos com baixa
capacidade de armazenamento) e com diferentes tipos de voz. Essas são as
principais vantagens da evolução das tecnologias de síntese de fala em que o
CPqD vem trabalhando atualmente – por intermédio de uma equipe de profissionais
especializados que também atua no desenvolvimento de soluções de biometria de
voz e de reconhecimento de fala. “O objetivo é oferecer ao mercado brasileiro
soluções cada vez mais amigáveis, naturais e de qualidade, que facilitem a
interação entre as empresas ou instituições e o seu público”, afirma Norberto
Alves Ferreira, gerente de Tecnologias de Fala, Imagem e Mobilidade do CPqD.
Ele lembra que, em 25 anos de atuação na área de tecnologias de fala, completados em 2015, o CPqD já criou diversas soluções inovadoras, que vêm
sendo utilizadas em aplicações voltadas à acessibilidade, inclusão digital e
segurança da informação. O próprio CPqD Texto Fala, primeiro produto lançado
para síntese de fala, recebeu vários prêmios de inovação – chegando a figurar
no livro 101 Inovações Brasileiras, publicado em 2008 pelo Monitor Group (atual
Monitor Deloitte) – e hoje está instalado em grande número de caixas
eletrônicos no país, de diversas instituições financeiras, facilitando o uso
desses terminais por pessoas com deficiências visuais ou baixo letramento.
sendo utilizadas em aplicações voltadas à acessibilidade, inclusão digital e
segurança da informação. O próprio CPqD Texto Fala, primeiro produto lançado
para síntese de fala, recebeu vários prêmios de inovação – chegando a figurar
no livro 101 Inovações Brasileiras, publicado em 2008 pelo Monitor Group (atual
Monitor Deloitte) – e hoje está instalado em grande número de caixas
eletrônicos no país, de diversas instituições financeiras, facilitando o uso
desses terminais por pessoas com deficiências visuais ou baixo letramento.
Segundo o pesquisador
Mário Uliani, o CPqD utiliza metodologias de síntese diferentes, em função do
tipo de aplicação. A tecnologia de síntese concatenativa (em que se baseia o CPqD
Texto Fala), por exemplo, oferece alta qualidade, inteligibilidade e uma voz
mais próxima do natural, sendo amplamente aplicada na comunicação em call
centers. “A fala é sintetizada a partir da concatenação de trechos de fala
natural, gravados por um locutor e armazenados em uma base de fala”, explica.
“É uma técnica indicada para aplicações que rodam em desktops ou servidores
remotos (na nuvem, por exemplo), uma vez que a base de fala é grande e demanda
maior capacidade de armazenamento”, completa.
Mário Uliani, o CPqD utiliza metodologias de síntese diferentes, em função do
tipo de aplicação. A tecnologia de síntese concatenativa (em que se baseia o CPqD
Texto Fala), por exemplo, oferece alta qualidade, inteligibilidade e uma voz
mais próxima do natural, sendo amplamente aplicada na comunicação em call
centers. “A fala é sintetizada a partir da concatenação de trechos de fala
natural, gravados por um locutor e armazenados em uma base de fala”, explica.
“É uma técnica indicada para aplicações que rodam em desktops ou servidores
remotos (na nuvem, por exemplo), uma vez que a base de fala é grande e demanda
maior capacidade de armazenamento”, completa.
Já com a técnica HMM
(do inglês Hidden Markov Models), a síntese de fala é feita a partir de modelos
acústicos obtidos por meio de computação cognitiva. “As características e
minúcias são extraídas de uma base de fala gravada com um locutor e utilizadas
para a criação dos modelos acústicos”, acrescenta Uliani.
(do inglês Hidden Markov Models), a síntese de fala é feita a partir de modelos
acústicos obtidos por meio de computação cognitiva. “As características e
minúcias são extraídas de uma base de fala gravada com um locutor e utilizadas
para a criação dos modelos acústicos”, acrescenta Uliani.
Essa técnica permite
reduzir expressivamente o tamanho da base de fala, o que possibilita o uso da
solução em aplicações embarcadas, no universo de Internet das Coisas (IoT) –
por exemplo, no smartphone, em videogames, aparelhos de TV, GPS, geladeiras,
relógios inteligentes e outros dispositivos vestíveis (wearable devices).
“Outra vantagem do HMM é a flexibilidade de manipulação e adaptação da fala
sintetizada, que permite, entre outras coisas, criar uma nova voz com menor
custo, sem necessidade de regravar uma base de fala enorme”, ressalta o
pesquisador do CPqD.
reduzir expressivamente o tamanho da base de fala, o que possibilita o uso da
solução em aplicações embarcadas, no universo de Internet das Coisas (IoT) –
por exemplo, no smartphone, em videogames, aparelhos de TV, GPS, geladeiras,
relógios inteligentes e outros dispositivos vestíveis (wearable devices).
“Outra vantagem do HMM é a flexibilidade de manipulação e adaptação da fala
sintetizada, que permite, entre outras coisas, criar uma nova voz com menor
custo, sem necessidade de regravar uma base de fala enorme”, ressalta o
pesquisador do CPqD.
Vários recursos
dessas tecnologias já estão disponíveis nas soluções de síntese e de
reconhecimento de fala e, também, de biometria de voz oferecidas pelo CPqD.
Entre elas, destacam-se o CPqD Alcance, aplicativo que facilita o uso de
smartphones touchscreen por pessoas com deficiências visuais e que,
recentemente, ultrapassou 15 mil downloads na loja Google Play; o CPqD Smart
Authentication, solução que usa biometria de voz (e de face) para a
autenticação segura de usuários, e o CPqD Conecta, que combina tecnologias de
síntese e de reconhecimento de fala em uma plataforma de comunicação por
múltiplos canais digitais, que facilita a interação entre empresas e clientes
ou equipes de campo.
dessas tecnologias já estão disponíveis nas soluções de síntese e de
reconhecimento de fala e, também, de biometria de voz oferecidas pelo CPqD.
Entre elas, destacam-se o CPqD Alcance, aplicativo que facilita o uso de
smartphones touchscreen por pessoas com deficiências visuais e que,
recentemente, ultrapassou 15 mil downloads na loja Google Play; o CPqD Smart
Authentication, solução que usa biometria de voz (e de face) para a
autenticação segura de usuários, e o CPqD Conecta, que combina tecnologias de
síntese e de reconhecimento de fala em uma plataforma de comunicação por
múltiplos canais digitais, que facilita a interação entre empresas e clientes
ou equipes de campo.
Foto: Norberto Alves Ferreira, gerente de Tecnologias de Fala, Imagem e Mobilidade do CPqD.
Crédito: Divulgação.