Xiaomi dezvoltă o tehnologie de redare a vocii pentru a ajuta oamenii cu tulburări de vorbire

Publicat: 20.05.2022 08:55

Ultima actualizare: 02.08.2022 07:07

Tehnologie Text-to-Speech. FOTO Shutterstock

Xiaomi a prezentat cea mai recentă aplicaţie de algoritmi avansaţi şi tehnologie proprietară de redare a vocii, destinate publicului larg.

Tehnologia Text-To-Speech în stil spontan este dezvoltată de Xiaomi AI Labs şi folosită pentru a genera o voce unică şi personalizată pentru un utilizator cu tulburări de vorbire.

Acesta poate comunica de acum cu ceilalţi folosind „propria voce”, în locul vocii electronice monotone.

De ce a lansat Xiaomi acest proiect?

Compania a descoperit că mulţi dintre cei cu tulburări de vorbire şi-ar dori să aibă voci personalizate, aşa că a înfiinţat echipa pentru proiectul “Own My Voice”. Aceasta a invitat o persoană cu tulburări de vorbire pentru a-i oferi o voce nouă.

Cum a desfăşurat Xiaomi proiectul?

Pentru a genera vocea cea mai potrivită şi personalizată pentru beneficiar, echipa proiectului a recrutat peste 200 de voluntari din cadrul Xiaomi care şi-au donat vocile. S-a folosit algoritmul de corelare al amprentei vocale pentru a sincroniza caracteristicile vocilor donate de voluntari cu cele ale destinatarului. Prin această abordare, s-au identificat cele mai potrivite sunete de bază ca sistem de referinţă pentru destinatar. S-a ţinut cont şi de reglementările de protecţie a vieţii private şi, prin urmare, vocea aleasă a fost modificată printr-un procedeu acustic complex pentru a dezvolta un sunet nou şi original.

Mai departe, s-a folosit tehnologia Text-To-Speech în stil spontan pentru a realiza modelul AI, iar noua voce a căpătat gradual ritm şi intonaţie naturale pentru a exprima emoţiile şi tonul uman.

Proiectul “Own My Voice” combină o varietate de algoritmi avansaţi cu tehnologia proprietară Xiaomi de viteză a discursului pentru a asigura specificitatea, siguranţa şi autenticitatea ridicată a vocii sintetizate. S-a creat astfel o nouă viziune asupra unui discurs personalizat pentru utilizatorii cu tulburări de vorbire.

Care este semnificaţia proiectului?

Un grup de experţi în tehnologia vorbirii din cadrul Xiaomi AI Labs reprezintă coloana vertebrală a proiectului. Din 2017 şi până acum, aceştia au publicat 37 de documente despre vorbire, prezentate la conferinţe internaţionale de top, cum ar fi Conferinţa Internaţională despre Acustică, Vorbire şi Procesarea Semnalului (ICASSP). Succesul proiectului “Own My Voice” depinde foarte mult de tehnologia Text-To-Speech în stil spontan dezvoltată de ei.

În esenţă, tehnologia Text-To-Speech în stil spontan face ca vocea sintetică să sune ca cea a unui om, din punct de vedere al intonaţiei, pauzelor, vitezei şi altor caracteristici. Cu ajutorul ei se înlocuieşte vocea electronică monotonă şi nenaturală. În prezent, această tehnologie se aplică mai multor dispozitive inteligente, echipate cu Xiaoai, asistentul vocal AI al Xiaomi. Proiectul “Own My Voice” demonstrează că tehnologia Text-To-Speech în stil spontan poate fi adoptată pe scară largă în zonele de accesabilitate şi poate îmbunătăţi experienţa utilizatorilor.