Ultimele știri ⏱️Război în Ucraina Istoria zilei

Cum înţeleg vorbirea umană dispozitivele cu sistem de recunoaştere vocală

Catalina Mihu

Publicat: 30.11.2012 13:07

Ultima actualizare: 08.08.2022 21:05

0

Adaugă-ne ca sursă preferată în Google Sursă preferată

Urmărește-ne pe Discover Discover

Sistemul de recunoaştere vocală infailibil, deocamdată doar în filme FOTO deviceplanet.com

Din ce în ce mai multe dispozitive au opţiunea de a primi comenzi vocale date de utilizatori. Computerele integrate pot da telefoane, comanda pizza sau trimite e-mail-uri dacă li se spune acest lucru.

Capacitatea de „înţelegere” a computerului nu este perfectă, dar în majoritatea cazurilor el execută corect comenzile date. Pentru a face acest lucru, computerul trebuie să traducă modificări minuscule de presiune a aerului în limbaj. Recunoaşterea vorbelor este un proces complicat, iar dezvoltarea tehnologiei care să permită acest lucru are o istorie lungă.

Etapele prin care un computer ascultă comenzile date pot fi sintetizate în şapte procese de bază, conform mentalfloss.com.

1. Transformă mişcarea moleculelor din aer în numere

Undele sonore ajung la urechea umană sub forma modificărilor în presiunea aerului. Computerul înregistrează şi măsoară undele la intervale repetate. Dacă acesta este prea mare, va rata chimbări semnificative ale undelor. Pentru ca aproximarea vorbirii să fie cât mai corectă, computerul trebuie să efectueze aceste măsurători de cel puţin 8.000 de ori pe secundă. Pentru a funcţiona optim, computerul trebuie să măsoare undele sonore de 44.100 de ori într-o secundă. Procesul este cunoscut ca „digitizarea la 8k Hz sau la 44.1k Hz”.

2. Procesează vorbirea din undele sonore

Computerul înregistrază toate modificările presiunii aerului, fără a distinge, iniţial, care sunt produse de vorbirea omului şi care sunt sunete ambientale (maşini în trafic, foşnetul hainelor sau bâzâitul propriului hard disc, de exemplu). Datele înregistrate ale undelor zonore digitale sunt filtrate prin operaţiuni matematice, pentru a înlătura informaţiile stocate care nu seamănă cu vorbirea umană.

Separarea zgomotului de parametrii în care computerul încadrează vorbirea umană este un proces complex. Este unul din motivele pentru care Siri o poate apela pe Anca, în loc să sune la bancă, de exemplu, dacă a primit comanda într-un mediu zgomotos.

3. Alege fragmentele undelor sonore cu care distinge sunetele vorbirii

Unda sonoră produsă de vorbire este compusă dintr-un amestec complex de unde de diferite frecvenţe. Schimbările acestor frecvenţe şi a intensităţii lor sunt instrumentele cu care calculatorul face diferenţa dintre sunete foarte asemănătoare.

Transformarea undelor complexe într-o reprezentare numerică a componentelor acestora implică alte operaţii matematice, care trebuie efectuate în timp ce vorbirea se produce. Iron Man nu face pauze când îi transmite comenzi computerului său, Jarvis, pentru a-i da timp să-i proceseze vorbele, iar acesta nu este un scenariu de film science fiction. Aplicaţiile de recunoaştere a vocii fac aceste operaţiuni în timp real.

4. Analizează sunetul digital pe bucăţi şi le atribuie cuvinte

Computerul are o idee generală de cum trebuie să arate fonemele unei limbi, pentru că are o bază de date cu exemple. Caracteristicile fonemelor diferă însă în funcţie de accente şi de sunetele între care sunt rostite. De exemplu, „o” în cuvântul „roşie” diferă de modul cum este rostit în cuvântul „oameni”. Computerul are nevoie de o gamă largă de exemple pentru a aproxima corect vorbirea.

5. „Ghiceşte” cuvintele posibile care ar putea fi alcătuite din fonemele identificate

În baza de date a unei aplicaţii de recunoaştere vocală există o listă exhaustivă a modurilor diferite în care poate fi pronunţat un cuvânt. Computerul selectează cuvintele rostite prin compararea fonemelor înregistrate cu lista cuvintelor posibile. Dacă a descifrat secvenţa „au ajuns”, de exemplu, nu va separa fonemele în „auaj uns”, pentru că va confrunta modelele de cuvinte cu dicţionarul şi va descoperi că „auaj” nu este un cuvânt.

6. Determină cea mai probabilă secvenţă de cuvinte pe baza modului de a vorbi al „stăpânului”

Fluxul vorbirii nu are pauze. Computerul trebuie să proceseze unde trebuie să le insereze, prin compunerea cuvintelor valide din fonemele înregistrate. Cuvintele pot suna asemănător însă, deci nu pot constitui singurul reper pentru computer. Pentru a traduce corect ce i se spune, el aplică modele de probabilitate ca unui cuvânt să îi urmeze un altul, într-un enunţ care are sens. Astfel alege care înşiruire de cuvinte este cea mai bună alegere de a înţelege ce a „auzit”.

Unele sisteme iau în considerare şi alte informaţii, cum relaţiile dintre cuvintele succesive. Cu cât informaţiile trec prin mai multe filtre însă, cu atât mai performant trebuie să fie procesorul necesar efectuării tuturor operaţiunilor.

7. Acţionează

Computerul a finalizat procesarea cuvintelor adresate lui, iar ultima etapă este să răpundă în concordanţă. În cazul unui serviciu telefonic, va alege opţiunea cerută dintr-un meniu prestabilit; în cazul lui Siri, va iniţia una apel sau va căuta ceva online. Roboţii din „Transformers” ar salva, invariabil, lumea.

Ghid de cumpărături

Top articole

Partenerii noștri

Click!

OK! Magazine

Click! Pentru femei

Click! Sănătate