La rivoluzione silenziosa

I telefoni cellulari e le tecniche di comunicazione vocale via Internet hanno modificato le nostre modalità di interazione con gli altri. La qualità sonora e la soppressione del rumore sono quindi oggi aspetti cruciali per garantire una fruizione eccellente delle comunicazioni vocali. Nella nostra esperienza quotidiana raramente ci troviamo in un ambiente veramente silenzioso e ci siamo talmente abituati al rumore che la maggior parte di noi nemmeno ci fa più caso. Tuttavia, in un mondo che diventa sempre più rumoroso, in cui usiamo sempre più spesso telefoni cellulari, laptop e webcam, diventa difficile filtrare tutto il rumore che ci disturba. Grazie alla rapida evoluzione della tecnologia elettronica, sono stati sviluppati diversi approcci e individuate diverse potenziali soluzioni per gestire il rumore e migliorare la qualità delle comunicazioni vocali. Le nuove idee nate nei laboratori di ricerca si sono trasformate in prodotti commerciali che risolvono problemi concreti. L’efficacia delle diverse soluzioni disponibili può variare notevolmente, e in molti casi ciò che viene percepito come una comunicazione chiara e pulita è fortemente soggettivo e influenzato dal contesto. Può essere difficile confrontare oggettivamente una soluzione con un’altra, o capire quale sia quella più adatta a una determinata applicazione.

Il valore di una soluzione tecnologica progettata per migliorare le funzionalità di comunicazione di un laptop, per esempio, è estremamente correlata al contesto nel quale si prevede di utilizzarlo. L’utilizzatore di un netbook che esegue una chiamata con Skype vorrà che il netbook capti solamente la sua voce e sopprima il rumore di fondo, mentre uno studente che utilizza lo stesso netbook per registrare una lezione vorrà captare efficacemente voci che provengano da una qualunque posizione dell’aula sopprimendo il rumore circostante. Una stessa soluzione può quindi rivelarsi efficace in un certo scenario e rivelarsi un disastro in un altro. Una soluzione di compromesso potrebbe non essere ottimale per entrambe le situazioni, ma offrire un valore concreto apprezzato da entrambi gli utilizzatori. Mappare le soluzioni disponibili in base al contesto operativo è di per sé già difficile, ma può diventare addirittura impossibile spiegare efficacemente le differenti tecnologie audio ad un consumatore finale quando tutti i prodotti che trova sullo scaffale vengono pubblicizzati con “ottime prestazioni audio”. Avendo pochissime opportunità di valutare l’audio con una demo, i consumatori sono spesso costretti a fidarsi del caso durante i loro primi acquisti.

Tecnologie di riduzione del rumore a confronto

Le tecnologie che consentono di ridurre il rumore sono classificate in tre grandi categorie: elettroacustiche, analogiche, digitali.

• Soluzioni elettroacustiche - Coinvolgono il progetto di alcuni elementi del microfono, la scelta e la posizione del microfono nei prodotti e la progettazione dell’accoppiamento tra il microfono e il suo supporto. I microfoni cancellatori di rumore o i microfoni sensibili al gradiente di pressione sono semplici esempi di soluzioni economiche che offrono moderati vantaggi in alcune situazioni. Una buona progettazione elettroacustica è importante per ottenere buone prestazioni da qualunque dispositivo di comunicazione vocale, ma queste prestazioni di base possono essere ulteriormente migliorate aggiungendo dei moderni circuiti digitali e analogici.

• Soluzioni analogiche -Prevedono una qualche diretta manipolazione dei segnali elettrici prodotti dal microfono o da una schiera di microfoni. Le soluzioni semplici, come la compressione o l’elaborazione direzionale basata sul “tempo di arrivo” possono essere più efficaci nella loro forma analogica poiché evitano gli stadi di conversione digitale. Però, le inevitabili variazioni costruttive nel processo di produzione dei semiconduttori influenzano direttamente le prestazioni delle soluzioni analogiche, che invece le soluzioni digitali sono progettate per evitare. Al crescere della complessità delle soluzioni analogiche progettate per offrire maggiori funzionalità, la variabilità delle prestazioni di ciascuno blocco di trattamento del segnale si somma a quelle dei blocchi seguenti e, di conseguenza, i prodotti analogici di maggior successo sono quelli per loro natura relativamente più semplici. Alle soluzioni analogiche manca anche quella flessibilità di funzionamento che è possibile ottenere con le soluzioni digitali, in quanto l’esecuzione delle elaborazioni sul segnale nei sistemi analogici è demandata ai circuiti progettati sul chip di silicio, anziché al software che viene eseguito all’interno di una struttura intrinsecamente più flessibile e programmabile.

• Soluzioni digitali - Prevedono il campionamento o la quantizzazione del segnale elettrico generato dal microfono e la sua successiva elaborazione in forma numerica da parte di un processore che esegue un algoritmo ripetibile. Il segnale elaborato viene poi trasmesso in formato digitale oppure ricostruito sotto forma di rappresentazione analogica migliorata del segnale vocale catturato dal microfono. Poiché le soluzioni digitali sembrano godere di molti vantaggi derivanti dall’attuale tecnologia microelettronica, non sorprende che la maggior parte delle soluzioni oggi disponibili sia di questo tipo.

I vantaggi della soluzione digitale

Le soluzioni digitali possono utilizzare qualunque algoritmo per ridurre il rumore o migliorare la qualità del segnale vocale captato dal microfono. Di solito questi algoritmi sfruttano la selettività spaziale (da dove proviene la voce?), la selettività temporale (quando qualcuno parla e quando nessuno parla?) e la selettività spettrale (la voce ha un tono più alto o più basso del rumore?). Alcune soluzioni sono focalizzate solamente su uno di questi aspetti, ma i risultati migliori si ottengono utilizzando una combinazione di vari criteri di selettività. È possibile introdurre ulteriori affinamenti sotto forma di controllo del guadagno, o l’uso di modelli avanzati delle condizioni ambientali e altri concetti. Una soluzione che si affida principalmente sulla selettività spaziale, nota anche come elaborazione direzionale o beam forming, si adatta bene alle applicazioni nelle quali la posizione dell’oratore rispetto al microfono è ben nota e definita. Questi approcci sono utilizzati nei computer notebook o nei telefoni cellulari, ma oltre agli indubbi vantaggi hanno anche degli inconvenienti. Nei computer notebook, questo scenario è realistico in una videochiamata dove serve captare il suono che rimane confinato nella direzione della videocamera, ma impedisce allo stesso computer di essere usato come telefono da conferenza, dove numerosi interlocutori sono seduti introno a un tavolo. Nei telefoni cellulari, la posizione della sorgente vocale è solitamente confinata in uno spazio ben definito, per ottenere una elevata ed efficace soppressione del rumore ambientale, ma ciò significa che se il telefono non è esattamente nella posizione che ci si aspetta, anche il segnale vocale viene drasticamente attenuato. Al contrario, una soluzione che si affida alla sola analisi statistica della voce umana per prendere decisioni istantanee su cosa considerare parlato e su cosa deve essere considerato e soppresso in quanto rumore, non è in grado di gestire efficacemente un più ampio campo di applicazioni. Sfortunatamente, queste soluzioni non sono mai completamente sicure sulle loro decisioni di discriminare correttamente tra parlato e rumore, pertanto, più sono tarate in modo aggressivo, più l’utilizzatore percepisce distorsioni che sono la conseguenza dell’errata classificazione della voce scambiata per rumore. Tipicamente, la voce rimane intellegibile, ma a scapito della naturalezza del parlato. In un telefono cellulare, questo difetto potrebbe non essere particolarmente rilevante, poiché la naturalezza viene già compromessa dalla rete wireless, ma in altre applicazioni, come un registratore vocale, il risultato potrebbe essere giudicato inaccettabile. Le migliori soluzioni digitali tendono a miscelare diversi algoritmi che adottano principi di funzionamento diversi combinandoli in modo intelligente. Queste soluzioni possono spesso essere adattate a diverse circostanze, ma aggiungono anche la complessità di tarare opportunamente o personalizzare ciascun progetto.