Voci imitate e sguardi finti, nuove (inquietanti) frontiere dell’AI

Nvidia Broadcast introduce una funzione che crea artificialmente il contatto visivo. Microsoft presenta Vall-E, programma di sintesi vocale che imita le voci all’istante.

Pubblicato il 13 gennaio 2023 da Valentina Bernocco

Deepfake audio sempre più sofisticati e video manipolati con “sguardi artificiali”, alterando la direzione degli occhi delle persone: sono alcune delle ultime frontiere dell’intelligenza artificiale che cerca di imitare o alterare la realtà. Distinguere il vero dal falso sarà sempre più difficile, come dimostra l’ultimo aggiornamento di Nvidia Broadcast, software open source per la trasmissione di video in streaming. Il programma usa l’intelligenza artificiale per migliorare i contenuti trasmessi in diretta su piattaforme social, siti Web o sistemi di videoconferenza, con funzioni di riduzione del rumore dell’audio e del video, aggiunta di sfondi virtuali, inquadratura automatica (l’utente resta al centro della scena anche se si muove). Nvidia Broadcast è un prodotto open source gratuito, che gli utenti possono scaricare direttamente e che gli sviluppatori possono integrare nelle proprie app richiedendo a Nividia un Sdk.

Nella nuova versione 1.4 l’applicazione aggiunge una capacità, attualmente ancora in beta: può alterare lo sguardo della persona inquadrata per far sembrare che sia puntato verso la telecamera o webcam, anche se sta guardando altrove. In sostanza, il contatto visivo viene creato artificialmente. Ancora non perfetta ma già molto realistica, la funzione Eye Contact conserva le condizioni di luce originarie, il colore dell’iride (scegliendo tra i milioni di varianti in catalogo) e anche i battiti di ciglia della persona.

Nvidia ha spiegato che questa novità “è ideale per i content creator che vogliono registrarsi mentre leggono appunti o uno scritto, o che non vogliono dover  guardare direttamente in camera. I presentatori di una conferenza video guarderanno negli occhi la persona con cui stanno parlando, migliorando il coinvolgimento con la propria audience”.  Se da un lato questa capacità di intelligenza artificiale crea stupore, dall’altro lascia la sensazione sgradevole di non poter più distinguere tra vero e falso, specie considerando quanto il contatto visivo è importante ai fini della comunicazione, delle relazioni e dell’empatia, ovunque e da sempre. Per la prima volta nella storia dell’uomo, questo valore diventa un effetto, un artificio simulabile. 

(Immagine: Nvidia)

Non meno ammirevole e non meno inquietante è VALL-E, un software per la sintesi vocale e il text-to-speech sviluppato da Microsoft e allenato sulla libreria audio LibriLight (creata da Meta e contenente 60mila ore di discorsi in lingua inglese di oltre settemila speaker). Tecnicamente si tratta di un modello di Neural Codec Language, anch’esso gratuito e open source, che Microsoft ha reso disponibile in demo tramite GitHub.

Programmi simili sono in circolazione da anni, ma la particolarità di VALL-E è quella di saper imitare accuratamente le voci con un training-lampo: basta un campione audio di appena tre secondi per poter riprodurre il timbro e l’inflessione della persona che sta parlando. Addirittura è possibile conservare l’ambiente sonoro di sottofondo (funzione utile se, per esempio, si vuole una traccia audio registrata per correggere un errore dello speaker).

A differenza di altri software di sintesi vocale, VALL-E genera dei codec audio discreti a partire dai fonemi e dall’acustica del contenuto di partenza. La tecnologia si presta a essere usata in varie applicazioni di sintesi vocale, come la trasformazione di testi in parlato “zero-shot” (una modalità di apprendimento automatico in cui il programma sa comprendere all’istante elementi nuovi,  non inclusi nel training), l’editing di tracce audio e la creazione di contenuti. Può anche funzionare in combinazione con altri modelli di AI generativi, come GPT-3 (tra l’altro sviluppato da OpenAI, società su cui Microsoft sta investendo pesantemente).

(Immagine tratta da GitHub)


Queste novità di Nvidia e di Microsoft sono solo esempi dell’ambivalente sviluppo dell’AI in applicazioni che potenzialmente prestano il fianco a utilizzi malevoli. Un deepfake può essere usato con obiettivi di comunicazione, di creatività, di arte, di marketing (come OneHours, che vende alle aziende dei testimonial pubblicitari artificiali, creati a partire da persone reali) o magari per scopi puramente ludici (possiamo citare FakeYou), ma anche per veicolare truffe, disinformazione, diffamazione e cybercrimine.

Fortunatamente c’è fermento anche sul fronte opposto, quello delle tecnologie di intelligenza artificiale che sanno smascherare gli artifici dell’AI stessa: ne è esempio FakeCatcher, un programma sviluppato da Intel e capace di distinguere, in un video, se la persona è reale o finta analizzando le micro variazioni del colore della pelle. Il software è stato allenato per imparare a riconoscere i piccoli cambiamenti di colore delle vene che traspaiono sulla superficie della pelle, una tecnica che rimanda alla fotopletismografia e già usata in ambito medico per la diagnosi di alcune patologie.

Tag: intelligenza artificialedeepfake

https://www.ictbusiness.it/cont/news/voci-imitate-e-sguardi-finti-nuove-inquietanti-frontiere-dell-ai/47335/1.html#.Y8i043bMLIU

Leave a Reply

Your email address will not be published. Required fields are marked *