Microsoft ha sviluppato VALL-E, un’intelligenza artificiale (AI) in grado di simulare un suono da un campione di soli tre secondi. Alcune delle dimostrazioni sono molto convincenti. L’azienda comprende il pericolo di mettere uno strumento del genere nelle mani sbagliate.
Per saperne di più su questa notizia, scopri il registro audio di Vitamine Tech, in cui Emma Hollin ti parla in dettaglio di come funziona VALL-E. ©Futuro
distanza” Falso profondo Con foto o video, vedremo l’arrivo del suono “deep fake”? È possibile da allora MicrosoftMicrosoft Presentazione di un nuovo modelloIntelligenza artificiale (AI) chiama sintesi vocale la Valle. la sua privacy? Può imitare la voce di una persona e quindi simularla con un semplice campione audio di tre secondi. Una volta che ha appreso una voce specifica, questa IA può sintetizzare la voce di quella persona, preservandone il timbro e l’emozione.
In Microsoft si ritiene che VALL-E possa essere utilizzato per ApplicazioniApplicazioni Sintesi audio, ma anche, e questo è ovviamente più preoccupante, modificare il discorso nella registrazione. Sarà possibile editare e modificare l’audio da un file trascrizionetrascrizione Testo vocale. Immagina il discorso di un politico cambiato da questo Intelligenza artificialeIntelligenza artificiale…
Le “machine learning” in azione
Per l’azienda, VALL-E è quello che chiamano un “paradigma del linguaggio di codifica neurale” ed è basato sul pressione sonorapressione sonora di nome EnCodec, svelato da Meta (Facebook) lo scorso ottobre. A differenza di altri metodi di sintesi vocale che di solito sintetizzano il parlato manipolando le forme d’onda, VALL-E genera codec audio da campioni di testo e audio. Fondamentalmente analizza la voce di una persona e suddivide tali informazioni in simboli (simbolisimboli) di EnCodec e utilizza l’apprendimento automatico per abbinare il campione di tre secondi a ciò che hai appreso.
Per questo, Microsoft si è affidata alla libreria audio Libre Lite. Contiene 60.000 ore di lingua inglese da oltre 7.000 parlanti, la maggior parte delle quali tratte da audiolibri di pubblico dominio LibriVox. Affinché VALL-E produca un risultato significativo, il suono nel campione di tre secondi deve corrispondere a un suono nei dati di addestramento.
Devo fare qualcosa al riguardo.
Esempio © VALL-E
Microsoft è consapevole del pericolo
Per convincerti, Microsoft offre Decine di esempi audio Il modello AI in azione. Alcuni sono stranamente simili, ma altri sono chiaramente artificiali e l’orecchio umano può dire che sono AI. La cosa impressionante è che oltre a preservare il tono e l’emozione della persona che parla, VALL-E è in grado di riprodurre l’ambiente e le condizioni di registrazione. Microsoft prende l’esempio di una telefonata con le caratteristiche vocali e di frequenza di questo tipo di conversazione.
In risposta a una domanda sui pericoli di tale intelligenza artificiale, Microsoft ha confermato che il codice sorgente non è disponibile e la società ne è a conoscenza. Ciò può portare a potenziali rischi di abuso di forma, come la rappresentazione o la rappresentazione di un oratore specifico. Per mitigare questi rischi, è possibile costruire un modello di rilevamento per differenziare se un fonogramma è stato realizzato da VALL-E. Metteremo in pratica anche i principi dell’intelligenza artificiale di Microsoft durante lo sviluppo ulteriore dei modelli. ».
“Creatore di problemi. Appassionato di social media. Appassionato di musica. Specialista di cultura pop. Creatore.”