Maggio 28, 2024

GExperience

Se sei interessato alle notizie italiane Today e rimani aggiornato su viaggi, cultura, politica, situazione pandemica e tutto il resto, assicurati di seguire Life in Italy

Monna Lisa rap?  La nuova intelligenza artificiale di Microsoft anima i volti dalle foto

Monna Lisa rap? La nuova intelligenza artificiale di Microsoft anima i volti dalle foto

Ana Ryu/Visual China Group/Getty Images

Un cartello di Microsoft è visibile presso la sede dell'azienda il 19 marzo 2023 a Seattle, Washington.


New York
CNN

La Gioconda ora può fare molto più che semplicemente sorridere, grazie alla nuova tecnologia AI di Microsoft.

La settimana scorsa, i ricercatori Microsoft hanno sviluppato nel dettaglio un nuovo modello di intelligenza artificiale in grado di acquisire un'immagine fissa di un volto e un clip audio di qualcuno che parla e creare automaticamente un video dall'aspetto realistico di quella persona che parla. I video, che possono essere creati da volti della vita reale, così come caricature o opere d'arte, sono completi di convincenti sincronizzazioni labiali e movimenti naturali del viso e della testa.

In un video sperimentale, i ricercatori hanno mostrato come hanno animato la Gioconda per recitare una canzone rap comica dell'attrice Anne Hathaway.

Vengono chiamati gli output del modello AI Vasa-1, entrambi divertenti e alquanto contraddittori nella loro realtà. Microsoft ha affermato che la tecnologia potrebbe essere utilizzata per l’istruzione, “migliorando l’accessibilità per le persone con difficoltà di comunicazione” o forse per creare compagni virtuali per gli esseri umani. Ma è anche facile capire come lo strumento possa essere abusato e utilizzato per impersonare persone reali.

È una preoccupazione che va oltre Microsoft: man mano che emergono sempre più strumenti per creare immagini, video e clip audio avvincenti generati dall'intelligenza artificiale, Gli esperti sono preoccupati E il loro uso improprio può portare a nuove forme di disinformazione. Alcuni temono anche che la tecnologia possa ulteriormente sconvolgere le industrie creative, dai film alla pubblicità.

Al momento, Microsoft ha dichiarato di non avere intenzione di rilasciare immediatamente al pubblico il modello VASA-1. La mossa è simile al modo in cui il partner Microsoft OpenAI affronta le preoccupazioni circostanti Strumento video generato dall'intelligenza artificialeSora: OpenAI ha preso in giro Sora a febbraio, ma finora lo ha reso disponibile solo ad alcuni utenti professionali e professori di sicurezza informatica a scopo di test.

READ  Tom Brady è stato fatto saltare in aria da Nate Clements nel 2001

“Ci opponiamo a qualsiasi comportamento volto a creare contenuti fuorvianti o dannosi per persone reali”, hanno affermato i ricercatori di Microsoft in un post sul blog. Ma hanno aggiunto che la società “non ha intenzione di rilasciare” pubblicamente il prodotto “finché non avremo assicurato che la tecnologia venga utilizzata in modo responsabile e in conformità con le normative appropriate”.

I ricercatori hanno affermato che il nuovo modello di intelligenza artificiale di Microsoft è stato addestrato su diversi video di volti di persone mentre parlano ed è progettato per riconoscere i movimenti naturali del viso e della testa, inclusi “il movimento delle labbra, l'espressione (non labiale), lo sguardo fisso e il battito delle palpebre, tra gli altri. ” altre cose”. Il risultato è un video più realistico quando VASA-1 esegue la panoramica di un'immagine fissa.

Ad esempio, in un video di prova impostato su una clip di qualcuno che appare agitato, apparentemente mentre gioca ai videogiochi, il volto che parla aveva le sopracciglia aggrottate e le labbra increspate.

Lo strumento AI può anche essere indirizzato per produrre un video in cui il soggetto guarda in una certa direzione o esprime una certa emozione.

Osservando da vicino, ci sono ancora segni che i video siano generati automaticamente, come sbattimenti di palpebre poco frequenti e movimenti esagerati delle sopracciglia. Ma Microsoft ha affermato di ritenere che il suo modello “superi in modo significativo” altri strumenti simili e “apre la strada a interazioni in tempo reale con avatar realistici che imitano i comportamenti conversazionali umani”.