Deepfake, le meilleur et le pire
À l’instar du clip de The Heart Part 5 de Kendrick Lamar, les deepfakes s’immiscent de plus en plus dans la pop culture. Simple joujou visuel du moment ou tendance de fond plus interpellante? Décryptage.
C’est ce qui s’appelle opérer un retour en fanfare. Le 13 mai dernier, cinq ans après son dernier album, Kendrick Lamar sortait Mr. Morale & the Big Steppers. Collectionnant les critiques élogieuses, le disque a également signé le plus gros démarrage de l’année aux États-Unis. Il faut dire que le terrain avait été bien préparé… Quelques jours auparavant, le rappeur dévoilait le clip de The Heart Part 5. Cadrée comme un simple plan fixe, face caméra, la vidéo va marquer les esprits grâce à son utilisation de la technologie deepfake. Le procédé est désormais connu: grâce à l’intelligence artificielle, une voix ou un visage peut en remplacer un(e) autre. Après 1 minute 30, Kendrick Lamar prend ainsi les traits d’O.J. Simpson, avant d’enchaîner avec les visages de Kanye West, Jussie Smollett (acteur de la série Empire, qui avait créé le scandale en mettant en scène sa propre agression homophobe), Will Smith, l’icône Kobe Bryant, disparu dans un accident d’hélicoptère en 2020, et le rappeur Nipsey Hussle, assassiné un an plus tôt. Le tout avec une finesse d’exécution qui a bluffé tout le monde.
Au même moment, Kanye West sortait lui la vidéo de Life of the Party. Partageant un même amour pour le sample de musique soul (The Dramatics ici, Marvin Gaye dans le cas de Lamar), la vidéo était l’occasion de proposer un autre deepfake. En l’occurrence, West a animé des clichés de lui gamin, reprenant les paroles de la chanson. Au petit jeu des comparaisons, il n’y a pas… photo: le trucage de Life of the Party est (volontairement?) beaucoup plus approximatif que celui de The Heart Part 5. Mais il montre bien à quel point cette technologie est en train de s’imposer dans la culture pop. Quand il a annoncé son grand retour, le week-end dernier, le groupe français Phoenix a balancé un court teaser sur les réseaux. Quelques secondes à peine, juste le temps de voir le portrait du jeune William Fraser of Reelig, peint en 1801, prendre vie, bougeant la tête sur la musique.
Certes, le monde du clip n’a jamais été avare d’effets visuels, plus spectaculaires les uns que les autres. En 1991 déjà, après l’emblématique Thriller, Michael Jackson marquait à nouveau l’Histoire de la vidéo avec Black or White. Raccord avec son universalisme We Are the World, le King of Pop y chante que, vraiment, “peu importe que l’on soit Noir ou Blanc”, tandis qu’à l’écran, des visages d’humains venus des quatre coins du monde se fondent les uns dans les autres. À l’époque, il n’est pas encore question de deep fake. On parle plutôt de morphing. Le trucage graphique va devenir l’une des grosses tendances visuelles de la décennie. De Snoop Dogg qui se transforme en chien dans Who Am I (What’s My Name) (en 1993) en passant par les Backstreet Boys (permutant leurs identités dans le clip de As Long As You Love Me, en 1997) ou même Björk (la transformation de son visage sur Hunter, la même année)…
Une question de perspective
Aujourd’hui, les astuces permises par l’intelligence artificielle poussent le subterfuge encore plus loin. Avec les hologrammes, les deep fakes sont devenus le dernier joujou de la pop culture. Ils s’immiscent aussi bien dans les nouveaux médias (plus de 3 millions d’abonnés pour le compte TikTok deeptomcruise, dont l’auteur publie des vidéos sous les traits du célèbre acteur) que sur les anciens (la dernière émission de Thierry Ardisson, dans laquelle l’animateur interviewe des morts célèbres, en commençant par Dalida).
Que l’artifice trouve aujourd’hui une certaine forme de consécration via un clip de rap n’est sans doute pas complètement anodin non plus. Comme l’écrit le critique Marc Hogan, sur le site Pitchfork, le genre a toujours aimé s’approprier les technologies pour mieux les détourner -qu’il s’agisse des platines, de l’auto-tune ou des boîtes à rythme TR-808. Dans le cas du clip de Kendrick Lamar, l’utilisation du deepfake est tout sauf gratuite. “En prenant de l’âge, je me rends compte que la vie est une question de perspective. Et ma perspective peut être différente de la tienne”, annonce le rappeur au début du morceau. Convoquant des figures noires à la fois iconiques et controversées, il multiplie les sous-textes. Il se change par exemple en Kanye West quand il évoque ses “amis bipolaires” (maladie diagnostiquée chez le rappeur). Plus loin, il se glisse dans la peau de Will Smith. Alors que celui-ci est en pleine polémique des Oscars (sa gifle infligée à Chris Rock), il le fait parler, comme une parabole, d’un “ pays où les gens meurtris blessent encore plus de gens”. Mais c’est en prenant l’apparence de Nipsey Hussle, abattu de dix balles en pleine journée, sur le parking d’un magasin, que Kendrick Lamar pousse le procédé dans ses derniers retranchements. Il n’a plus seulement l’apparence de Hussle, il le fait également parler post-mortem: “ Je ne dois pas être de chair pour vous embrasser tous (…) Célébrez ma mémoire avec respect/L’unité que nous chérissons est au-dessus de tout.”
En réalité, ce n’est pas la première fois que Kendrick Lamar entame un dialogue avec des disparus. Sur l’album To Pimp a Butterfly (2015), il avait déjà re-monté une interview de Tupac, autre rappeur-martyr, pour donner l’illusion d’une discussion entre lui et son idole. Avec The Heart Part 5, la manœuvre est d’autant plus frappante qu’elle ajoute l’image au récit. Les crédits de la vidéo citent les studios Deep Voodoo. Ils ont fait de la technologie leur grande spécialité, l’outil privilégié pour exploiter le goût de la satire de leurs fondateurs Matt Stone et Trey Parker, les créateurs de South Park. En témoigne la websérie Sassy Justice, qui tourne en dérision aussi bien Trump que Mark Zuckerberg… Avec une telle expertise, pas étonnant donc que le clip de The Heart Part 5 soit à ce point abouti et “réaliste”.
Lire aussi | Kendrick, l’empathique
To be or not to be
C’est d’ailleurs bien ce qui a aussi posé question. En se réappropriant si fidèlement le visage de célébrités, qu’elles soient disparues ou encore vivantes, Kendrick Lamar n’a-t-il pas violé le droit à l’image? Au-delà de la question juridique, l’enjeu n’est-il pas aussi simplement moral: jusqu’à quel point peut-on faire parler une personnalité décédée, a fortiori en prenant son apparence? “La vidéo de Kendrick Lamar est un chef-d’œuvre, a titré le média Vice. Et c’est bien pour cela qu’elle pose problème.” Le rappeur a-t-il en effet ouvert la boîte de Pandore? Quand l’artifice est si efficace, faut-il craindre de voir se flouter toujours plus la limite avec la réalité?
La technologie deepfake fait rarement l’économie de la polémique. En 2018 déjà, l’acteur et réalisateur Jordan Peele mettait en garde contre ses potentielles dérives, en produisant une vidéo dans laquelle un Barack Obama plus vrai que nature avouait que le président Donald Trump était pour lui une “ grosse merde”… Entre-temps, les outils se sont encore affinés -les applications DeepFaceLab, ou FaceSwap sont à la portée de tous-, et la “menace” s’est précisée. Il y a deux mois, un deepfake, assez grossier il est vrai, du président ukrainien Zelensky appelait son armée à capituler… Sur les sites porno, les deepfakes d’acteurs célèbres en pleins ébats cartonnent. Surtout s’ils sont présentés comme des soi-disant sex-tapes confidentielles.
Pour revenir plus spécifiquement à la musique, la tromperie n’a pas forcément besoin de l’image. En se focalisant sur l’audio, le deepfake peut déjà créer la confusion. Lancé en 2019, le compte YouTube Vocal Synthesis s’amuse notamment à détourner la voix d’artistes connus. Comme The Notorious B.I.G. déclamant les paroles du tube American Pie, Bob Dylan reprenant … Baby, One More Time de Britney Spears, ou encore Frank Sinatra s’attaquant au Dancing Queen d’Abba. La plupart du temps, le résultat est plutôt drôle. La blague ne fait cependant pas rire tout le monde. Toujours sur Vocal Synthesis, Jay-Z entonne les fameux vers du Hamlet de Shakespeare. To be or not to be deepfaked, c’est précisement la question. À l’époque, le label du rappeur superstar avait demandé à YouTube de retirer la vidéo, invoquant une infraction du droit d’auteur. Sauf que l’utilisation de la voix n’est pas directement prise en compte par le copyright. Deux jours après avoir été supprimée, la vidéo a réapparu. Elle est toujours disponible aujourd’hui.
Le débat, lui, reste ouvert. Il est d’autant plus cocasse s’agissant de rappeurs. Après tout, le rap s’est construit en grande partie sur le sample, soit l’échantillonnage de disques. En échantillonnant elle-même la voix existante d’artiste pour la numériser et la détourner à volonté, l’intelligence artificielle procède-t-elle vraiment autrement?
Dr. Holly and Miss Herndon
De son côté, la musicienne électronique Holly Herndon a tranché. Férue d’électronique, titulaire d’un doctorat de l’Université de Stanford, la compositrice américaine a décidé d’embrasser la technologie. Avec son compagnon Mat Dryhurst, elle a même mis au point son propre deepfake, baptisé Holly+. Pour le coup, l’intelligence artificielle a pu bénéficier d’heures entières d’enregistrement de la voix de Herndon, aussi bien parlée que chantée. De quoi confectionner un outil particulièrement performant, fonctionnant dans plusieurs langues. Dans le dernier numéro du magazine américain semestriel Document, la compositrice avouait: “Quand Mat a essayé (pour la première fois l’outil), j’ai dû quitter la pièce, c’était vraiment trop bizarre. C’était ma voix, mais avec un peu de son accent anglais.” Sur YouTube, on peut trouver une présentation de Holly+, lors du dernier festival Sonar à Barcelone. Avec une démonstration en direct, exécutée à nouveau par Mat Dryhurst. En effet, le rendu est aussi amusant que… perturbant. Car le procédé pose pas mal de questions, qui deviennent même rapidement vertigineuses. Si une voix, élément pourtant essentiel de l’identité, devient parfaitement reproductible par la machine, à qui appartient-elle encore? Jusqu’à quel point peut-on revendiquer la propriété d’un timbre, d’un grain, et, dès lors, éventuellement interdire son exploitation? Plus simplement, si le procédé se multiplie, comment encore distinguer un enregistrement “naturel” d’un deepfake? Ou, pour paraphraser le critique Philip Sherburne, faudra-t-il toujours en croire ses oreilles?
Ces inquiétudes, une musicienne comme Holly Herndon ne les balaie pas. C’est au contraire parce que l’intelligence artificielle est là, présente, bientôt envahissante, qu’il convient de l’investir. C’est d’abord dans l’intérêt des créateurs, avance l’exploratrice numérique, qui cite souvent l’exemple de l’Amen Break: un break de batterie de Gregory C. Coleman, joué sur une face B des Winstons, groupe soul des années 60, et qui est souvent considéré comme l’extrait le plus samplé de l’Histoire. Et ce, sans que son auteur n’ait jamais touché le moindre centime, finissant sa vie SDF. Pour Herndon, la leçon est donc très claire: il vaut mieux plonger dans les nouvelles technologies si l’on veut éviter de s’y noyer.
Pour l’instant, Holly+ est mis à disposition du public gratuitement. Une manière d’à la fois contrôler l’outil et d’en faire la promo. Holly Herndon et Mat Dryhurst n’ont cependant pas abandonné l’idée de monétiser leur “instrument”. Ils ont d’ailleurs commencé à le faire en passant par la commercialisation de NFT sur la plateforme Zora. La musicienne a ainsi sélectionné une première série d’enregistrements réalisés avec Holly+, qui seront vendus sous la forme de NFT officiels (et, donc, non-reproductibles). Un peu comme si l’artiste sortait un album de remixes collaboratifs. Selon le Billboard, 50% des revenus sont destinés aux différents “créateurs”, 40% réinvestis dans l’outil, et 10% reversés directement à Holly Herndon pour l’utilisation de sa voix. Ou plutôt de son avatar vocal? On ne sait plus trop…
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici