Expériences sur le potentiel de l'imagerie par IA pour les utilisateurs aveugles

L'intelligence artificielle pourrait aider les personnes aveugles à employer la rhétorique visuelle de manière inattendue

Jun 16, 2023

[ Read and share this story in English here ]

Quatre images photoréalistes générées à partir d'un texte écrit par Cosmo Wenman via DALL-E. 1) Gros plan du visage d'une personne, très proche de celui d'une sculpture en bronze, posant sa main dessus. Image photoréaliste avec un éclairage sombre et dramatique. 2) Sculpture en bronze apparemment asiatique, visible du menton jusqu'à l'aine. Elle est représentée avec un vêtement fluide ouvert sur la poitrine. Deux mains se tendent pour la toucher. Image photoréaliste avec un éclairage et une ambiance sombres et dramatiques. Effet de flou cinétique, comme s'il s'agissait d'une photographie spontanée. 3) Main ouverte, paume vers le bas, sur une carte du terrain en bronze avec des détails en 3D. Éclairage et ambiance sombres et dramatiques. 4) La moitié avant d'une élégante sculpture en bronze d'une panthère, avec une main tendue pour la toucher. Éclairage sombre et ambiance dramatique, effet de flou cinétique, comme s'il s'agissait d'une photographie spontanée. — *Cosmo Wenman via DALL-E*

Les systèmes d'intelligence artificielle, entraînés à naviguer entre des milliards de textes et d'images de référence, sont capables de synthétiser les messages textuels des utilisateurs en de nouvelles images, extrêmement rapidement et à moindre coût. Avec une simple phrase comme « Photographie de mains touchant une sculpture en bronze », les outils de synthèse d'images par l'IA peuvent générer quasi instantanément des visuels réalistes, attrayants et originaux. Lorsque presque tout le monde pourra créer des images personnalisées et accrocheuses à la demande, la question de savoir quelles images méritent l'attention et ce qu'elles véhiculent deviendra plus importante.

Dans le cadre de ma conception et de ma fabrication d'expositions accessibles à tous, de répliques d'œuvres d'art et d'outils d'orientation destinés à l'exploration pratique, je suis fréquemment amené à préparer et à transmettre des informations non visuelles à des publics aveugles. Naturellement, je me suis demandé si la synthèse d'images par l'IA pouvait être utilisée dans l'autre sens : les personnes aveugles peuvent-elles utiliser les outils de synthèse d'images par l'IA pour communiquer un sens visuel à des publics voyants ?

Incapables d’évaluer ou de garantir directement les propriétés visuelles ou la fidélité des images qu’ils peuvent créer, les utilisateurs aveugles peuvent-ils s’appuyer sur des images générées par l’IA pour communiquer quoi que ce soit de significatif ou de précieux, et d’où viendrait ce sens ?

À l'automne 2022, j'ai demandé à mes collègues Brandon Biggs, Joshua Miele et Lindsay Yazzolino, tous aveugles, s'ils souhaitaient expérimenter ces questions. Les trois chercheurs, tous experts en conception de technologies accessibles, ont rédigé des descriptions sur des sujets variés, allant de l'orientation aux objets du quotidien, en passant par l'infographie et le design, la culture pop et des écrits plus personnels et créatifs. J'ai traité leurs textes dans le système de génération de texte en image Midjourney AI pour produire des milliers de nouvelles images, avec des résultats mitigés et fascinants.

Les images représentant des animaux et des œuvres d'art visuel emblématiques illustrent les défis inhérents et historiques de notre collaboration, ainsi que les capacités et les limites de l'outil. Elles laissent également entrevoir la perspective fascinante de voir des utilisateurs aveugles créer des images et captiver l'attention d'un public voyant grâce à un discours visuel percutant, d'une manière jusqu'alors inédite.

ILLUSTRATION D'UNE ANCIENNE PARABOLE

Brandon Biggs est chercheur, ingénieur et doctorant en informatique centrée sur l'humain au Georgia Institute of Technology. Il est aveugle. Les images ci-dessous ont été générées à partir de sa description d'un animal qu'il a volontairement omis d'identifier : « un grand animal quadrupède doté d'une longue trompe, de grandes oreilles, de longues défenses, d'une peau glabre et d'un corps lourd. »

Huit images de créatures aux traits éléphantesques. L'une présente une créature en bois ou en cuir, se tenant sur des appendices en forme de tronc d'arbre, avec une défense recourbée et un appendice en forme de trompe. Une autre représente une créature aux pattes allongées, aux défenses recourbées et dépourvue d'oreilles. L'une présente un mélange de traits éléphantesques, notamment des oreilles en forme d'ailes et des appendices en forme de trompe, reposant sur une seule patte. Une autre montre une créature aux membres de forme étrange, à la tête pointue et à la longue extension en forme de trompe. Une créature taxidermique ressemblant à un éléphant en décomposition, avec une défense recourbée, est représentée sur trois pattes. On trouve également une créature avec une tête en forme d'élan ou de rhinocéros, une corne dressée et des traits éléphantesques. Une autre montre un animal ressemblant à un gnou, avec des cornes de bélier et des lèvres caractéristiques, accompagné d'une corne recourbée flottante dans un environnement de savane. Enfin, un éléphant d'Afrique avec de très légères déviations de proportions, comme une extrémité de tronc fine, une défense extra courte et des orteils supplémentaires, est observé dans un environnement semblable à la savane. — *Brandon Biggs via Midjourney*

Par conception, les participants au projet ont décrit nombre de leurs sujets sans les nommer directement. En effet, demander à Midjourney de générer l'image d'un « éléphant », par exemple, lui permettrait d'accéder directement à des images familières, au lieu de tester sa capacité à construire des images à partir des textes uniques des utilisateurs. En laissant nos sujets anonymes, nous avons intégré Midjourney à l'ancienne parabole bouddhiste sur les perceptions contradictoires des aveugles à l'égard d'un éléphant. Nous avons testé la capacité de l'IA à construire des représentations visuelles cohérentes à partir de perspectives nouvelles, différentes et non visuelles.

En réponse, Midjourney nous a donné des images d'assemblages étranges, semblables à des animaux, avec des caractéristiques éléphantesques, faits de matériaux en bois ou en cuir desséchés, ainsi que des rendus assez réalistes d'un animal ressemblant à un gnou et d'éléphants immédiatement reconnaissables.

Joshua Miele, membre émérite du département Handicap, Accessibilité et Design à l'Institut Othering and Belonging de l'Université de Californie à Berkeley, est chercheur spécialisé dans la conception de technologies adaptatives. Il est également aveugle. Il a décrit un animal que la plupart des gens ne connaissent que de vue :

« Un mammifère quadrupède au pelage fauve tacheté de noir, à la courte queue en balai et au cou très haut surmonté d'une tête étonnamment petite, presque celle d'un chihuahua, arborant un nez retroussé, sans oreilles et deux courtes cornes verticales terminées par des protubérances noires. »

Biggs a décrit le même animal, mais de manière plus concise : « Grand animal à quatre pattes avec un très long cou, des oreilles pointues, des taches et des sabots. »

Huit images d'animaux insolites. L'une montre une petite créature canine aux grandes oreilles et aux grands yeux, à la fourrure noire tachetée de blanc et à la patte arrière supplémentaire. Une autre montre une créature au corps canin, avec quatre longues pattes fines et un nez allongé ou une corne. Une autre petite créature au corps canin, aux oreilles courtes et larges et à la corne unique sur le front. L'une montre un animal anatomiquement unique, à mi-chemin entre un chien, une gazelle et une girafe, avec une tête de chihuahua, une corne courte et des pois noirs. Une autre montre une créature particulière à trois pattes, une queue en forme de plume et un long cou effilé. Une autre créature, semblable à un cheval ou à un chien, possède trois pattes, une tête en forme de girafe et une fourrure ou un tissu froissé tacheté. Une autre montre un animal invraisemblable avec deux longues pattes à l'avant, une patte épaisse à l'arrière et une protubérance en forme de corne au-dessus de l'épaule. Enfin, il y a une représentation d'une girafe avec des imperfections mineures, comme une protubérance supplémentaire en forme de corne et une queue supplémentaire. — *Rangée du haut : Joshua Miele. Rangée du bas : Brandon Biggs. Via Midjourney.*

Privé d'un indice textuel simple comme « une girafe », Midjourney a fait de son mieux pour construire des créatures à partir de ces descriptions. Certains résultats sont étranges et surnaturels, mais par leur étrangeté, quelques-unes des images évoquent les illustrations des naturalistes européens du XVIIe siècle ou les représentations d'animaux exotiques invraisemblables et invisibles des enlumineurs médiévaux, tirées uniquement de témoignages de seconde ou troisième main. Certaines semblent même inclure des textures de parchemin et des écritures à l'encre. Elles rappellent que les défis de la génération d'images à partir du langage sont très anciens, plus anciens même que le texte lui-même.

Quatre illustrations médiévales et du XVIIe siècle représentant une variété d'animaux étranges. L'une d'elles représente une créature au corps canin, à la queue courte et au cou incroyablement long, semblable à celui d'un serpent, avec une tête de lion et une gueule ouverte. Des lettres calligraphiées accompagnent l'illustration. Un autre dessin représente grossièrement une girafe au corps de cerf, aux longues pattes et au cou fin et courbé. Sa tête ressemble à celle d'un lapin avec une gueule de chien. Un manuscrit médiéval présente un animal au corps de chameau, à la tête bleue de chien et à deux bosses sur le dos, entouré d'arbres et sur un fond doré. La dernière image représente une girafe, jolie mais gracieuse, allongée sur le sol, au corps de léopard, au cou légèrement courbé et à la corne qui dépasse de l'arrière de la tête. — *Illustrations médiévales et du XVIIe siècle de girafes.*

Il y a aussi des défis dans l'autre sens. Les descriptions textuelles de Biggs et Miele elles-mêmes, mentionnant de longs cous et des taches, font écho à des limitations linguistiques de longue date pour décrire la nouveauté visuelle. De l'Antiquité au XVIIe siècle, l'animal en question était connu de nombreux Occidentaux par un simple amalgame de noms de bêtes plus familières : Camelopard, du grec Kamilopárdali, pour chameau + panthère ou léopard. Comme dans ce nom, les éléments individuels des descriptions de Miele et Biggs sont reconnaissables par les spectateurs voyants dans toutes leurs images, même dans les compositions qui ont peu de ressemblance visuelle avec les girafes.

Il n'y a aucune limite au nombre d'interprétations visuelles concurrentes pouvant être générées, même à partir d'un extrait d'écriture qui ne met en évidence que quelques traits saillants. Il semble donc miraculeux que Midjourney puisse se rapprocher de la précision d'une description. Pourtant, plusieurs des images de girafes de Biggs étaient des sosies. Il a eu de la chance, et un avantage considérable sur les moines médiévaux : la synthèse texte-image par IA est comparable à des caractères mobiles pour la rhétorique visuelle. La description plus simple de Biggs a apparemment suffi à guider Midjourney vers l'intersection statistique et sémantique de son texte et des régions « girafes » de milliards d'images de référence de l'IA, et à sélectionner les jeux de caractères visuels appropriés.

Quelle doit être la précision des descriptions écrites des utilisateurs aveugles pour qu'ils puissent saisir de larges fragments thématiques de rhétorique visuelle et établir des liens significatifs avec la culture visuelle que les voyants pourraient reconnaître ou auxquels ils pourraient réagir ? Et si nous nous aventurons sur un terrain profondément subjectif, comment évaluer les résultats ? Quels critères utiliser ? Que nous apprennent les échecs et les limites ? Que signifient les images ?

DÉCODAGE ET RECODAGE DU PATRIMOINE CULTUREL

La Cène de Léonard de Vinci, vers 1495-1498. Ce tableau est environ deux fois plus large que haut. Dans sa partie inférieure, la composition est principalement occupée par une longue table horizontale, Jésus assis au centre, ses douze apôtres à sa gauche et à sa droite. Les personnages sont tous tournés vers le spectateur. Ils se trouvent à l'intérieur, et la majeure partie de la partie supérieure est consacrée à des détails architecturaux précis et géométriques, tels que les murs, le plafond et, à l'arrière-plan, trois fenêtres verticales avec Jésus encadré dans la fenêtre centrale. Un paysage verdoyant est visible au loin à travers les fenêtres. La table est dressée avec une nappe blanche, des verres à vin, des cruches d'eau, des bols, du pain, du poisson et des fruits. Le groupe est représenté au moment où Jésus leur annonce que l'un d'eux le trahira. Chaque apôtre réagit avec des gestes et des expressions différents. — *La Cène de Léonard de Vinci*

Lindsay Yazzolino est une spécialiste et chercheuse en technologies tactiles, aveugle. Elle conçoit des outils d'orientation et de communication tactile. Avec Biggs, elle a décrit plusieurs œuvres d'art visuel célèbres, une proposition inhabituelle et stimulante, et ce, pour des raisons plus qu'évidentes. « L'exposition et les références implicites des personnes voyantes aux arts visuels, ainsi que leurs allusions à leur contenu et à leur signification, excluent généralement les personnes aveugles du discours sur ces sujets », explique Biggs.

Fournir à Midjourney des descriptions d'œuvres non identifiées par leur nom – considérées comme acquises et rarement expliquées en détail par les personnes voyantes – permet non seulement de tester l'IA en la contraignant aux descriptions spécifiques des auteurs, mais aussi de permettre aux utilisateurs aveugles d'illustrer leur propre compréhension non visuelle d'œuvres qu'ils ne connaissent que par les descriptions des personnes voyantes. Les images ainsi créées pourraient également servir de retour visuel intéressant aux créateurs voyants quant à leur capacité à communiquer avec le public non visuel au sujet d'œuvres importantes.

Les images générées par l'IA de Biggs et Yazzolino peuvent, dans un certain sens, « échouer » à ressembler visuellement aux œuvres originales auxquelles elles font référence. Cependant, l'utilisation de sujets familiers uniquement aux publics voyants – et chargés de sens visuellement codés – pourrait nous donner une idée du potentiel de Midjourney pour élargir le discours, relier le langage des utilisateurs aveugles à des artefacts visuels pertinents et susciter des résonances significatives entre les textes des auteurs, leurs thèmes et leurs publics voyants, d'une manière que seule l'imagerie peut peut-être.

Interpréter ces résonances peut être intrinsèquement non scientifique, mais prendre au sérieux l'impact des images et les replacer dans un contexte historique et culturel est un élément important de l'évaluation du potentiel de communication de ces outils.

Pour illustrer le point de vue de Biggs sur l’exposition et le discours, il a décrit La Cène de Léonard de Vinci et a inclus un détail qu’il connaît de la Bible qui n’est pas réellement représenté dans l’œuvre de Léonard : « Un tableau de Jésus lavant les pieds d’un de ses disciples, tandis que les autres sont assis autour d’une table en train de dîner. »

La première image représente des personnages aux contours flous assis de chaque côté d'une table dans une pièce. Recouverte d'une nappe blanche, la table contient de grands bols d'eau. Ils tiennent des objets en forme de pieds. Les bras des personnages s'étendent au-dessus des bols, leurs mains se fondant en appendices. Un personnage central fait face au spectateur, tandis que des portes en arrière-plan créent de la profondeur. La deuxième image montre des personnages aux contours flous, assis à une table et à même le sol, avec des détails bruts. La troisième image montre des personnages grossièrement peints assis par terre dans une pièce, les mains au-dessus de bols. Une ouverture dans le mur laisse entrevoir une forme de crucifix en arrière-plan. La quatrième image représente six hommes en robe autour d'une petite table, l'un d'eux tendant la main vers un bol. Le style est détaillé, pictural, semi-réaliste et kitsch, souvent présent dans l'art chrétien occidental contemporain. — *Brandon Biggs via Midjourney*

Les styles des images qui en résultent vont du primitif au surréaliste, en passant par le kitsch, mais chacune évoque des rassemblements intimes et sombres. Et, spontanément, dans un clin d'œil apparent à Léonard de Vinci, dans l'une de ses images, Midjourney a disposé les sujets et leur table autour d'un point de fuite central – une construction qu'elle a radicalement bouleversée dans les images de Yazzolino représentant la même scène. Elle a décrit le tableau de Léonard de Vinci, qu'elle ne connaît que par d'autres descriptions, comme un « tableau célèbre représentant Jésus avec ses disciples la nuit précédant sa crucifixion ».

La première image présente une peinture impressionniste représentant une foule vêtue de robes bleues et blanches entourant un personnage plus grand, vêtu d'une cape rouge. Les visages sont peu visibles, et la scène se déroule la nuit, avec des arbres flous et une lune partiellement obscurcie. La deuxième image présente le portrait stylisé d'un homme aux cheveux noirs et à la barbe, représenté avec peu de détails. Il porte une robe multicolore, et une autre figure est représentée de manière abstraite derrière lui. La troisième image, un portrait libre et gestuel, montre plusieurs visages disposés en cercle autour d'un homme barbu central. Des bougies lumineuses et des objets intercalés entre eux créent une composition inspirée de l'iconographie médiévale. La quatrième image représente une scène nocturne détaillée avec une foule rassemblée autour d'un homme vêtu d'une robe. Un halo de lumière derrière sa tête évoque une impression de divinité. Le tableau possède une qualité semi-réaliste et narrative que l'on retrouve couramment dans l'art chrétien contemporain. — *Lindsay Yazzolino via Midjourney*

À l'instar de la composition de Léonard, plusieurs images issues de la description de Yazzolino invitent le spectateur à se poser face à face avec Jésus et ses disciples, Jésus au centre. Mais certaines vont bien plus loin. Dans une version, avec une croix marquée de cendres sur le front, Jésus nous regarde droit dans les yeux, blessés et ensanglantés.

Image surréaliste d'un homme, du buste jusqu'aux épaules, aux cheveux longs et à la barbe, regardant le spectateur droit dans les yeux avec une expression intense et lasse. Une croix cendrée marque le front et un œil est partiellement clos ou gonflé. Ses deux yeux sont rouges, coupés et ensanglantés. Autour du cou, un vêtement rouge vif évoque le sang. Sous son épaule se trouvent cinq têtes d'hommes beaucoup plus petits, étrangement floues et déformées. Au premier plan, sous les têtes des personnages plus petits, des silhouettes de personnes dos au spectateur observent les visages en brandissant des lampes ou des téléphones portables. Nous observons le tableau d'une position similaire. Leurs silhouettes et la lumière qu'elles projettent se combinent avec le tableau pour former une composition unifiée qui inclut le spectateur. Le caractère semi-photographique de l'image, la coiffure de l'homme, son col de chemise et son foulard autour du cou créent une impression vaguement moderne, voire anachronique. — *Lindsay Yazzolino via Midjourney*

Là où Léonard de Vinci maîtrisait parfaitement la perspective linéaire à un point, alors innovante, avec son architecture et son environnement s'éloignant au loin, la profondeur de cette nouvelle image est aplatie, comme vue à travers un téléobjectif. Dans une hiérarchie byzantine emblématique, Jésus est représenté bien plus grand que ses disciples, les dominant de toute sa hauteur.

Le point de fuite et l'échelle spatiale de cette composition ont non seulement été complètement inversés, mais Midjourney a apparemment synthétisé un élément spécifique de la description de Yazzolino – « un tableau célèbre » – en une perspective saisissante, résolument du XXIe siècle. Semblant reconnaître que les images de tableaux « célèbres » présentent souvent une foule de visiteurs au premier plan, Midjourney a représenté, au bas de cette composition, les nuques sombres des personnes qui contemplent le tableau avec nous ; nous sommes dans la salle bondée avec eux, regardant au-dessus d'eux. Ils sont à peu près de la même taille que les disciples et à leur portée. Un disciple, le troisième à gauche de Jésus – là où Judas est placé dans la représentation de Léonard – regarde ailleurs, tandis qu’un autre regarde vers le bas, directement vers les spectateurs représentés.

Détail des disciples de Jésus tournés vers l'extérieur, vers le spectateur. Au bas de l'image, on aperçoit l'arrière de la tête, assombri, des personnages qui contemplent le tableau avec nous. — *Lindsay Yazzolino via Midjourney*

Ces spectateurs, dans l'ombre, sont flous, comme photographiés en longue exposition, en faible luminosité, rétroéclairés par leurs propres lumières, qu'ils tiennent face au tableau – ce qui semble être des téléphones portables qu'ils utilisent pour créer leurs propres images du tableau dans l'image. La lumière jaune qu'ils projettent sur le tableau est rendue comme la lumière du tableau lui-même.

L'image synthétique de Yazzolino succède à celle de Léonard de Vinci en ne se contentant pas de s'adapter à ses spectateurs, mais en les intégrant, avec leur présence physique, leur éclairage, leur acte de contemplation et de mémorisation, et nous avec eux, dans le tableau que nous contemplons ensemble. Cette perspective communautaire est une manière saisissante de transmettre l'intimité et offre une toute nouvelle forme de profondeur.

La Naissance de Vénus de Sandro Boticelli, milieu des années 1480. Ce tableau est un peu plus de deux fois plus large que haut. Au centre, la déesse Vénus, nouvellement née, se tient nue sur une coquille Saint-Jacques géante. Ses longs cheveux roux et flottants lui donnent une peau pâle. Sa main gauche, droite, maintient ses cheveux sur son aine, et sa main droite, droite, couvre un de ses seins. À gauche, le dieu du vent Zéphyr souffle sur elle, le vent étant représenté par des lignes rayonnant de sa bouche. Il est en l'air et porte une jeune femme qui souffle également, mais avec moins de force. Tous deux ont des ailes. Ils poussent Vénus vers le rivage et projettent les cheveux et les vêtements des autres personnages vers la droite. À droite, une figure féminine, qui flotte peut-être légèrement au-dessus du sol, tend un riche manteau ou une robe pour couvrir Vénus lorsqu'elle atteindra le rivage, comme elle s'apprête à le faire. Le décor floral de sa robe suggère qu'elle représente le printemps. — *La Naissance de Vénus de Botticelli*

Yazzolino souligne que, dans son propre travail d'aide aux designers et aux commissaires d'exposition pour communiquer des informations visuelles à un public aveugle, « il semble parfois que même les personnes voyantes aient beaucoup de mal à identifier et à expliquer avec des mots ce qui est important dans une œuvre d'art. » Et cela ne concerne que l'image elle-même. Au-delà, il est impossible d'identifier toutes les connaissances tacites que les spectateurs voyants apportent lors d'une visite pour éclairer ou motiver leurs réactions. Des allusions subtiles, des gestes vaguement familiers, des couleurs ou des mythes oubliés, et un contexte crucial peuvent inciter un public voyant à reconnaître le sens d'une image, ou à en générer lui-même sans en connaître la différence.

Même si leurs auteurs aveugles ne peuvent pas se porter garants de ce que les personnes voyantes voient dans leurs images générées par l'IA, il y a certainement du sens à découvrir si nous y sommes ouverts, même si nous ne pouvons pas savoir avec certitude d'où ni quand il vient. Par exemple, les rendus de Midjourney de la description par Yazzolino de La Naissance de Vénus de Sandro Botticelli (XVe siècle) – « un célèbre tableau représentant une déesse représentée par la deuxième planète du système solaire » – laissent entrevoir la capacité de l'IA de Midjourney à exploiter un catalogue visuel riche de la culture populaire pour créer des figures, des visages et des styles évoquant des divinités antiques et classiques.

Yazzolino n'a bien sûr pas mentionné le nom de « Vénus », mais deux de ses images présentent une femme en pose de face, les mains levées de chaque côté, à l'image d'Ishtar, la déesse babylonienne de l'amour, de la beauté, de la fertilité et de la guerre, associée à la planète Vénus, qui brandit des instruments symbolisant sa divinité dans la plaque Burney, vieux de 3 800 ans.

Three images. The first presents a woman in a symmetrical pose, her raised forearms and open palms accompanied by a basketball-sized planet floating in front of and obscuring her chest. Adorned with a medallion necklace and a diadem, she has a symmetrical symbol or halo, surrounded by star-like points of light and a hazy aura over her shoulders. The second image portrays a woman in a loose dress, her extended arms and poorly defined hands gesture toward nebula-like features and planet-like objects. A golden disk resembling a sun or halo, surrounded by stars, shines behind her head, while red, multicolored planetary horizons flank her against a night sky backdrop. The third image shows the Burney Relief, a sculpted Mesopotamian plaque in terra cotta featuring a winged, nude figure with bird's talons, feathered wings, and holding rod and ring symbols. Adorned with a four-tiered headdress, a necklace, and bracelets, the figure emerges from the plaque, accompanied by owls and standing upon lions. — *À gauche et au centre : Lindsay Yazzolino via Midjourney. À droite : Ishtar dans la plaque Burney.*

Une autre de ses images montre une figure féminine, sans bras, debout, drapée d'un tissu flottant qui lui tombe des hanches, telle la Vénus de Milo, sur un fond marbré représentant une planète. Une autre représente une figure féminine plus réaliste, les bras intacts, tenant une planète, avec le visage de Vénus de Milo.

Trois images. 1) Une figure féminine, au rendu approximatif, aux hanches larges, sans bras, aux épaules étroites et à la tête dénuée de traits, se tient devant une planète bleue marbrée. Elle porte une robe fluide qui descend jusqu'à ses pieds. 2) Une représentation picturale d'une femme, des hanches jusqu'en haut, regardant vers l'extérieur, au-delà du spectateur. Elle porte un vêtement qui couvre sa poitrine et s'enroule autour de son bras gauche. Ses épaules et son cou sont nus. Son expression neutre et agréable rappelle celle de la Vénus de Milo, notamment son front, son nez et sa tête tournée. Dans sa main droite, qui comporte trop de doigts, elle tient une planète. 3) Un gros plan de son visage. 4) Une photo de la Vénus de Milo, une sculpture grecque antique en marbre abîmé et usé par le temps, représentant une femme debout, légèrement penchée, le regard tourné vers le côté, l'air neutre et agréable. Un vêtement ample qui s'enroule autour de sa taille dissimule ses jambes. De la taille jusqu'en haut, elle est nue. Ses bras sont manquants. Sa pose est quelque peu contre nature et mystérieuse. — *À gauche et au centre : Lindsay Yazzolino via Midjourney. À droite : La Vénus de Milo, dans sa galerie aux murs de marbre au Louvre.*

Biggs a écrit deux descriptions du même Botticelli, donnant naissance à des visions mythiques radicalement différentes. Sa première description : « Une femme ailée survolant l’océan, avec un dieu du vent de chaque côté. Les dieux du vent ont une forme humaine et des ailes. »

Cinq images. Les trois premières sont des illustrations picturales d'une créature ailée, angélique ou fantomatique, flottant sur l'eau bleue, vêtue d'un vêtement ample et flottant. Ses grandes ailes s'étendent vers le haut. La quatrième image représente une figure féminine ailée portant une armure filigranée. Sa longue chevelure flottante est balayée par le vent. Elle émerge d'une vague. La cinquième image représente la Victoire de Samothrace, une sculpture grecque antique en marbre blanc, spectaculaire et plus grande que nature, représentant Niké, la déesse ailée de la victoire. Les bras et la tête du personnage ont disparu, seuls son corps, drapé dans un tissu fluide et finement sculpté, et ses ailes emplumées, rabattues vers l'arrière, sont intacts. Le vêtement est très ajusté à partir de la taille, révélant les contours de son ventre et de sa poitrine. Des plis et des creux fluides dans le vêtement de pierre la recouvrent de la taille aux pieds. Elle est sur la proue d'un navire de guerre, avançant à grands pas, atterrissant ou prenant son envol. Un tissu ample flotte derrière elle, porté et animé par le vent. — *À gauche et au centre : Brandon Biggs via Midjourney. À l'extrême droite : Victoire de Samothrace.*

L'accent mis par Biggs sur le vent et les ailes a peut-être incité Midjourney à créer une imagerie davantage inspirée de la sculpture grecque antique de la déesse Niké, la Victoire de Samothrace, avec ses ailes et son tissu balayé par le vent, se posant sur la proue d'un navire de guerre, que de Vénus ou de toute autre peinture de la Renaissance.

Dans sa deuxième description, Biggs s'est lui-même illustré en train d'explorer un hypothétique modèle tactile de Botticelli :

« Je déplace mes mains sur le rendu 3D de ce tableau. À droite, je sens un visage, une tête humaine et un corps humanoïde aux ailes s'étendant vers la gauche du tableau. Sous les pieds de cette créature, des vagues d'eau. En déplaçant mes mains vers la droite, je sens un autre corps humain, celui d'une femme, émerger de l'eau au centre du tableau. À droite, une autre créature humanoïde ailée fait face au côté droit du tableau. Les deux créatures, sur les bords du tableau, observent la femme au centre émerger de l'eau. »

Midjourney ne semble pas avoir formé un tout unique et cohérent à partir de la mise en scène spécifique de Biggs, mélangeant plutôt l’observateur avec son objet dans des compositions vives et fantastiques et des symétries ardentes qui évoquent les peintures religieuses mystiques de William Blake plus que celles de Botticelli.

1) Un visage féminin émergeant d'une masse ondulante aux contours semblables à des bras. Ses mains, semblables à des flammes, sont maintenues près de son visage comme un salut ou un avertissement. 2) Détail d'Ève tentée par le serpent de Blake. Ève nue se tient sous un arbre. Enroulé autour de ses pieds, s'élevant en spirale, un serpent jaune éblouissant au cou dentelé se cambre au-dessus d'Ève, sa tête au-dessus d'elle. Son bras levé salue ou annonce le serpent. Une cascade se déverse dans un étang, un paysage verdoyant rencontre un ciel d'un bleu profond. 3) Deux figures symétriques émergent des vagues qui se séparent. Des flammes irradient de leurs têtes, de la fumée s'élève avec un effet menaçant et dramatique. 4) Des traits symétriques tourbillonnants, semblables à des vagues, entourent une masse semblable à une branche qui ressemble à une figure debout. 5) Le Grand Dragon Rouge et la Femme vêtue de soleil de Blake. Une figure musclée, dos au spectateur, aux ailes déployées, semblables à celles d'une chauve-souris. Elle a trois têtes : des cornes de bélier ondulantes sur l'une, des couronnes sur les autres. Sa longue queue s'enroule autour d'une femme jaune lumineuse regardant le démon, ses pieds sur un croissant de lune. — Première, troisième et quatrième images : Brandon Biggs via Midjourney. Deuxième et dernière images : Détail d’Ève tentée par le serpent (1799-1800) et de Le Grand Dragon rouge et la femme vêtue de soleil (1805-1810) de William Blake.

Dans tous les cas, ce sont les textes des participants – et non leurs images – qui constituent l'expression définitive de leur compréhension des sujets, ou du moins de ce qu'ils ont choisi de nous en faire part. Pourtant, les traces visuelles des œuvres originales célèbres que l'on retrouve parfois dans les images de synthèse peuvent être frappantes et déroutantes, surtout compte tenu du caractère aléatoire et des descriptions succinctes de Midjourney.

Par exemple, Yazzolino a décrit La Nuit étoilée de Vincent van Gogh comme un « tableau célèbre représentant une scène céleste d'obscurité ». Outre leur thème, aussi intéressantes, sombres et attrayantes soient-elles, les images qui en résultent, sans ses coups de pinceau vibrants, présentent peu de similitudes visuelles avec l'œuvre de Van Gogh.

Quatre images de la lune dans un ciel nocturne menaçant, nuageux et sombre, et une cinquième image d'un tableau bleu vif : 1) La lune entourée d'un fin halo, comme lors d'une éclipse. Des personnes se pressent autour d'un bassin de lumière jaune vif. Des silhouettes sombres se fondent dans les nuages. 2) Des nuages argentés encerclent la lune. D'autres nuages encerclent un faible soleil couchant, des nuages ondulants étant illuminés par derrière par sa lumière jaune. 3) La lumière jaillit de la lune, illuminant les nuages. En dessous, les nuages forment un motif concentrique autour de la face réfléchie de la lune. 4) La lune se couche dans un cercle de ciel clair encadré de nuages et de montagnes. Au loin, un soleil se couche ou se lève. 5) La Nuit étoilée de Van Gogh. Des cyprès sombres et ondulés s'étendent vers le haut. Un petit village avec un clocher. De douces collines à l'horizon. Le ciel hautement stylisé est composé de bleus audacieux, de nuages tourbillonnants et ondulants, d'étoiles jaunes lumineuses et d'un croissant de lune, peints avec des coups de pinceau courts et distincts qui coulent le long de chemins sinueux créant une sensation onirique de mouvement et de dynamisme. — *Quatre premières images : Lindsay Yazzolino via Midjourney. À droite : La Nuit étoilée de Van Gogh.*

Mais inspiré par la description tout aussi concise de Biggs du David de Michel-Ange, « une grande statue en marbre d'un homme musclé, tenant une fronde », Midjourney a généré des images de sculptures inachevées en pierre grossièrement taillée et à la musculature hyper détaillée qui évoquent instantanément la pose déterminée et prête du chef-d'œuvre de la Renaissance.

Le David de Michel-Ange et quatre sculptures en pierre blanche représentant des personnages musclés, partiellement vêtus, se tenant dans des poses spectaculaires. 1) David, sculpture en marbre blanc représentant un homme nu, musclé et en forme, debout, regardant vers la gauche. Sa main gauche est levée près de son épaule gauche, tenant une écharpe. Sa main droite pend le long de son corps, tenant une petite pierre. Sa posture et son expression traduisent calme, disponibilité et détermination. 2) et 3) Pierre abstraite, à la texture grossière. L'un des personnages a le bras gauche levé, la main derrière la tête, une sacoche pendue à la taille. L'autre regarde vers sa gauche, une sangle passant en diagonale sur son torse. 4) Physique détaillée d'un culturiste moderne, regardant de côté. Un morceau de tissu, passant en diagonale sur sa poitrine, enveloppe et soutient son avant-bras gauche. 5) Personnage musclé et détaillé. Le bras droit est plié, sa main touchant son épaule droite, saisissant un autre morceau de tissu. Sa tête est tournée vers la gauche. Son regard est fixé au loin. — *À gauche : le David de Michel-Ange. Au centre et à droite : Brandon Biggs via Midjourney.*

La description de Biggs de la Joconde de Léonard de Vinci invoquait l’indétermination – « Un petit tableau d’une femme derrière des couches de verre dans une galerie d’art, avec une expression inconnaissable sur son visage » – avec des résultats mitigés.

1) La Joconde. Une femme assise, les bras croisés, regarde le spectateur avec un sourire subtil et énigmatique. Le paysage derrière se compose d'une route, d'un pont, et plus loin, de collines verdoyantes et d'une eau calme qui se fondent dans des traits ténus et glacés. Le tableau est rendu avec douceur et un effet de réalisme inhabituel. 2) et 3) Peintures de femmes, du buste vers le haut, aux expressions neutres. Des reflets parcourent les tableaux comme s'ils étaient derrière une vitre. 4) Gros plan quasi photoréaliste du visage d'une femme. Elle regarde le spectateur ou légèrement de côté, l'air inquiet. Des reflets aqueux traversent son visage, comme si elle était vue à travers une vitre déformée ou humide. 5) Gros plan quasi photoréaliste du visage d'une femme, du cou jusqu'au front. Sa tête est très légèrement tournée sur le côté, et elle regarde le spectateur ou légèrement de côté. Son expression est neutre. Des reflets se reflètent sur son visage, comme si elle avait été photographiée à travers une vitre. — *À gauche : La Joconde de Léonard de Vinci. Au centre et à droite : Brandon Biggs via Midjourney.*

Son empreinte « derrière la vitre » se reflète dans plusieurs images, comme un reflet qui traverse des portraits simples et librement peints. Dans d'autres, Midjourney crée une atmosphère plus dramatique et cinématographique, avec des compositions plus dynamiques et des reflets et distorsions complexes dans la vitre, sur des visages plus réalistes, mais pas tout à fait vivants. Leurs expressions varient du vide au sourire subtil, en passant par la concentration et l'inquiétude. Les images diffèrent autant les unes des autres que de l'œuvre originale, et sans contexte, aucune ne se reconnaît immédiatement comme faisant référence à la Joconde.

VISUALISER LA SÉMANTIQUE ET SAISIR DES CONNEXIONS PLUS PROFONDES

En organisant les résultats du projet, j'avais initialement pensé utiliser plusieurs des images suivantes comme exemples spectaculaires de ratés – ou peut-être ne pas les montrer du tout. Miele avait décrit une sculpture de sa propre création, destinée à exprimer son appréciation du style des œuvres d'Auguste Rodin. C'était un sujet que j'avais suggéré, et il s'est avéré que Miele en connaissait quelques exemples de première main pour les avoir touchés. Miele a écrit :

« Des membres épais et des doigts trapus, des hommes petits et des parties de corps de bébé tordues, entrelacées et partiellement encastrées, s'efforçant et se débattant malgré une frustration et un échec inévitables, face à des forces infernales retenues contre des probabilités à peine meilleures.»

Je ne sais pas quelles sculptures de Rodin Miele a pu toucher. Nombre de ses œuvres les plus connues sont anodines selon les critères modernes – Le Penseur et Le Baiser, par exemple – et le texte de Miele n'en évoque certainement pas. Mais j'ai d'abord pensé à ces résultats comme des échecs, principalement parce que je doutais que Miele ait voulu créer des images viscéralement désagréables. Lorsque nous avons examiné ses résultats par téléphone, je lui ai dit que beaucoup d’entre eux étaient inquiétants et j’ai suggéré que « parties du corps du bébé » semblait être un indice de texte lourd.

La Muse tragique d'Auguste Rodin, 1895. Sculpture en plâtre représentant une femme accroupie, les genoux au sol, les jambes sous elle et les pieds derrière elle, le haut du corps penché en avant, au ras du sol, les bras tendus vers les pieds. La pose est très maladroite et tendue. Son cou est inhabituellement long et son articulation est anormale. Sa tête est tournée vers le bas. Le modelé est souple mais réaliste, et si toutes les proportions, à l'exception du cou, semblent anatomiquement plausibles, sa pose est étrange et douloureuse. Sur cette image, son côté droit est orienté vers l'observateur, ses pieds à gauche et sa tête à droite. — *Auguste Rodin, La Muse tragique. Image © musée Rodin.*

Je reconnais cependant dans le texte de Miele le thème récurrent de l'anatomie agonisante, articulée de manière non conventionnelle, que l'on retrouve dans nombre d'œuvres moins accessibles de Rodin. Connaissant certaines œuvres de Rodin directement, par le toucher, Miele ne se limitait pas à retraiter les descriptions visuelles d'autres personnes. Et contrairement aux descriptions antérieures d'œuvres célèbres par Biggs et Yazzolino, le sujet de Miele n'était pas une œuvre spécifique, mais un style, qu'il décrivait de manière trop poétique pour être disséqué avec précision. Il n'est donc pas surprenant que les images générées par ses textes ne ressemblent pas à des sculptures de Rodin à première vue.

Pourtant, plus je les observe, plus je perçois le lien entre les images de Miele et les sculptures de Rodin. Leurs nœuds embryonnaires, serrés, fusionnés et déformés, font de l'ombre aux silhouettes déformées de Rodin, ses mains menaçantes et hypertendues, aux doigts de plâtre douloureusement crispés.

Trois illustrations et trois photographies : 1), 2), 3) : Paires d’amas irréguliers d’objets pâles et charnus, semblables à des fœtus, des doigts ou des mains, entourés de sang, d’entrailles ou d’artères. Tous trois semblent dessinés à la main au crayon de couleur ou peints à l’aquarelle, et suggèrent une imagerie in vitro. 4), 5) et 6) sont des photos de la sculpture de Rodin, Grande Main serrée avec figure implorante, une sculpture en plâtre grandeur nature représentant une main et un poignet gauches contorsionnés, orientés verticalement, la paume ouverte et fléchie, chaque articulation des doigts fermement repliée vers l’avant et fermée. Devant la main, une petite figure féminine lève les bras en signe de protestation ou de défense. Elle est représentée uniquement à partir des hanches, et elle et le poignet de la main sont fusionnés dans une base commune. Les doigts présentent une silhouette bosselée, irrégulière et crénelée, et l’ensemble de la composition exprime la tension, la douleur ou la menace. — *Rangée supérieure : Joshua Miele via Midjourney. Rangée inférieure : Auguste Rodin, Grande main fermée avec figure implorante, images © musée Rodin.*

Les images les plus sanglantes de Miele partagent quelque chose en commun avec l’inventaire de parties du corps en plâtre sectionnées de Rodin, que le sculpteur appelait abattis – des expressions anatomiques discrètes et exagérées adaptées d’œuvres de la Renaissance et de la Grèce antique, prêtes à être recyclées, réutilisées et échangées d’un torse à l’autre pour itérer rapidement de nouvelles œuvres à une échelle moderne et industrielle.

1) Une illustration grotesque d'une tête de bébé à côté d'une variété d'objets amorphes ressemblant à des bras et des jambes sectionnés, certains avec des mains ou des doigts soudés. Ils sont entourés d'une masse de veines et de vrilles rouge sang. 2) Une photographie de 30 à 40 membres en plâtre, qu'Auguste Rodin appelait des « abats », disposés ensemble dans un ensemble désordonné. On y voit des mains gestuelles, des avant-bras tendus ou pliés au coude, et quelques os ressemblant à des fémurs humains. Certains bras semblent grandeur nature, et beaucoup sont beaucoup plus petits. Ils sont tous modelés de manière approximative, les plus petits étant étrangement déformés et bosselés. — *À gauche : Joshua Miele via Midjourney. À droite : Auguste Rodin, Armes, mains et os de rechange, image © musée Rodin.*

L’exploration par Rodin de l’expressivité des mains irrégulières, étrangement posées et vaguement modelées semble en phase avec l’accent tant décrié de Midjourney sur le geste plutôt que sur la précision, l’accent que le texte de Miele exigeait clairement.

Deux images de mains de Miele et trois photos de sculptures de mains de Rodin. Miele : 1) Le dos de deux mains très usées, coriaces, vieilles ou émaciées, d’une couleur grise, charnue et irréelle. Leurs muscles et leurs tendons sont visibles à travers la peau. Elles pourraient provenir d’un cadavre en décomposition. Derrière elles, d’étranges traits, semblables à des branches. 2) Deux mains tendues l’une vers l’autre. Elles sont très veinées et l’une d’elles possède six doigts, tous écartés. Elles semblent reposer sur, ou tenter de s’agripper, un enchevêtrement de fines branches d’arbre derrière elles, avec un tronc d’arbre remplissant l’arrière-plan. Rodin : 3), 4) Deux vues d’une main gauche en terre cuite à la texture grumeleuse, modelée librement avec des proportions réalistes, dans une position détendue. La surface irrégulière du dos de la main présente de profondes vallées et des tendons proéminents. 5) Un moulage en plâtre de deux mains gauches identiques, rognées à quelques centimètres au-dessus des poignets, positionnées verticalement, paume contre paume, légèrement décalées l’une par rapport à l’autre. Leur silhouette symétrique produit un effet ondulé, ramifié ou corallien. — En haut à gauche et en bas au centre : Joshua Miele via Midjourney. En haut au centre, en bas à gauche et à droite : Auguste Rodin, maquettes en terre cuite et moulage en plâtre, images © musée Rodin.

1) Rodin : étude en plâtre miniature, modelée de manière approximative, représentant une main droite, peu détaillée, partiellement fermée. Les doigts sont disproportionnellement épais, larges et soudés ensemble pour former une forme de crochet. 2) Miele : Image photographique de trois mains, anormalement ridées et patinées. La main centrale comporte trop de doigts, et l'origine de certains d'entre eux n'est pas claire. Une main semble serrée ou fermée, l'autre a un index très large, épais et légèrement courbé, et deux doigts plus petits semblent émerger de sa paume. Ils se chevauchent, voire fusionnent. On ne sait pas à quelle main certains doigts sont reliés. 3) Rodin : étude de main en plâtre de terre cuite. Il s'agit d'une très petite main gauche et d'un poignet, modelés de manière très approximative. La main est fléchie vers l'arrière à un angle de soixante degrés, et les doigts sont pliés vers le bas, vers la paume, dans un geste inhabituel et tendu. Les doigts sont modelés grossièrement et soudés les uns aux autres, et il n'est pas immédiatement clair quel doigt est lequel. — À gauche : Auguste Rodin, plâtre, image © agence photographique du musée Rodin - Pauline Hisbacq. Centre : Joshua Miele via Midjourney. À droite : Auguste Rodin, modèle en terre cuite, image © agence photographique du musée Rodin - Jérome Manoukian.

Même si Miele n’a pas nommé « Rodin » ni mentionné « sculpture », il y a une connexion esthétique distillée et rendue ici dans cette anatomie contorsionnée, ces gestes de préhension et cette imagerie embryonnaire.

Rodin : petite sculpture inachevée d’un bébé, grossièrement modelée, avec peu de détails, aux surfaces irrégulières, brun terne et vert. Un bras s’étend latéralement, sans main. L’autre bras croise sa poitrine, sans avant-bras. Son aspect est rugueux, inégal et désagréable. Son visage est tourné vers le spectateur. Une deuxième image montre son torse inachevé et déchiqueté. Miele : image désagréable d’un fœtus ou d’un nouveau-né à l’expression renfrognée et colérique, avec des yeux jaunes et vitreux fixant le spectateur. Son bras est difforme, sa main ridée saisissant un élément charnu plus grand qui pourrait être un bras. Rodin : modèle inachevé d’un nourrisson en terre cuite granuleuse, au visage très grossièrement modelé. Ses yeux et ses oreilles ne sont que des empreintes à la surface de son visage, tandis que son nez et sa bouche sont déchiquetés et très irréguliers. Son bras gauche est tendu et sectionné au milieu du biceps. Rodin : moulage en plâtre miniature et grossier d’un bras bosselé, plié au coude. La main est ouverte et ses doigts sont modélisés avec très peu de détails. — Deuxième à partir de la gauche : Joshua Miele via Midjourney. À gauche et au centre en haut : Auguste Rodin, Enfant au corps à peine modelé, images © musée Rodin. En bas au centre et à droite : Auguste Rodin, Bras gauche coudé, et Enfant assis sur un tertre, images © musée Rodin - Jérome Manoukian.

Aussi désagréables que puissent paraître certaines de ces images de synthèse, elles constituent un véritable croisement entre le sens du toucher de Miele, sa compréhension des œuvres de Rodin, son interprétation, son texte et le choix statistique et algorithmique de motifs visuels pertinents de Midjourney. À l'instar des artistes humains avant elle, l'IA a choisi elle-même des éléments visuels parmi un inventaire préexistant de sa vaste base de données de références culturelles, les a recyclés, réutilisés et adaptés pour refléter les mots de Miele dans un nouveau texte.

1) Miele : illustration de deux objets pâles et charnus, semblables à des mains, sous une large masse artérielle ramifiée, évoquant l'intérieur d'un utérus ou d'un fœtus. On dirait un dessin à la main, au crayon de couleur, ou une aquarelle. 2) Rodin : sculpture en plâtre d'une femme accroupie, un bébé posé sur ses genoux. Une de ses mains est levée, repliée vers sa poitrine. La mère et l'enfant sont encadrés et partiellement enveloppés par l'entrée d'une grotte, et ils la regardent. L'enfant se penche vers la grotte et y pénètre. 3) Illustration très stylisée d'une femme tenant un bébé dans ses bras, contre sa poitrine. Elle baisse les yeux vers sa tête et la caresse. Elle est faite de grandes feuilles ou d'algues soulevées et balayées par le vent, avec une texture de branches sur ses bras et sa tête. À partir de la taille, son corps devient plus lâche et ressemble davantage à une masse de feuilles qu'à un être humain. Cette masse est tronquée en dessous de l'endroit où se trouveraient ses fesses, et elle repose sur le sol. — *À gauche et à droite : Joshua Miele via Midjourney. Au centre : Auguste Rodin, Jeune mère dans la grotte, image © musée Rodin.*

1) Miele : un corps nu est accroupi sur une branche d'arbre, les jambes déformées, pliées dans le mauvais sens. Un bras se tend vers le bas pour saisir une branche. Ses jambes peuvent se transformer en mains qui s'agrippent également aux branches. Toutes les mains, ou peut-être les pieds, sont très irrégulières et comportent trop de doigts. Au niveau des épaules, sa tête est difficile à distinguer, mais semble pendre, anormalement basse, créant un bord supérieur horizontal qui encombre le haut de l'image. 2) Rodin : une sculpture en plâtre couleur beige représentant trois personnages masculins nus identiques, disposés côte à côte. Ils se tiennent debout, le cou penché à des angles inhabituels et la tête basse, sous les épaules. Ils sont positionnés en demi-cercle, de sorte que leurs têtes se rejoignent, se serrant l'une contre l'autre. Le bras gauche de chaque personnage se tend vers le bas pour rejoindre celui des autres. Leurs autres bras pendent le long du corps, brisés au niveau des avant-bras ; leurs mains sont absentes. La façon dont leurs têtes pendent au niveau des épaules crée une ligne de vue horizontale qui donne un geste inhabituel, chargé et tendu. — *À gauche : Joshua Miele via Midjourney. À droite : Auguste Rodin, Les Trois Ombres, image © musée Rodin.*

Je pense que ces images constituent les résultats les plus fascinants et les plus prometteurs du projet. Elles illustrent la capacité des intelligences artificielles à découvrir, exploiter et exprimer des liens profonds, inattendus, sémantiques, émotionnels et narratifs entre perception, langage et imagerie.

VISIONS D'UN AVENIR DE L'IA

Un collage de petites versions d'images du projet. — *Collage d'images du projet*

Notre collaboration a produit plus de quatre mille images, et chacune soulève plus de questions qu'elle n'apporte de réponses, tout comme le projet lui-même. La suite reste incertaine.

Cette technologie progresse à un rythme effréné. Il semble que les améliorations soient plus rapides que nous ne puissions identifier les meilleures pratiques disponibles actuellement. Il semble exister une fonctionnalité essentielle permettant de communiquer visuellement certains types de sens – quel que soit son auteur, y compris les personnes aveugles – avec un potentiel très étrange. Mais elle manque de précision et de mécanismes de retour d'information.

Midjourney a récemment commencé à tester un outil de description d'image en texte qui fournit aux utilisateurs des commentaires écrits sur le contenu, l'ambiance et le style des images, afin de les aider à perfectionner leurs compétences en rédaction. Avec quelques améliorations, les utilisateurs aveugles pourraient l'utiliser pour recevoir rapidement un retour automatisé sur leurs propres créations d'images, avec des descriptions détaillées de leurs sujets et compositions. Cette nouvelle fonctionnalité pourrait aider les utilisateurs aveugles à produire des ressources visuelles avec une certaine assurance que les résultats reflètent bien leur intention. C'est une voie évidente pour notre exploration et nos expérimentations continues, et si les développeurs de Midjourney se penchent sur certains cas d'utilisation qu'ils n'avaient peut-être pas anticipés, cela pourrait ouvrir de nombreuses possibilités aux utilisateurs aveugles.

Lorsque les systèmes de modélisation 3D par IA seront bientôt disponibles, les utilisateurs aveugles pourront utiliser des dispositifs de retour haptique VR à granularité fine ou d'autres écrans tactiles pour inspecter et interagir physiquement avec leurs créations numériques par le toucher, ou pour les imprimer en 3D et tenir des objets tangibles du monde réel, quels qu'ils soient ou qu'ils représentent.

Mais d'autres innovations sont en préparation, et bientôt, et une grande partie semble être axée sur le visuel. La conversion de texte en vidéo par IA progresse rapidement, et les chercheurs utilisent la technologie sous-jacente qui alimente Midjourney pour convertir l'imagerie cérébrale IRMf en images cohérentes de l'imagerie mentale des sujets. Nous pourrons peut-être bientôt enregistrer les images de nos rêves.

Miele s'inquiète du fait que les personnes aveugles soient exclues des avancées de l'IA axée sur la vision : « Lorsque la génération d'images assistée par l'IA sera connectée à la biométrie et à l'activité cérébrale directe pour les entrées émotionnelles et cognitives (au lieu du texte), qui aura encore besoin du langage parlé ? Eh bien… les personnes aveugles en auront besoin, ainsi que toute personne présentant une neurodivergence du traitement visuel. Le nouveau monde de la génération d'images par l'IA pourrait donc être formidable pour les personnes voyantes, mais je suis un peu inquiet des nouvelles barrières de communication qu'elle pourrait engendrer pour les personnes aveugles. »

Je vois l'inquiétude de Miele comme un contrepoint à une critique de l'imagerie générée par l'IA, qui fait écho à une critique désuète de certains arts abstraits, ainsi que de toute forme d'art assisté par ordinateur : nier la valeur d'une œuvre en remettant en question les compétences ou les outils de l'artiste, notamment en affirmant : « N'importe qui pourrait faire ça.» Dans notre contexte, cette observation salue bien sûr les outils de synthèse d'images par l'IA, car c'est là tout l'intérêt. Grâce à ces outils, chacun peut créer des images. C'est l'une des raisons pour lesquelles cette technologie est si radicale et si importante. Et pour répondre aux préoccupations de Miele, c'est pourquoi nous devons continuer à explorer les moyens de concrétiser ce projet.

Cosmo Wenman est CEO de Concept Realizations. Vous pouvez le contacter sur twitter.com/CosmoWenman et cosmo.wenman@gmail.com

Si vous avez apprécié cet article, n'hésitez pas à le partager et à vous abonner. J'écrirai davantage sur ce projet, notamment sur les images liées à la culture pop et à l'écriture créative que nous avons créées. Je publierai également ici des articles occasionnels sur les technologies et le design d'accès universel, la numérisation 3D et la réplication d'œuvres d'art, et bientôt des mises à jour importantes concernant mon procès pour atteinte à l'accès à l'information intenté à Paris contre le musée Rodin, dans le cadre duquel je cherche à établir l'accès public à tous les scans 3D d'œuvres du domaine public des musées nationaux français.

À PROPOS DU PROJET ET DE SES PARTICIPANTS

Les 4 110 images résultant du projet, ainsi que leurs textes d'invite et paramètres Midjourney, sont accessibles via conceptrealizations.com/ai-experiment-images-prompts.

Les trois participants ayant contribué aux textes de synthèse et collaboré à la conception du projet :

Brandon Biggs, PDG de XR Navigation, directeur financier de Sonja Biggs Educational Services Inc. et ingénieur au Smith-Kettlewell Eye Research Institute. Il est titulaire d'un master en design inclusif de l'Université de l'École d'art et de design de l'Ontario et est doctorant en informatique centrée sur l'humain au Georgia Institute of Technology. Vous pouvez le contacter sur brandonkeithbiggs.com.

Joshua Miele, chercheur scientifique spécialisé en conception de technologies adaptatives, lauréat MacArthur 2021, membre émérite en handicap, accessibilité et design à l'Institut Othering and Belonging de l'Université de Californie à Berkeley, et chercheur principal en accessibilité au Lab126 d'Amazon. Avant de rejoindre Amazon, Miele a mené des recherches sur les graphismes tactiles et les affichages auditifs au Smith-Kettlewell Eye Research Institute. Vous pouvez le contacter sur twitter.com/BerkeleyBlink.

Lindsay Yazzolino, designer non visuelle, possède une formation en neurosciences cognitives et en accessibilité des transports en commun. Chercheuse en neurosciences cognitives, elle étudie l'influence de la cécité sur les capacités cognitives telles que la lecture en braille, le langage et la perception tactile et sonore. Designer d'expérience utilisateur chez CVS Health, elle est également spécialiste des technologies tactiles et collabore avec des scientifiques, des musées et des développeurs de produits pour créer des œuvres d'art et des expériences multisensorielles et captivantes. Vous pouvez la contacter à l'adresse lindsay3.14@gmail.com.

Le projet a été conçu et organisé par Cosmo Wenman, CEO de Concept Realizations, une entreprise de conception et de fabrication numérique spécialisée dans la conception d'expositions tactiles et accessibles à tous, la reproduction d'œuvres d'art et les applications de fonderie de bronze. M. Wenman est également un militant pour le libre accès au patrimoine culturel. Vous pouvez le contacter sur twitter.com/CosmoWenman.

COSMO WENMAN

Discussion about this post