Home Les IA génératives visuelles entre perception d’archives et circuits de composition
Article Open Access

Les IA génératives visuelles entre perception d’archives et circuits de composition

  • Enzo D’Armenio ORCID logo EMAIL logo
Published/Copyright: February 5, 2025

Résumé

Cet article aborde les intelligences artificielles génératives visuelles telles que Midjourney et DALL·E afin d’analyser leur fonctionnement sémiotique. Le point de départ est la définition de la discipline sémiotique proposée par Pierluigi Basso Fossali, décrivant celle-ci comme la science qui étudie la gestion sociale du sens, et qui s’articule en quatre sphères fondamentales : la perception, l’énonciation, la communication et la transmission. À partir de ce cadre théorique, l’objectif est de proposer et de décrire deux nouvelles configurations qui caractérisent le fonctionnent sémiotique des IA génératives visuelles : à travers une perception d’archives et grâce à des circuits de composition. Le concept de perception d’archives a pour objectif de décrire la manière particulière dont les IA voient, entendent et apprennent, celle-ci étant réalisée sur de grandes quantités de données et à travers une généalogie d’opérations reconfigurables sur les archives. Les circuits de composition, quant à eux, concernent le couplage entre la logique de la composition visuelle et de la prédication verbale : il s’agit du processus d’énonciation par débruitage visuel réalisé par les IA, guidé par les requêtes en langage naturel fournies par des opérateurs humains. À partir de trois critères élaborés en sémiotique – les catégories plastiques, l’énonciation visuelle, ainsi que la traduction intersémiotique entre textes verbaux et images – une série de tests seront proposés afin d’examiner les circuits de composition des modèles génératifs de Midjourney et de DALL·E. Les IA seront enfin définies en tant que machines co-énonçantes : des entités dépourvues d’intentionnalité et d’initiative, qui produisent pourtant des énoncés en collaboration avec un opérateur humain et sur la base d’archives de données hautement structurées et reconfigurables.

Abstract

This paper focuses on visual generative artificial intelligences such as Midjourney and DALL·E in order to analyze their semiotic functioning. The starting point is Pierluigi Basso Fossali’s definition of the semiotic discipline as the science that studies the social negotiation of meaning, based on four fundamental spheres: perception, enunciation, communication and transmission. Starting from this theoretical framework, the aim is to propose and describe two new configurations that characterize the semiotic functioning of visual generative AI: through archival perception and by means of composition circuits. The concept of archival perception aims to describe the particular way in which AIs see, hear, and learn, which is performed over large amounts of data and through a genealogy of reconfigurable operations on archives. Composition circuits, on the other hand, relate to the coupling between the logics of visual composition and of verbal predication: this is the process of enunciation by AIs, underlain by visual denoising and guided by prompts in natural language provided by human operators. On the basis of three criteria developed in semiotics – plastic categories, visual enunciation, and intersemiotic translation between verbal texts and images – a series of tests will be proposed in order to examine the composition circuits of the Midjourney and DALL·E generative models. Finally, AIs will be defined as co-enunciating machines: entities devoid of intentionality and initiative, which nevertheless produce utterances in collaboration with a human operator and on the basis of highly structured and reconfigurable data archives.

1 Introduction

Cet article propose une exploration des intelligences artificielles génératives, en suivant les paradigmes post-génératif (Basso Fossali 2017; Fontanille 2008) et interprétatif (Eco 1999; Paolucci 2020) en sémiotique. En particulier, je compte aborder les intelligences génératives visuelles telles que Midjourney et DALL·E afin d’analyser leur fonctionnement sémiotique.[1]

L’intérêt de ces plateformes est évident, puisqu’il s’agit de dispositifs informatiques capables de produire des images inédites sur la base de l’entraînement qu’ils ont reçu sur des larges bases de données visuelles, verbales et multimodales. Deux concepts importants pour les disciplines sémio-linguistiques sont immédiatement convoqués par cette opération. Tout d’abord, celui d’énonciation (Benveniste 1970; Colas-Blaise 2023b; Colas-Blaise et al. 2016). Même si le fonctionnement des algorithmes est en partie opaque – puisqu’il s’agit de secrets industriels ayant une importance technique et commerciale stratégique – l’objectif explicite de ces IA est de produire des énoncés visuels de manière efficace et automatisée, en suivant les indications fournies par l’utilisateur au moyen de requêtes en langage naturel (prompts). Conformément à la formulation originale d’Émile Benveniste, l’énonciation est « l’acte même de produire un énoncé et non le texte de l’énoncé qui est notre objet. Cet acte est le fait du locuteur qui mobilise la langue pour son compte » (Benveniste 1970: 13). Les IA génératives sont certainement des entités qui énoncent, par le simple fait qu’elles produisent des textes visuels.

Deuxièmement, le fonctionnement de ces IA est intrinsèquement lié à la production culturelle antérieure, c’est-à-dire aux archives d’images et de textes verbaux sur lesquelles elles sont entraînées. Ce travail de reprise et de reconfiguration d’énoncés déjà produits convoque le concept sémiotique de praxis énonciative (Fontanille 2006; Fontanille et Greimas 1991; Paolucci 2020) : la manière dont les actes de langage collectifs sédimentent des entités sémiotiques prêtes à être réutilisées dans chaque nouvel acte de langage, qu’il soit verbal, visuel ou multimodal. Selon la théorie de la praxis énonciative, les entités sémiotiques qui habitent la culture ont différents modes d’existence (virtuel, actuel, réalisé et potentiel), et chaque nouvel acte d’énonciation les reconfigure, les actualisant et les réalisant dans un nouvel énoncé. Les IA génératives, à cet égard, sont des machines constitutivement liées à la praxis énonciative, car leur travail est précisément un travail de convocation, d’actualisation et de réalisation des possibilités potentielles et virtuelles résultant de la sédimentation des énoncés humains organisés en bases de données structurées. Cependant, le fonctionnement de l’IA pose également des questions théoriques à la sémiotique, notamment en ce qui concerne l’intentionnalité qui habite implicitement la théorie de l’énonciation. Si les IA produisent des énoncés, elles ne possèdent pas, à l’état actuel, aucune forme d’intentionnalité.

Le point de départ est alors la définition suivante des IA génératives visuelles : des entités co-énonçantes, dépourvues d’intentionnalité et d’initiative, qui produisent pourtant des énoncés en collaboration avec un opérateur humain et sur la base d’archives hautement structurées et reconfigurables de données.

La thèse que je compte développer postule que les IA génératives fonctionnent sémiotiquement à travers deux nouveaux mécanismes : à travers une perception d’archives et grâce à des circuits de composition. Avec la notion de perception d’archives, j’entends décrire la manière particulière dont les IA voient, entendent et apprennent, c’est-à-dire une perception qui est réalisée sur de grandes quantités de données et à travers une généalogie d’opérations reconfigurables sur les archives. Lorsque j’aborderai les circuits de composition, j’entends souligner le couplage de la logique de la composition visuelle et de la prédication verbale : il s’agit du processus d’énonciation par débruitage visuel des IA, guidé par les prompts en langage naturel fournis par des opérateurs humains.

Afin de décrire ces deux mécanismes de signification, je suivrai la définition de la discipline sémiotique proposée par Pierluigi Basso Fossali, dans une série de ses travaux (2017, 2024), la décrivant comme la science qui étudie la gestion sociale du sens. À partir des quatre sphères fondamentales identifiées par Basso Fossali – perception, énonciation, communication et transmission – dans la première partie de cet article, je prendrai en compte la question des bases de données (datasets), en la situant par rapport à trois acceptions du concept d’archives. Les datasets seront définis en tant qu’archives reconfigurables de documents associés à des descripteurs, à des jugements perceptifs, à des récits, ainsi qu’à des archives d’opérations.

Dans la deuxième partie de l’article, j’aborderai la dimension de la perception, qui concerne deux processus différents : une distribution de perceptions durant la phase de construction des datasets et une perception distribuée durant la phase d’apprentissage des modèles. Il en résulte que les IA doivent effectuer une perception synthétique (synthetic perception) d’archives afin de peaufiner les poids et paramètres de leur modèle et de produire des textes inédits.

La troisième partie sera consacrée à la sphère de l’énonciation et aux circuits de significations qui relient les prompts verbaux et la composition visuelle dans les générations d’images réalisées par les IA. Je présenterai une série de tests effectués sur Midjourney et DALL·E afin d’explorer les circuits de composition qui les caractérisent par rapport à trois critères sémiotiques : les catégories plastiques (Greimas 1984), l’énonciation visuelle (Dondero 2020; Fontanille 1989; Schapiro 2000) et la traduction intersémiotique d’actions exprimées à travers le langage verbal en actions exprimées à travers les images.

2 L’IA générative et les quatre espaces du sens social

Dans son livre Vers une écologie sémiotique de la culture (2017), Pierluigi Basso Fossali a proposé une définition très inclusive de la discipline sémiotique, situant son champ d’application bien au-delà des échanges linguistiques : « Une définition actualisée de la sémiotique pourrait se limiter à affirmer qu’elle est la science de toutes les médiations qui filtrent l’élaboration du sens au-delà des déterminations biologiques » (Basso Fossali 2017: 422). Le point de départ est la nécessité d’aller au-delà des notions de discours, de code et de texte, pour considérer toutes les médiations de sens qui se produisent au sein de la société : « … la sémiotique des codes a risqué d’aplatir les sémioses qui animent, en revanche, la vie des cultures selon des dynamiques fortement différenciées, soit interconnectées et alors polémologiques, soit séparées par des plans de pertinence distincts » (Basso Fossali 2017: 422).

À l’intérieur de ce large périmètre, Basso Fossali identifie quatre sphères de sens fondamentales : « quatre paliers différents de médiations : phénoménales, linguistiques, institutionnelles et technologiques » (Basso Fossali 2017: 421). Chacun de ces espaces « propose une écologie spécifique des relations inter-actantielles, en réglant la circulation des identités et en donnant une proportion précise aux prises d’initiative » (Basso Fossali 2017: 425). Cette division en quatre sphères nous aide à établir le périmètre maximal de la sémiotique et à construire une sorte de cartographie épistémologique de tous les phénomènes de sens.

Le premier espace concerne l’expérience : « L’espace phénoménal établit une dialectique entre les initiatives et les événements fondée sur le paramètre unificateur des valeurs sensibles, gérées par la perception » (Basso Fossali 2017: 425). Le deuxième espace concerne les énoncés linguistiques, qu’ils soient réalisés à travers le langage verbal ou à travers des images ou des systèmes multimodaux : « L’espace linguistique formule un réinvestissement des valeurs sensibles pour construire, à travers l’énonciation, des plans fictifs de signification, chacun doué de restrictions grammaticales spécifiques » (Basso Fossali 2017: 425). Les échanges sémiotiques réalisés à travers les langages sont toutefois situés dans des espaces plus vastes, qui comportent la négociation du sens en rapport avec des pratiques sociales spécifiques. Le troisième espace concerne : « Les espaces institutionnels [qui] exploitent les jeux de langage afin de socialiser, à travers la communication, des domaines autonomes, ancrés sur des valences spécifiques (juridiques, artistiques, scientifiques, etc.) » (Basso Fossali 2017: 425). Enfin, le quatrième espace est l’espace technologique : « Les espaces technologiques ne sont que la concrétisation de l’autonomie des domaines sociaux à travers des dispositifs médiatiques qui vont restructurer la transmission des plans d’expression, en permettant une communication là où elle serait impossible » (Basso Fossali 2017: 425). En ce qui concerne ce dernier espace, ma lecture lui attribue une acception particulière, liée à la transmission intergénérationnelle : les technologies, les supports et les protocoles qui permettent à une génération de communiquer avec les suivantes. En d’autres termes, les terrains d’étude de la sémiotique, en tant que science de la gestion de toutes les méditations du sens social, concernent l’expérience et la perception, l’énonciation et la prise d’initiative à travers les langages, l’interaction communicationnelle négociée à l’intérieur de domaines spécifiques, la transmission intergénérationnelle et les opérations sur les archives (Table 1).

Tableau 1:

Les espaces de médiation dans la gestion sociale du sens (Basso Fossali 2017: 424).

Tableau 1: 
Les espaces de médiation dans la gestion sociale du sens (Basso Fossali 2017: 424).

En général, ces dimensions sont organisées selon un critère d’inclusion progressive, qui part de la dimension la plus privée et subjective (la perception) et l’englobe par des niveaux de médiation plus vastes, qui concernent l’énonciation interpersonnelle, la communication entre les collectifs et la transmission sémiotique entre différentes générations.[2] Non seulement chacune de ces sphères est-elle caractérisée par des conditions relativement différentes de construction de la valeur – valences expérientielles, linguistiques, institutionnelles et technologiques – mais la signification d’un phénomène au sein d’une sphère est systématiquement réinitialisée à partir d’autres sphères. La perception, par exemple, peut réouvrir le sens d’une production linguistique et en proposer une nouvelle signification dissidente. La sémiose est donc constitutivement alimentée par des circuits de sens transversaux aux quatre sphères du sens (Basso Fossali 2024).

Par rapport à ces sphères fondamentales, les IA reconfigurent leur fonctionnement interne ainsi que leur articulation par le biais de superpositions complexes. Notre objectif est d’explorer l’impact des IA sur la dynamique sémiotique afférant à chacune de ces sphères, en essayant d’identifier les circuits de significations établis par le travail des algorithmes par rapport aux circuits sémiotiques habitant déjà les sociétés humaines.

2.1 La dimension de la transmission : trois acceptions des archives

La première dimension que je compte aborder est celle de la transmission intergénérationnelle. Pour réaliser leurs générations d’images, les IA s’appuient sur une conception particulière des archives, une conception qui est liée au paradigme actuel des « big data » (Cardon 2015), qu’elles exploitent afin de produire de nouveaux énoncés. Je passerai brièvement en revue trois conceptions de l’archive, car la quatrième, celle qui concerne l’IA, les absorbe et les reconfigure.[3] Pour chaque acception des archives, je décrirai leur logique générale et certaines des opérations sémiotiques qu’elles autorisent.

La première conception identifie les archives en fonction des valeurs patrimoniales : une série de documents à conserver, à indexer et à exposer dans le but de les transmettre aux générations futures. Certains aspects de cette conception doivent être soulignés : il s’agit d’objets sémiotiquement implémentés et décrits, présentés dans des espaces dédiés, et idéalement orientés vers l’avenir. Pour cette acception, on peut penser aux institutions muséales en général et au travail de préparation, de conservation et de restauration des documents.

La deuxième acception de l’archive est une conséquence de la numérisation. Cette évolution est imputable aux transformations technologiques, mais aussi à l’environnement économique et juridique des sociétés (Treleani 2017). Avec la numérisation, les archives conservent leur statut patrimonial, mais leur manipulabilité et modularité facilitent la circulation et la transformation à moindre coût. L’une des conséquences de la numérisation concerne également la pluralisation des archives. Au sujet des archives audiovisuelles, Jaimie Baron a déclaré :

In the past several decades, the archive as both a concept and an object has been undergoing a transformation. Although official film and television archives still promote their holdings as the most valuable and authentic basis for documentary films on historical topics, other kinds of audiovisual archives have begun to compete with them. Online databases and private collections, in particular, threaten to unseat official archives as the primary purveyors of evidentiary audiovisual documents. (Baron 2014: 16)

De nombreuses institutions ont ouvert des fonds d’archives accessibles à distance et invitent des artistes et les citoyens à se les approprier pour des usages culturels et créatifs. Des concours de réédition vidéo exploitant les fonds d’archives audiovisuels sont systématiquement proposés, dans le but de faire circuler les documents mais aussi d’en assurer la visibilité, selon une politique mémorielle active. En d’autres termes, la seconde acception des archives est celle d’une ressource à partager, à reformuler, à faire vivre. La caractéristique de ce type d’archives est leur malléabilité à dominante syntagmatique. Si l’on prend le cas des archives audiovisuelles, il est possible d’assembler des séquences d’archives avec des séquences filmées à l’époque contemporaine, mais le degré de reconfiguration des œuvres audiovisuelles n’est pas total : il s’arrête au niveau des séquences ou des syntagmes audiovisuels. La composition plastique et figurative des séquences ou des portions d’archives subsiste même dans le cas d’un remontage inédit. C’est surtout dans le montage entre les séquences que de nouvelles significations discursives sont générées.

La troisième acception concerne les archives en tant qu’effets de sens. Le déploiement massif du numérique a permis de simuler les formats du passé, ce qui a donné aux archives une troisième signification : l’archive en tant qu’expérience. À propos de ce changement, Jaimie Baron a déclaré que « the contemporary situation calls for a reformulation of ‘the archival document’ as an experience of reception rather than an indication of official sanction or storage location. I refer to this experience as ‘the archive effect’ » (Baron 2014: 7). L’effet d’archive suscité par un format technique particulier (par exemple, un film du cinéma des origines inséré dans le contexte d’une production contemporaine) ouvre la voie à une utilisation rhétorique des archives. D’une part, le montage d’archives permet d’articuler la dimension temporelle en utilisant les ressources expressives propres et exclusives des images : « the past seems to become not only knowable but also perceptible in these images. They offer us an experience of pastness, an experience that no written word can quite match » (Baron 2014: 1). D’autre part, l’association de pratiques culturelles spécifiques à des esthétiques visuelles et techniques correspondantes (caméras à main pour les enquêtes journalistiques, par exemple) ouvre le champ à un montage d’archives capable de jouer avec différents statuts sociaux : « The archive effect […] is a function of the relationship between different elements of the same text, between a document placed within a new textual context » (Baron 2014: 22). Grâce aux opérations de simulation, les archives acquièrent une nouvelle malléabilité paradigmatique : il ne s’agit plus seulement de mettre en relation un syntagme visuel d’archives avec un syntagme contemporain, comme dans l’acception précédente, mais de travailler sur la substance même des images. Ces opérations de simulation sont par exemple utilisées dans les protocoles de restauration des films, et via l’ajout de filtres sur les réseaux sociaux qui permettent d’imiter la substance de l’expression des images, en activant un effet de dessin animé sur les photos.

3 Les datasets des IA : méta-archives d’images, de descripteurs et d’opérations

Cela nous amène à la quatrième acception des archives visuelles, qui concerne directement l’intelligence artificielle. Si nous pensons à la société informatique actuelle, soutenue par le paradigme des « big data », le rôle des datasets occupe une place centrale.

Tout d’abord, une base de données n’est pas simplement une collection d’archives, mais une archive d’archives : elle intègre les deux premières acceptions – les archives en tant que patrimoine et ressource numérique. Un dataset peut contenir toutes les images artistiques déjà indexées par les institutions muséales, auxquelles sont ajoutées d’autres images et d’autres descripteurs en vue de l’entraînement des IA vers la réalisation d’opérations spécifiques. La mise en correspondance des images et des descripteurs est fondamentale pour la phase d’apprentissage des IA : c’est la condition première et la plus importante de leur fonctionnement, à laquelle s’ajoutent la structure des modèles computationnels et la puissance de calcul des processeurs graphiques (GPU). Par rapport à cette dernière condition, Yann Le Cun a remarqué que : « En 2011, il est clair que l’avenir appartient à ceux qui pourront entraîner des réseaux de neurones de grande taille sur des GPU. Ils vont être le véhicule de la nouvelle révolution du deep learning … » (Le Cun 2019: 80).

En ce qui concerne les images computationnelles, Jussi Parikka a observé qu’elles sont désormais « a complex set of nuanced transformations where ‘images’ are sometimes anachronistic terms used for data but are still, in some cases, also a process of operationalization of the history and archives of existing photographs and other images » (Parikka 2023: 74). En d’autres termes, les bases de données ne sont pas seulement des archives d’archives, mais constituent un ensemble de documents et d’indexations reconfigurables en fonction de nouvelles tâches algorithmiques : bases de données pour la reconnaissance d’objets, pour la modélisation d’un style pictural et pour les jugements esthétiques concernant la supposée beauté des images.

Deuxièmement, les bases de données sont en constante évolution, car elles se nourrissent de la production globale d’images numériques. À cet égard, Antonio Somaini les décrit en ces termes : « Massive datasets made of billions of images, texts, and text-image pairs scraped from the internet are used to train these models, thus influencing their visual and textual output, gradually turning our culture into a huge feedback loop in which what has already been uploaded to the internet conditions future AI-generated content » (Somaini 2023: 75).

Enfin, la transformation progressive des bases de données en collections de documents opérables nous amène à une acception des archives en tant qu’archives d’opérations. Si nous comparons la structure et les objectifs d’ImageNet – la base de données la plus fréquemment utilisée pour entraîner l’IA pour des tâches de reconnaissance automatique d’objets – avec la structure et les objectifs de LAION-5B – la base de données utilisée par Stable Diffusion pour entraîner l’IA en vue de la génération d’images (qui est la seule base de données des IA génératives en accès libre) – nous pouvons examiner cette récursivité d’opérations. ImageNet contient 1,4 millions d’images indexées selon 1000 classes d’objets. Il s’agit d’une collection d’images d’« objets » associées à des descriptions simples réalisées par des êtres humains. Pour donner un exemple trivial, nous avons une colleaction d’images de chats représentés visuellement selon différentes perspectives et positions, et associées au descripteur « chat ». D’autre part, LAION-5B contient 5,8 milliards d’images complexes associées à des descripteurs filtrés par CLIP (Contrastive Language-Image Pre-training), un modèle d’IA capable d’évaluer automatiquement la pertinence de l’association entre images et expressions verbales. Il ne s’agit pas seulement d’images de chats associées aux descriptions correspondantes, mais d’images complexes de chats associées à des descriptions articulées, à des récits et à des jugements esthétiques, par exemple : « un beau chat portant un béret français, dormant dans un panier ».

La première base de données (ImageNet) est associée à des opérations de reconnaissance effectuées par des humains, sur lesquelles les IA sont entrainées et auxquelles elles s’adaptent au cours de la phase d’apprentissage. Les bases de données plus récentes, y compris LAION-5B, contiennent ces opérations et les associent à de nouvelles opérations. Les opérations que les IA ont appris à effectuer dans le premier cas (reconnaissance perceptive) sont déjà intégrées aux bases de données des IA qui seront entraînées à générer des images. Ces bases de données sont donc non seulement composées de strates d’archives, mais aussi de strates d’opérations. À cet égard, Adrian MacKenzie et Anna Munster ont justement déclaré : « In other words, machine learning systems such as AlphaGo operate diagrammatically, re-flowing relations in the image ensembles, generating materialities and experiences in their wake » (MacKenzie et Munster 2019: 11).

Pour ces raisons, la quatrième acception des archives correspond à des méta-archives d’opérations pouvant être reconfigurées pour des finalités qui intègrent les opérations élaborées précédemment. Elles se nourrissent des opérations associées aux trois acceptions précédentes des archives : elles peuvent reconfigurer le rapport entre images et descripteurs verbaux de l’acception 1 (patrimoine), assurer l’opérabilité syntagmatique de l’acceptation 2 (ressource) et optimiser la simulation paradigmatique de l’acception 3 (effet de sens), afin de constituer une énonçabilité générale des traits visuels en relation avec des descripteurs verbaux. Segmentables à l’échelle du pixel, les archives sont désormais un réseau granulaire de traductions et de transductions diagrammatiques entre descripteurs verbaux et traits visuels, orientées vers la production de nouveaux documents.[4]

4 La vision computationnelle entre perception distribuée et distribution de perceptions

La deuxième sphère du sens que nous devons aborder est celle de la perception. Bien que parler de perception puisse sembler une métaphore dans le cas de machines computationnelles, j’estime que ce concept est nécessaire afin de comprendre comment les IA fonctionnent d’un point de vue sémiotique, et afin de distinguer la perception humaine de la manière particulière de voir et d’entendre des IA. Somaini évoque à cet égard le fait que la « Machine vision introduces a new form of automated visual perception that decenters the human gaze and reorganizes the field of the visible, redrawing the lines that separate what can from what cannot be seen » (Somaini 2023: 74). Mon hypothèse est que la « perception » des IA se configure en tant qu’une perception d’archives. Cette expression souligne un aspect paradoxal par rapport à la sémiose humaine, dans la mesure où les démarches qui concernent les archives et les opérations de la perception sont de nature différente. La perception s’exerce normalement dans une situation donnée, limitée dans l’espace et dans le temps, et se caractérise par une flexibilité capable d’ouvrir ou réouvrir de multiples pistes de sens. Au contraire, les archives ont besoin d’un système complexe de métadonnées – descriptions, titres, dates – seulement pour être explorées. En tant qu’humains, on ne peut pas percevoir des archives, sauf dans l’acception très spécifique de la perception d’un ensemble d’objets, dont les articulations signifiantes sont inaccessibles à cause de la quantité d’informations qu’elles contiennent.

En revanche, la perception d’archives des IA semble dériver de l’articulation d’une distribution de perceptions humaines et machiniques (dans la constitution des datasets), et d’une perception distribuée sur les bases de données (dans la phase d’entraînement[5]).

4.1 La distribution de perceptions dans la construction des datasets

La formule de distribution de perception concerne l’évolution historique des datasets et des opérations accomplies par les algorithmes des IA. On peut concevoir cette perception en tant que succession d’opérations perceptives réalisées par les humains afin de fournir aux IA les bases de données sur lesquelles elles sont entraînées. Dans le cas d’ImageNet – une base de données explicitement construite pour contenir un grand nombre d’images d’objets associées à des descripteurs verbaux – l’association d’images et de descripteurs verbaux simples (l’image d’un chat et le descripteur verbal « chat ») peut être qualifiée de jugement perceptif.[6] À l’époque, l’objectif était d’entraîner l’IA à la reconnaissance automatique d’objets. Toutes les images du dataset étaient soumises à l’IA, et même plusieurs fois, afin qu’elle apprenne progressivement à les reconnaître automatiquement, c’est-à-dire à associer le bon descripteur même lorsqu’on lui présente des images ne figurant pas dans le dataset d’entraînement mais qui affichent des objets sur lesquels elle a été entraînée.

En effet, la construction de ces bases de données a été réalisée de deux manières principales, soit deux formes de travail humain. La première et plus importante est le moissonnage du web (web scraping), c’est-à-dire la collecte sur le web, et en particulier sur les réseaux sociaux, d’images associées à des descripteurs verbaux tels que des commentaires, des étiquettes (tags) ou des titres. La deuxième forme de construction des datasets utilisés par les IA génératives a été réalisée grâce à des micro-contrats sur Amazon Mechanical Turk : des contrats de quelques heures demandant à des humains d’effectuer des tâches de reconnaissance visuelle (c’est-à-dire de réaliser des jugements perceptifs) devant des images sur lesquelles les machines n’étaient pas encore performantes.[7] Dès le départ, les humains ont travaillé à l’autonomisation des compétences perceptives et énonciatives des machines. Cela a conduit à une intégration progressive des compétences sémiotiques dans les bases de données et dans les architectures des IA. Tout d’abord, l’apprentissage concernait des tâches simples telles que la reconnaissance d’objets et l’évaluation esthétique des images ; ensuite, la réalisation de descriptions verbales d’images de plus en plus élaborées ; enfin, l’énonciation de récits simples a été intégrée – c’est le cas de Neural Storyteller – jusqu’à arriver à l’autonomisation de la production de récits complexes, comme dans le cas de ChatGPT.

La situation actuelle est la suivante : plusieurs tâches qui demandaient l’intervention humaine – telles que la reconnaissance d’objets – sont désormais accomplies par des IA de manière indépendante. En même temps, les humains continuent à fournir de nouvelles données qui alimentent les datasets. Aujourd’hui, pratiquement toutes les images produites numériquement sont déjà prédisposées pour être traitées dans des réseaux de capture et de modélisation computationnelle qui alimentent les algorithmes d’apprentissage profond. D’une part, les caméras de nos téléphones intelligents améliorent la qualité de l’image après avoir reconnu la scène que nous cadrons par rapport à des genres tels que le paysage, le portrait et la photographie macro. D’autre part, ces mêmes images sont déjà connectées au système propriétaire – qu’il s’agisse de Google Photo ou des homologues d’Apple ou d’autres entreprises – sur lequel elles peuvent alimenter toutes sortes d’opérations d’apprentissage des IA. Adrian MacKenzie et Anna Munster (2019) parlent à cet égard de « platform seeing », soit la vision des plateformes.

Le terme de perception reste fort, mais des formules telles que « topologie perceptive » (Offert et Bell 2021) sont utilisées dans la littérature des sciences humaines concernée par la vision computationnelle. La compréhension de ces opérations perceptives sur les archives est cruciale pour les sciences humaines, à un tel point que Fabian Offert et Peter Bell (2021) affirment la nécessité de construire des méta-images techniques : des méta-images qui peuvent se rapprocher de la vision de l’IA, même au prix de l’ajout de qualités visuelles qu’elles ne possèdent pas, afin de mieux la comprendre. Une critique à cette approche perceptive serait d’affirmer que les IA, n’ayant pas de corps, ne pourraient pas vraiment percevoir. Or, si les IA ne possèdent pas un corps isolable unitaire, par contre, elles opèrent grâce à une série de corps et de perceptions qui en assurent le fonctionnement : c’est la manière dont les capteurs de nos téléphones intelligents, l’écoute des assistants vocaux de Google, Apple et Amazon, et les datasets labélisés sur les réseaux sociaux articulent un agencement de visions et d’écoutes à travers des diagrammes computationnels. Le problème est que ce que l’on apprend aux IA inclut maintenant ce qu’on leur apprend malgré nous, et que ces données contiennent virtuellement la contingence des expériences humaines. C’est pour cette raison que l’on peut parler de distribution des perceptions et d’autonomisation progressive des outils de la vision computationnelle. À ce sujet, Somaini a remarqué que :

Considered together, machine-vision systems are turning the contemporary digital “iconosphere” into a vast field for data mining and analytics in which objects, places, bodies, faces, expressions, gestures, and actions – as well as voices and sounds, through technologies of machine listening – may be detected, analyzed, labeled, classified, stored, retrieved, and processed as data that can be quickly accessed and activated for a wide variety of purposes and operations. (Somaini 2023 : 85)

Les IA travaillent à travers des « corps » technologiques multiples situés en proximité des actions accomplies par des corps humains. Elles traitent automatiquement une grande masse de données multimodales, enregistrées à partir de différentes perspectives, avec toute la richesse, les erreurs et la contingence des interactions humaines.

4.2 La perception distribuée dans la phase d’apprentissage : vision d’archives

La deuxième forme de perception des IA, que j’ai défini comme une perception distribuée, concerne la phase d’entraînement. Afin d’entraîner une IA travaillant sur des images, une opération sémiotique est fondamentale : disposer d’une base de données contenant des milliers, voire des millions d’images dont les descripteurs sont composés de jugements perceptifs, de descriptions plus ou moins articulées, de jugements esthétiques et de récits. Ces images sont généralement ramenées à une dimension commune, afin de faciliter les opérations d’apprentissage. L’IA AlphaGo, capable de battre le champion de Go, un jeu qui demande une intelligence stratégique supérieure par rapport au jeu des échecs, a été entraînée sur une base de données d’images de parties ayant une résolution de 19 × 19 pixels. En effet, c’est la disposition des pièces de jeu qui compte dans un espace topologique, et non la qualité visuelle ou la taille. Des opérations de compression supplémentaires sont utilisées dans la phase de génération afin de réduire la puissance de calcul nécessaire pour produire rapidement les images.

Une fois que les images de la base de données ont été uniformisées, elles sont traitées au cours de la phase d’apprentissage. Elles passent par les différentes couches qui composent le modèle et les tâches prédictives associées à l’opération pour laquelle les modèles ont été conçues sont réalisées (reconnaissance d’images, génération de descriptions d’images, génération d’images). Dans les modèles basés sur les réseaux de neurones convolutifs (CNN), les premières couches traitent généralement des caractéristiques sémiotiques simples, par exemple avec la détection des bords, des lignes, etc. Au fur et à mesure que les données progressent vers les couches les plus profondes, elles donnent lieu au traitement de qualités vraisemblablement plus complexes, telles que les formes et les figures.

Ce qui nous intéresse en tant que sémioticiens est tout d’abord le fait que le modèle possède déjà sa propre architecture, mais les poids, c’est-à-dire les opérations de transformation qui sont effectuées sur les données d’entrée, sont, au démarrage de l’apprentissage, aléatoires. L’apprentissage consiste en fait à affiner progressivement les poids et à résoudre les erreurs de prédiction commises au niveau de chaque couche. Par erreurs, il faut entendre que la prédiction n’exécute pas de manière satisfaisante l’opération que l’algorithme doit effectuer. S’il s’agit d’une IA pour la reconnaissance d’objets, par exemple, la machine aura indiqué une image de chat comme étant l’image d’un chien. L’erreur est retravaillée par toutes les couches afin de peaufiner les paramètres et les poids et d’obtenir une prédiction correcte, selon une opération appelée « rétropropagation des erreurs » (backward propagation of errors). Une fois l’entraînement terminé, grâce à l’alignement probabiliste entre les images et les descripteurs verbaux, les poids et les paramètres du modèle sont modulés et produisent moins d’erreurs. Pourquoi ce processus est-il intéressant ? Tout d’abord, parce que l’entraînement, dans sa modulation des poids et des paramètres, peut être compris comme l’entraînement de la « sensibilité » sémiotique de l’IA.

Deuxièmement, l’IA semble reproduire, bien que de manière probabiliste et computationnelle, certaines caractéristiques de la perception humaine. Jean-François Bordron (2011) a décrit la perception comme la production d’esquisses de qualités sensibles concernant le plan de l’expression, ce qui peut permettre de produire une nouvelle fonction sémiotique par association avec des contenus. La perception est également liée à la reconfiguration des pertinences du sens. Pierluigi Basso Fossali en parle en ces termes : « la perception reste un moteur originel de culturalisation en tant que procès sceptique et alerté d’émancipation par rapport aux relations déjà établies et normées (il donne lieu à des esquisses toujours inachevées et poussées à la comparaison, voire à la rectification) » (Basso Fossali 2017 : 63).

Dans le cas des IA génératives telles que Midjourney et Stable Diffusion, il se passe quelque chose de similaire : à partir de datasets complexes qui associent de grandes quantités d’images et de grandes quantités de descripteurs, le modèle est entraîné à établir des correspondances entre descripteurs verbaux et composition visuelle afin d’effectuer des opérations prédictives. Ces opérations ne visent pas à trouver de nouvelles expressions pour les associer à des contenus, comme dans le cas de la perception humaine, mais à trouver statistiquement des connexions entre les mots numérisés et les activations de pixels : à trouver des expressions normées. En d’autres termes, les IA doivent percevoir l’ensemble des archives et établir des alignements, des correspondances et des spatialisations sémiotiques afin de faire correspondre les prompts verbaux avec les activations de pixels, grâce à la construction d’un espace multidimensionnel commun, qui obéit à une logique de proximité et de distalité statistique. C’est à ce stade, vraisemblablement, en affinant les paramètres et les poids du modèle, que l’IA établit la force des liens syntagmatiques et paradigmatiques entre les mots et les groupes de qualités visuelles (figures, motifs, traits plastiques, styles et imageries typiques des champs sociaux). On pourrait renverser la formule que Gilles Deleuze (1981) a réservée à la créativité artistique afin de comprendre cette démarche : si l’artiste doit lutter contre la page ou la toile blanche, car elle est trop pleine de stéréotypes et de configurations normées, les IA essaient au contraire exactement de modéliser, de manière computationnelle, des clichés et des motifs visuels, verbaux et, plus généralement, culturels. Cette perception est sans doute très différente par rapport à la perception humaine. Cependant, la « vision » des formes, des couleurs et des sons durant la phase d’apprentissage, ainsi que leur énonciation dans la production de documents inédits, nécessite un ajustement entre les IA et une logique de la perception. Les entités sémiotiques qui sont modélisées à travers le calcul et la géométrie sont des formes visuelles et multimodales, caractérisées par des différenciations graduelles plutôt que des oppositions catégorielles. On pourrait parler de perception synthétique (synthetic perception). Les données « perçues » sont en effet organisées dans un espace latent composé de milliers de dimensions dans lequel les descripteurs verbaux et les traits visuels, auditifs et multimodaux sont positionnés selon une logique de proximité et de distance. Il s’agit d’un espace à la fois computationnel et sémiotique. Il est computationnel, car il est composé uniquement de longues listes de nombres, et il est sémiotique, car ces nombres décrivent des régions d’associations sémantiques et de traits visuels.[8]

Le concept sémiotique le plus intéressant par rapport aux liens entre perception et énonciation est celui de circuit, proposé récemment par Pierluigi Basso Fossali (2024). À partir des différentes sphères du sens – perception, énonciation, communication et transmission – la sémiose est alimentée de manière constitutive par des circuits de signification transversaux. Pour revenir aux considérations de Deleuze sur l’art, si la perception d’un artiste doit lutter contre les stéréotypes visuels afin de trouver une nouvelle expression, les IA, quant à elles, se caractérisent par d’autres circuits, qui articulent la vision et l’énonciation computationnelle différemment. Il est difficile d’imaginer comment ces circuits sont construits en détail, puisque le passage des données à chaque nœud de chaque couche des modèles d’IA implique une longue séquence d’opérations. Nous pouvons cependant les tester de manière indirecte : si nous demandons à Midjourney de composer une image de Venise dans le style de Van Gogh, nous obtenons quatre images nocturnes avec un ciel étoilé et, bien sûr, des gondoles sur les canaux (Figure 1).

Figure 1: 
Midjourney. Prompt : « Venice in the style of Van Gogh », 2024.
Figure 1:

Midjourney. Prompt : « Venice in the style of Van Gogh », 2024.

Les images générées affichent une série de stéréotypes qui concernent différents niveaux de pertinence : le « style » d’un peintre spécifique, le domaine communicationnel de la production artistique (il s’agit de la simulation d’une peinture et non d’une photo ou d’autres genres visuels), conjugués selon un format visuel spécifique (le paysage ou plutôt la carte postale). Les gondoles, la lune et les étoiles sont des figures que l’IA « considère » comme statistiquement nécessaires dans cette innervation des connexions compositionnelles. Pourquoi des circuits ? Parce que les circuits présupposent une innervation transversale entre les dimensions du sens – traits visuels, figures, styles et domaines sociaux – et une connexion entre une dimension interne et une dimension externe. C’est le prompt humain qui agit de l’extérieur sur la sélection de ces possibilités computationnelles contenues dans le modèle. Dans le cas de l’IA générative, le système n’est pas autosuffisant. D’une part, l’ensemble des possibilités combinatoires est virtuellement infini sur une base de données de millions d’images et de millions de descripteurs. La soumission d’un prompt est nécessaire pour guider l’innervation des connexions probabilistes. Le système computationnel immanent fonctionne grâce à la transcendance des requêtes verbales introduites par un opérateur humain.

Il me semble important de souligner que la décomposition statistique des mots et des images doit être effectuée sur l’ensemble des données indexées, sur ce que MacKenzie et Munster (2019) appellent, dans le sillage d’Henri Bergson, des ensembles d’images. Les caractéristiques visuelles de l’ensemble des archives deviennent des possibilités de composition de l’ordre de magnitude du pixel, tandis que les caractéristiques verbales sont associées dans un réseau dense de traductibilités positionnelles. Pour ces raisons, je crois qu’il est approprié de parler de perception d’archives, organisée en une série dense de perceptions computationnelles et distribuée en couches.

5 Le mouvement de composition par circuits des IA génératives visuelles

La troisième sphère du sens concerne, selon Basso Fossali, les initiatives linguistiques qui se réalisent à travers des grammaires ou des formes de grammaticalisation (qu’elles soient verbales, visuelles ou multimodales). Au tout début de cet article, j’ai proposé la définition suivante des IA : des entités co-énonçantes, dépourvues d’intentionnalité et d’initiative, mais qui produisent des énoncés en collaboration avec un opérateur humain et sur la base d’archives hautement structurées et reconfigurables. Dans le cas des IA génératives visuelles telles que Midjourney et DALL·E (Figure 2), la phase d’apprentissage peut être résumée en deux passages fondamentaux : premièrement, elles sont entraînées à ajouter des couches de bruit visuel sur une image donnée par diffusion vers l’avant (forward diffusion), et puis à recomposer la même image sur la base de prédictions et d’opérations progressives de débruitage, par diffusion inverse (reverse diffusion).

Figure 2: 
Une visualisation de la phase d’apprentissage d’une IA visuelle générative.
Figure 2:

Une visualisation de la phase d’apprentissage d’une IA visuelle générative.

Deuxièmement, dans leur espace latent, les traductions numériques des descripteurs verbaux sont associées aux traductions numériques des caractéristiques visuelles. Les deux formes de traduction constituent des listes de nombres (les incorporations, ou embeddings), qui sont ensuite absorbées par le modèle, c’est-à-dire qu’elles sont intégrées à ses paramètres et poids (Figure 3).

Figure 3: 
Un schéma illustrant le fonctionnement des incorporations (embeddings).
Figure 3:

Un schéma illustrant le fonctionnement des incorporations (embeddings).

Dans la phase d’inférence, il s’agit alors de l’opération inverse : à partir d’une image complétement bruitée, les IA doivent prédire et éliminer de manière progressive ce bruit et, ce faisant, composer une nouvelle image, activant les pixels en accord aux requêtes verbales de l’usager (Figure 4).

Figure 4: 
Une visualisation de la génération computationnelle d’images par Stable Diffusion.
Figure 4:

Une visualisation de la génération computationnelle d’images par Stable Diffusion.

Cette démarche pourrait être définie en tant que mouvement de composition. En effet, on peut positionner l’énonciation de l’IA par rapport à d’autres types d’énonciation technique par le biais d’une comparaison archéologique.[9] En ce qui concerne la photographie, son énonciation productive se réalise à travers un mouvement de décélération et de fixation visuelle du monde naturel. En modifiant les paramètres de l’ouverture du diaphragme, le temps d’exposition et la distance par rapport à la scène, différents effets sémiotiques sont obtenus à partir de ce mouvement productif. Ceci est particulièrement évident dans le cas des formes du flou. Dans le langage technique de la photographie, on différencie trois types de flou : cinétique, de bougé et bokeh. Le flou cinétique est localisé dans une partie de l’image, car il découle du mouvement d’un objet, d’un corps ou d’un animal au moment de la prise de vue. C’est un cas typique des photos de sport. Le flou de bougé, quant à lui, est réparti sur toute la surface de l’image, car il est causé par le mouvement du dispositif photographique au moment de la prise de vue. Un exemple célèbre de cette forme de flou est celui des photos de guerre. Enfin, le bokeh est le résultat d’une large ouverture du diaphragme, qui permet de sélectionner les éléments de l’image qui sont au point et de les entourer d’un effet de flou.

L’IA générative procède également via un mouvement de composition, mais plutôt que de fixer, par un mouvement visuel de décélération, la lumière sur un support sensible, elle procède plutôt en remettant en mouvement les traits visuels contenus dans le jeu de données – et qui ont un mode d’existence virtuel dans le modèle entraîné qui les a intégrés – afin de les fixer dans une nouvelle image.[10] En d’autres termes, le débruitage peut être défini en tant que mouvement de composition computationnelle.

Le défi le plus important pour la sémiotique concerne la description de la manière dont la logique de la composition visuelle s’ajuste à la logique de la prédication verbale : la composition visuelle, qui obéit normalement à une logique tabulaire et méréologique, est guidée par la prédication verbale, qui possède une logique linéaire (Bordron 2011). Il n’est pas facile de formuler des hypothèses sur la relation entre le verbal et le visuel, une fois que les deux sont réduits à un ensemble de circuits diagrammatiques positionnés dans un espace statistique multidimensionnel.

Dans le cas de l’IA de génération visuelle, nous Dondero, dans ce numéro sommes face à une triple syntaxe. Premièrement, la syntaxe de l’espace latent : une syntaxe mathématique et positionnelle dans laquelle les listes de nombres et d’opérations relatives aux descripteurs verbaux sont placées dans le même espace multidimensionnel que les listes de nombres et d’opérations relatives aux caractéristiques visuelles. Il s’agit d’une syntaxe qui agit directement sur l’espace, comme l’a souligné Maria Giulia Dondero dans sa contribution au séminaire international de sémiotique à Paris contenue dans ce dossier thématique et dans d’autres travaux (Dondero 2024, dans ce numéro; Dondero, dans ce numéro) : il s’agit des opérations syntaxiques effectuées sur l’espace de la mémoire des machines de Turing, la première strate d’opérations sémiotiques, celle la plus proche du langage de la machine.

La deuxième syntaxe des IA génératives est la composition visuelle, qui procède d’une manière différente par rapport à la composition réalisée par les humains : les IA démarrent à partir d’une indifférenciation visuelle provisoire, le bruit visuel aléatoire, et la résolvent progressivement par le biais de prédictions. C’est la rencontre avec un écran – une syntaxe déjà étudiée par Jean-François Bordron (2010) – qui active de nouvelles configurations syntaxiques et transforme l’espace multidimensionnel mathématique en espace de composition bidimensionnel.

La troisième syntaxe concerne la prédication verbale : les prompts sont traduits en listes de nombres capables de guider l’émergence de figures et de caractéristiques visuelles à partir d’un bruit aléatoire, dans une sorte de composition négative. Entre la syntaxe mathématique et positionnelle de l’espace latent et la syntaxe de la composition visuelle par écran, un réseau dense de va-et-vient est réalisé, guidé par les requêtes verbales.

La relation entre ces trois syntaxes, dans l’état actuel de la compréhension du fonctionnement de l’IA, nous oblige à parler de circuits de composition algorithmiques. Entre le circuit de la composition visuelle, qui se développe dans le processus de débruitage, et le circuit de la prédication, qui concerne les requêtes verbales qui guident ce débruitage, se situe le circuit liminaire de l’espace latent et des opérations mathématiques. Nous pouvons examiner ces circuits seulement de manière indirecte, à partir des générations visuelles réalisées par les IA sur la base de différentes requêtes en langage naturel.

5.1 Tester les circuits de composition des IA

Dans la section suivante sont présentés les tests effectués avec Midjourney et DALL·E, dans le but d’évaluer les qualités de leur mouvement de composition.[11] La stratégie d’analyse adoptée est d’essayer d’exposer de manière indirecte les circuits qui relient prédication verbale, composition visuelle et syntaxe mathématico-positionnelle à partir des « choix » énonciatifs et stylistiques réalisés par les IA. Ces tests prennent appui sur trois concepts analytiques développés en sémiotique visuelle afin de les transformer en critères de composition. Ils concernent notamment les catégories plastiques, l’énonciation visuelle, ainsi que la traduction intersémiotique d’actions prédiquées verbalement en actions composées visuellement.

Il faut cependant remarquer que ces tests ne possèdent pas une valeur statistique : les expérimentations effectuées ne sont pas assez nombreuses, et plusieurs générations n’ont pas été effectuées pour chaque requête. De plus, ces modèles évoluent au fil du temps, à travers des mises à jour qui ne sont pas toujours déclarées par OpenAI et Midjourney. Les mêmes requêtes pourraient produire des résultats différents à la suite de l’actualisation des logiciels. Ces tests se limitent d’ailleurs à examiner la génération via prompts et, dans le cas de Midjourney, ne prennent pas en compte les fonctions « Vary region » et « Zoom out ». En effet, la fonction « Vary region » permet de sélectionner une partie d’une image donnée et de générer à nouveau cette partie en utilisant éventuellement une nouvelle requête verbale. La fonction « Zoom out », quant à elle, permet d’étendre une image donnée. Dans ces cas, les sections plus externes de l’image sont générées par Midjourney en repoussant les bords de la représentation.

En d’autres termes, ces tests constituent une exploration préliminaire des circuits de composition des IA génératives, et autorisent un nombre limité de conclusions. En revanche, elles mettent déjà en lumière des caractéristiques générales de l’énonciation qui les concernent, notamment par rapport à la capacité d’accomplir des tâches spécifiques – par exemple, la capacité d’énumérer visuellement – et des configurations récurrentes dans les énoncés produits (effets de textures, densité figurative).

5.1.1 Les catégories plastiques

Les premières expériences concernent les catégories plastiques (Greimas 1984), c’est-à-dire les configurations de couleur (composante chromatique), l’organisation des lignes et des formes visuelles (composante eidétique), ainsi que l’articulation spatiale (composante topologique), au-delà de la présence de figures reconnaissables du monde.[12] Ces tests visent à évaluer si des prompts décrivant des séquences d’objets géométriques abstraits permettent aux IA de générer des images adaptées, ainsi que d’examiner les détournements et les variations entre les descriptions verbales et la composition visuelle.

Par rapport à la composante eidétique, le premier test concerne deux prompts soumis à Midjourney : générer une image composée de trois lignes verticales blanches sur fond noir, puis une image composée de trois lignes horizontales rouges sur fond blanc (Figure 5 et 6).

Figure 5 et 6: 
Midjourney 6.0. Prompt : « three vertical white lines on a black background », « three horizontal red lines on a white background », 2024.
Figure 5 et 6:

Midjourney 6.0. Prompt : « three vertical white lines on a black background », « three horizontal red lines on a white background », 2024.

Dans la première génération en Figure 5, seules deux des quatre images contiennent trois lignes. Dans la première et la quatrième image, les lignes blanches présentent d’ailleurs des irrégularités chromatiques, un effet de texture qui renvoie à la simulation d’un geste d’inscription. Il en va de même pour la deuxième génération en Figure 6 : trois images respectent les instructions de la requête verbale, en affichant les éléments eidétiques demandés. Cependant, dans la première et la troisième image, on retrouve le même travail sur la matière et la texture, la troisième laissant également entrevoir les limites de l’objet visuel, c’est-à-dire le cadre d’une peinture à vocation artistique. De même, l’arrière-plan est complètement uniforme seulement dans la deuxième image.

En utilisant les mêmes requêtes, les images générées à travers ChatGPT-4 – qui utilise l’IA générative visuelle DALL·E – présentent des incohérences comparables, mais l’on peut remarquer une texture plus neutre (Figure 7 et 8).

Figure 7 et 8: 
DALL·E. Prompt : « three vertical white lines on a black background », « three horizontal red lines on a white background », 2024.
Figure 7 et 8:

DALL·E. Prompt : « three vertical white lines on a black background », « three horizontal red lines on a white background », 2024.

Le test suivant concerne la dimension chromatique et se compose de deux requêtes verbales : une tache vert vif située à côté d’une tache rouge opaque (Figure 9) ; et une couleur jaune saturée à côté d’une couleur rouge désaturée (Figure 10).

Figure 9 et 10: 
Midjourney 6.0. Prompt : « a bright green spot next to an opaque red spot », « a saturated yellow color next to a desaturated red color », 2024.
Figure 9 et 10:

Midjourney 6.0. Prompt : « a bright green spot next to an opaque red spot », « a saturated yellow color next to a desaturated red color », 2024.

Les images générées par Midjourney ne présentent pas simplement des taches colorées, mais des taches de couleur dont la texture peut être reconnue : dans la première génération, par exemple, il semble s’agir de peinture à l’huile. Dans les générations en Figure 10, la texture de la surface d’inscription est irrégulière, comme s’il s’agissait d’un mur. D’une manière générale, le contrôle sur la composition reste imparfait.

Des requêtes similaires soumises à DALL·E ont produit des résultats opposés : les images sont simples, neutres, exemplifiant presque les couleurs demandées (Figure 11 et 12).

Figure 11 et 12: 
DALL·E. Prompt : « a bright green spot next to an opaque red spot », « a saturated yellow color next to a desaturated red color », 2024.
Figure 11 et 12:

DALL·E. Prompt : « a bright green spot next to an opaque red spot », « a saturated yellow color next to a desaturated red color », 2024.

Enfin, une dernière série de tests a été consacrée aux composantes topologiques. Cette catégorie n’est jamais isolée, puisqu’elle concerne l’agencement des formes, des figures et des couleurs et leur relation avec l’espace de représentation global. Deux requêtes verbales ont été soumises : le premier demandant une image affichant un cercle situé dans la partie supérieure droite de l’image, le deuxième d’un triangle entouré de carrés disposés de manière régulière. Dans la première génération (Figure 13) réalisée par Midjourney, la position du cercle est conforme à la requête dans deux images sur quatre, mais le traitement chromatique et textural de l’arrière-plan interprète en termes chromatiques la neutralité demandée. Dans la deuxième génération (Figure 14), Midjourney produit encore une fois une configuration complexe et un effet de texture sur le fond.

Figure 13 et 14: 
Midjourney 6.0. Prompt : « a small circle at the top right of the image on a neutral background », « a triangle at the center of the image, surrounded by squares arranged in a regular manner », 2024.
Figure 13 et 14:

Midjourney 6.0. Prompt : « a small circle at the top right of the image on a neutral background », « a triangle at the center of the image, surrounded by squares arranged in a regular manner », 2024.

Quant à DALL·E, ce modèle produit pour la première requête une image affichant un cercle situé au centre de l’image plutôt que dans la partie supérieure droite (Figure 15). Pour la deuxième requête, DALL·E propose une configuration différente par rapport à Midjourney (Figure 16) : l’image présente une série de petits carrés qui ne s’emboîtent pas les uns dans les autres, puisqu’ils sont disposés autour du triangle, mais ajoute un effet en trois dimensions qui n’est pas contenu dans le prompt.

Figure 15 et 16: 
DALL·E. Prompt : « a small circle at the top right of the image on a neutral background », « a triangle in the centre of the image, surrounded by squares arranged in a regular manner », 2024.
Figure 15 et 16:

DALL·E. Prompt : « a small circle at the top right of the image on a neutral background », « a triangle in the centre of the image, surrounded by squares arranged in a regular manner », 2024.

Si l’on essaie d’augmenter la complexité des requêtes verbales portant sur les catégories plastiques, les résultats présentent des problèmes majeurs. Par rapport à la requête de produire une séquence de trois objets bidimensionnels – un cercle rouge, un triangle vert et un carré orange – traversée par une ligne horizontale blanche, aucune des images générées ne présente tous les éléments contenus dans le prompt.

Midjourney produit un équilibre particulier ainsi qu’un effet de beauté (Figure 17). Les couleurs présentent une irrégularité qui implique un geste corporel et un travail sur les pigments ; le fond n’est pas uniforme ou neutre, car il affiche une surface d’inscription complexe et non homogène.

Figure 17: 
Midjourney. Prompt : « a sequence of three two-dimensional geometric objects : a red circle, a green triangle and an orange square crossed horizontally by a white line », 2024.
Figure 17:

Midjourney. Prompt : « a sequence of three two-dimensional geometric objects : a red circle, a green triangle and an orange square crossed horizontally by a white line », 2024.

Le test effectué avec DALL·E (Figure 18) produit une image affichant des objets qui ne sont pas bidimensionnels en raison d’un effet de perspective et de la présence d’ombres : au lieu d’un cercle, DALL·E affiche une sphère, le triangle est un tétraèdre, et le carré ressemble plutôt à une sorte de pyramide à base carrée avec un sommet coupé.

Figure 18: 
DALL·E. Prompt : « a sequence of three two-dimensional geometric objects : a red circle, a green triangle and an orange square crossed horizontally by a white line », 2024.
Figure 18:

DALL·E. Prompt : « a sequence of three two-dimensional geometric objects : a red circle, a green triangle and an orange square crossed horizontally by a white line », 2024.

5.1.2 L’énonciation et les dispositifs méta-picturaux

La deuxième série de tests concerne l’énonciation visuelle. En sémiotique, l’analyse énonciative concerne de nombreux critères complexes tels que les rapports cognitifs entre les objets et les personnages représentés par rapport au spectateur (Fontanille 1989), les effets de temporalité (Dondero 2020), les modulations visuelles de la négation (Badir et Dondero 2016). Les tests effectués dans le cadre de cet article concernent deux critères. Tout d’abord, ils portent sur les configurations de l’énonciation-discours et l’énonciation-histoire. Dans le langage verbal, ces deux régimes concernent le fait que le locuteur peut s’engager dans un discours à la première personne – un « je » s’adressant à un « tu » (énonciation-discours) – ou effacer les marques pronominales en utilisant « il », « elle » ou « on » afin de construire un régime d’énonciation impersonnel : c’est le cas, par exemple, des discours historiques et scientifiques (énonciation-histoire).

Dans le cas des images, ces deux régimes sont articulés en relation avec d’autres éléments, puisque les images n’ont pas de système pronominal. L’une des configurations les plus étudiées en sémiotique concerne le regard : si une figure représentée regarde le spectateur, ce regard configure un régime de l’énonciation-discours, car il réplique un dialogue « je-tu » à travers le regard. Si, en revanche, les figures ne s’adressent pas au spectateur, les événements représentés s’inscrivent dans le régime de l’énonciation-histoire, car ils semblent se dérouler de manière impersonnelle (Schapiro 2000).

En soumettant à Midjourney une requête verbale concernant un homme regardant vers le spectateur, il aura tendance à produire une image qui présente un homme et des spectateurs dans la représentation (Figure 19). DALL·E, en revanche, tend à postuler une référence au spectateur de l’image elle-même (Figure 20).

Figure 19: 
Midjourney 6. Prompt : « a man looking at the spectator », 2024.
Figure 19:

Midjourney 6. Prompt : « a man looking at the spectator », 2024.

Figure 20: 
DALL·E. Prompt : « a man looking at the spectator », 2024.
Figure 20:

DALL·E. Prompt : « a man looking at the spectator », 2024.

Si des pronoms personnels sont utilisés, la génération d’images par Midjourney se révèle efficace. Une requête verbale qui porte sur un homme regardant vers « nous » produit des résultats formellement corrects (Figure 21). C’est un résultat remarquable, car l’image produite montre que le modèle peut gérer des pronoms qui se réfèrent à l’espace du spectateur situé en dehors de la représentation.

Figure 21: 
Midjourney 6. Prompt : « a man who directs his gaze towards us », 2024.
Figure 21:

Midjourney 6. Prompt : « a man who directs his gaze towards us », 2024.

Le même résultat est obtenu en utilisant DALL·E (Figure 22).

Figure 22: 
DALL·E. Prompt : « a man who directs his gaze towards us », 2024.
Figure 22:

DALL·E. Prompt : « a man who directs his gaze towards us », 2024.

Cependant, il s’agit d’une configuration simple qui n’implique qu’un seul acteur humain. Si on essaye de répliquer le même régime de l’énonciation-discours, mais concernant des acteurs en interaction, les résultats sont rarement appropriés : c’est le cas de prompts qui portent sur des hommes qui s’enlacent en regardant vers « moi », et de deux hommes qui luttent, un des deux regardant vers « nous ». Dans la première génération en Figure 23, seules la deuxième et la troisième images respectent la phrase. Et aucune des images produites dans la Figure 24 ne montre un acteur regardant vers le spectateur. Dans l’ensemble, ces tests montrent que le contrôle des regards est limité.

Figure 23 et 24: 
Midjourney 6. Prompt : « two men embrace. They are looking towards me », « two men fight each other. One of them looks at us », 2024.
Figure 23 et 24:

Midjourney 6. Prompt : « two men embrace. They are looking towards me », « two men fight each other. One of them looks at us », 2024.

Midjourney semble efficace dans la gestion des pronoms impliquant le spectateur, mais la gestion des configurations visuelles semble rencontrer des obstacles lorsque la phrase décrit plusieurs acteurs, probablement en raison des mêmes limitations observées par rapport aux catégories plastiques.

Les mêmes requêtes verbales soumises à DALL·E permettent un contrôle plus précis sur la composition (Figure 25 et 26). La deuxième image est remarquable en comparaison à celles obtenues avec Midjourney : bien que les deux hommes ne semblent pas mutuellement engagés en situation de combat, la différente articulation des regards est respectée, témoignant d’un contrôle sur la composition et sur les regards représentés.

Figure 25 et 26: 
DALL·E. Prompt : « two men embrace. They are looking towards me », « two men fight each other. One of them looks at us », 2024.
Figure 25 et 26:

DALL·E. Prompt : « two men embrace. They are looking towards me », « two men fight each other. One of them looks at us », 2024.

Le deuxième critère énonciatif concerne les dispositifs méta-picturaux étudiés dans l’histoire de l’art par Victor Stoichita (1993) et largement repris en sémiotique visuelle (Fontanille 1989) : des objets visuels particuliers au sein de la représentation (miroirs, fenêtres, rideaux ou portes) qui permettent de structurer l’espace de la représentation et de diriger le parcours du regard du spectateur, dissimulant, laissant entrevoir, invitant à regarder au-delà ou ailleurs. La fenêtre, par exemple, invite le spectateur à regarder au-delà d’elle, vers l’horizon. Ce dispositif a contribué à stabiliser le genre du paysage. Le miroir, comme toute surface réfléchissante, permet d’additionner plusieurs points de vue à l’intérieur de la même image. Il s’agit d’un dispositif qui a été largement utilisé dans les genres de l’autoportrait et du portrait. Une porte ouverte crée un effet de découverte en relation avec un espace en premier plan, en invitant le regard à le traverser. Le rideau, quant à lui, cache, révèle et module la vision. Bien que le concept de dispositifs méta-picturaux ait été élaboré dans le cadre de l’étude des images artistiques, ceux-ci se retrouvent dans tout type d’image, qu’elle soit photographique, picturale ou réalisée en infographie, et dans de multiples domaines sociaux tels que les représentations scientifiques et la publicité de mode (Dondero 2020).

Dans le cadre de cet article, les tests effectués se limitent au dispositif de la porte. Les images générées par Midjourney à partir d’une requête verbale décrivant une femme lisant derrière une porte ouverte (Figure 27) présentent dans deux cas des configurations d’espace adaptées. Si l’on essaye d’augmenter la complexité des actions, avec une requête décrivant deux femmes discutant en secret derrière une porte entrouverte (Figure 28), aucune des quatre images produites ne montre une articulation de l’espace parfaitement adaptée. Cependant, dans certaines de ces images, la porte ouverte structure l’espace de la représentation selon les fonctions que Stoichita a attribuées à ce dispositif : augmenter la profondeur de vision de l’image et permettre l’observation au-delà du premier plan.

Figure 27 et 28: 
Midjourney. Prompt : « a woman reads at the back of the room, behind a half-open door », « two women talk secretly at the back of the room, behind a half-open door », 2024.
Figure 27 et 28:

Midjourney. Prompt : « a woman reads at the back of the room, behind a half-open door », « two women talk secretly at the back of the room, behind a half-open door », 2024.

Les mêmes requêtes verbales produisent des résultats comparables sur DALL·E : dans la Figure 29, le prompt est respecté, tandis que dans la Figure 30, une porte très spéciale est générée, caractérisée par un vide dans la partie supérieure afin d’assurer la vision sur les deux femmes.

Figure 29 et 30: 
DALL·E. Prompt : « a woman reads at the back of the room, behind a half-open door », « two women talk secretly at the back of the room, behind a half-open door », 2024.
Figure 29 et 30:

DALL·E. Prompt : « a woman reads at the back of the room, behind a half-open door », « two women talk secretly at the back of the room, behind a half-open door », 2024.

5.1.3 L’articulation visuelle d’actions

La dernière série de tests concerne la traduction intersémiotique d’actions exprimées à travers le langage verbal en actions composées à travers des configurations visuelles. Ces tests utilisent deux critères. Tout d’abord, un critère lié à la complexité des prédications, avec des phrases simples sans verbes ou avec un sujet et un verbe. Ensuite, différentes structures actantielles ont été testées, c’est-à-dire un, deux ou plusieurs actants reliés par un verbe d’action. Enfin, une dernière série de tests porte sur l’aspectualité temporelle.

La première requête verbale est la suivante : « une personne regarde par la fenêtre ». En effet, le verbe « regarder » peut être utilisé comme une sorte de degré zéro de l’action, car dans ce cas, il n’implique pas un deuxième actant et articule une action au présent (Figure 31 et 32). Ces deux premiers prompts ne posent pas de problèmes à Midjourney ou à DALL·E.

Figure 31: 
Midjourney. Prompt : « a person looks out of the window », 2024.
Figure 31:

Midjourney. Prompt : « a person looks out of the window », 2024.

Figure 32: 
DALL·E. Prompt : « a person looks out of the window », 2024.
Figure 32:

DALL·E. Prompt : « a person looks out of the window », 2024.

Les tests suivants impliquent des verbes transitifs et relient deux rôles actantiels. Le verbe « prendre », par exemple, implique un sujet et un complément d’objet. Une phrase telle que « une personne ramasse un verre du sol » nécessite la coordination de deux actants (une personne et un verre) par rapport à une organisation spatiale de l’action (du sol). Midjourney et DALL·E produisent une image qui respecte la phrase (Figure 33 et 34), et Midjourney offre plusieurs perspectives du geste à l’observateur.

Figure 33: 
Midjourney. Prompt : « a person picks up a glass from the ground », 2024.
Figure 33:

Midjourney. Prompt : « a person picks up a glass from the ground », 2024.

Figure 34: 
DALL·E. Prompt : « a person picks up a glass from the ground », 2024.
Figure 34:

DALL·E. Prompt : « a person picks up a glass from the ground », 2024.

Ces IA ne sont pas aussi efficaces si la requête proposée demande une image d’un homme qui ramasse un objet moins courant, tel qu’un xylophone, ce qui pose en outre des difficultés logistiques : il n’est pas ramassé de la même manière qu’un verre. Dans les images produites par Midjourney (Figure 35), la personne ne ramasse jamais réellement l’objet. De plus, la configuration visuelle est plus statique. Cette différence peut s’expliquer en termes de dimensionnalité par rapport au test précédent réalisé sur le verre : le verre a une configuration verticale qui est mieux adaptée au geste de ramassage. C’est aussi un objet plus petit, adapté à un geste d’une seule main. Le xylophone, en revanche, impose une configuration horizontale à l’image, et ses plus grandes dimensions nécessitent un geste structuré en plusieurs étapes, et une configuration plus complexe du corps humain, nécessitant l’action des deux mains.

Figure 35: 
Midjourney. Prompt : « a person picks up a xylophone from the ground », 2024.
Figure 35:

Midjourney. Prompt : « a person picks up a xylophone from the ground », 2024.

Le même résultat a été obtenu par DALL·E (Figure 36), mais on peut remarquer que cette IA a produit une image avec un format horizontal différent.

Figure 36: 
DALL·E. Prompt : « a person picks up a xylophone from the ground », 2024.
Figure 36:

DALL·E. Prompt : « a person picks up a xylophone from the ground », 2024.

Les difficultés majeures surviennent lorsqu’il s’agit de prendre en compte deux actants animés liés par un verbe d’action. Midjourney n’est pas toujours capable de distinguer la direction de l’action, et transforme souvent l’action elle-même. C’est le cas d’une personne poursuivant un animal en Figure 37. Dans la première image produite par Midjourney, c’est l’animal qui poursuit la personne ; dans la deuxième, c’est plutôt une confrontation entre les deux ; dans la troisième, c’est une poursuite réciproque ou une interaction ludique ; dans la quatrième, les deux figures ne semblent pas nécessairement être liées par une action. La même requête soumise à DALL·E (Figure 38) produit une composition visuelle adaptée.

Figure 37: 
Midjourney. Prompt : « a person chases an animal », 2024.
Figure 37:

Midjourney. Prompt : « a person chases an animal », 2024.

Figure 38: 
DALL·E. Prompt : « a person chases an animal », 2024.
Figure 38:

DALL·E. Prompt : « a person chases an animal », 2024.

Les derniers tests concernent l’aspectualité temporelle : il s’agit non seulement de vérifier si le temps exprimé par le verbe est respecté dans les images, mais aussi le point de vue temporel sur l’action dans son ensemble. De manière générale, en sémiotique on peut distinguer entre une aspectualité ponctuelle, durative, itérative, inchoative (le début d’une action) et terminative (la fin).

Tout d’abord, un test sur l’aspectualité terminative a été réalisé à travers une requête décrivant une personne qui vient de finir de manger un repas. Dans les images produites par Midjourney, la temporalité et l’aspectualité ne sont pas respectées, car dans aucun des quatre cas ne retrouve-t-on des éléments indiquant que le repas est terminé (Figure 39). Dans le cas de DALL·E, en revanche, un jeune homme regarde vers le spectateur en souriant devant une assiette presque vide (Figure 40).

Figure 39: 
Midjourney. Prompt : « a person has finished eating a meal », 2024.
Figure 39:

Midjourney. Prompt : « a person has finished eating a meal », 2024.

Figure 40: 
DALL·E. Prompt : « a person has finished eating a meal », 2024.
Figure 40:

DALL·E. Prompt : « a person has finished eating a meal », 2024.

Des résultats similaires ont été obtenus pour une requête décrivant une action inchoative : une personne sur le point de commencer à manger un repas. Dans les images produites par Midjourney (Figure 41), seule la première image pourrait correspondre à la phrase soumise. Cependant, il n’y a pas suffisamment d’éléments pour affirmer avec certitude que la personne commence à manger, et l’image n’est adéquate que parce que nous connaissons le contenu du prompt.

Figure 41: 
Midjourney. Prompt : « a person about to start eating a meal », 2024.
Figure 41:

Midjourney. Prompt : « a person about to start eating a meal », 2024.

En revanche, l’image produite par DALL·E propose une configuration qui traduit visuellement l’acte de commencer à manger : on voit une personne tenant une fourchette et un couteau, prête à les utiliser devant une assiette pleine de nourriture (Figure 42).

Figure 42: 
DALL·E. Prompt : « a person about to start eating a meal », 2024.
Figure 42:

DALL·E. Prompt : « a person about to start eating a meal », 2024.

5.1.4 Les circuits de composition de Midjourney et DALL·E

Les tests effectués, bien que limités du point de vue statistique, autorisent une série d’observations générales : les circuits de composition algorithmiques qui relient la prédication verbale des prompts à la composition visuelle sur écran présentent encore des limites dans les générations réalisées par Midjourney et DALL·E. De plus, ces deux IA semblent composer les images de manière différente. Midjourney, en particulier, semble subir une sorte de « pression esthétique » généralisée. Il est possible de remarquer une tension forte vers des effets de matière produits à travers un traitement de textures qui renvoient à un geste et à une surface d’inscription particulières. Les couleurs présentent souvent une irrégularité qui implique un geste corporel et un travail sur les pigments ; le fond n’est presque jamais uniforme ni neutre, car il est déjà constitué d’une matérialité parfois reconnaissable.

Les tests effectués sur DALL·E démontrent que cette tension est absente dans les images générées par ce modèle : DALL·E adopte un style plus neutre par rapport à Midjourney, et semble préfigurer une utilisation qui n’est pas liée au domaine artistique, mais qui serait par contre adaptée à des finalités différentes, par exemple didactiques. Le rendu des couleurs, des textures, et plus généralement le « style » affiché sont davantage anonymes. En revanche, ce modèle est plus efficace dans le contrôle de la composition : il produit de meilleurs résultats par rapport aux critères plastiques, et il est plus efficace en ce qui concerne la représentation des temporalités (aspectualités inchoative et terminative).

La conclusion préliminaire que l’on peut tirer de ces tests est que non seulement les circuits de composition des IA fonctionnent de manière différente par rapport à la sémiose humaine, mais aussi que chaque modèle énonce de manière différente : chaque modèle relie de manière différente la perception synthétique accomplie dans la phase d’apprentissage à l’énonciation visuelle d’images. Une explication possible réside dans la structure des bases de données et des modèles eux-mêmes. Dans le cas de Midjourney, on peut supposer que le poids des images artistiques est plus important à l’intérieur du corpus d’apprentissage. Au contraire, il est probable que DALL·E puisse profiter d’un modèle de traitement du langage naturel plus efficace – le modèle ChatGPT développé par la même entreprise, OpenAI – et que cette structuration plus fine dans le traitement du langage verbal permette une structuration visuelle conséquente.

6 Conclusions

Dans cet article, j’ai abordé le fonctionnement de l’IA d’un point de vue sémiotique, en me penchant sur les IA génératives visuelles. J’ai évoqué les quatre dimensions de la médiation du sens proposées par Pierluigi Basso Fossali, en me concentrant surtout sur la dimension de la transmission et donc sur celle des archives, sur celle de la perception et de la vision computationnelle, ainsi que sur l’énonciation et la génération visuelles. En ce qui concerne les archives, j’ai proposé de concevoir les bases de données comme des généalogies d’archives et d’opérations reconfigurables : les IA travaillent en intégrant des archives précédentes, soit en reconfigurant les opérations déjà accomplies par les IA dans le passé et en mettant en rapport des images et leurs descripteurs au niveau de magnitude du pixel.

J’ai ensuite examiné la sphère de la perception, en me penchant sur la distribution des perceptions nécessaire à la création des bases de données et qui se développe historiquement selon une autonomisation progressive des IA par rapport au travail perceptif et d’annotation manuelle par des humains. À ce jour, les IA travaillent sur une distribution de perceptions : elles peuvent modéliser les images que nous produisons avec nos téléphones intelligents, se nourrir des images et des textes présents en ligne, et apprendre des bases de données accumulées dans le passé. Il s’agit d’une perception computationnelle organisée en plateforme et articulée grâce à plusieurs dispositifs sensibles (téléphones mobiles, montres, assistants personnels intelligents).

Dans la phase d’entraînement, au contraire, l’IA tire parti d’une perception distribuée sur plusieurs couches : dans un certain sens, il s’agit d’une perception d’archives, car les poids et les paramètres du modèle (sa sensibilité) sont entraînés sur des bases de données constituées de millions d’images et d’annotations complexes (jugements perceptifs, jugements esthétiques, descriptions complexes, récits). Le résultat de ces entraînements est un modèle qui associe, dans un espace computationnel pluridimensionnel, des traits visuels figuratifs et plastiques ainsi que des motifs et des domaines sociaux, à des descripteurs verbaux. Nous ne pouvons pas savoir comment ces associations entre le visuel et le verbal sont organisées en détail dans le modèle final, sauf avec la formule générale des circuits de composition algorithmiques, qui traduisent en termes de proximité et de distance dans l’espace latent le rapport entre activation de pixels et régions sémantiques verbales.

Enfin, au niveau de l’énonciation, j’ai proposé la formule de mouvement de composition par circuits afin de décrire le mouvement d’énonciation résultant du processus de débruitage guidé par les requêtes verbales. Ce mouvement relie la syntaxe de la prédication verbale à la syntaxe par écran de la composition visuelle, à travers la médiation d’une syntaxe mathématico-positionnelle. Les tests effectués à partir de trois critères sémiotiques – les catégories plastiques, l’énonciation et la traduction intersémiotique – montrent non seulement que les circuits de composition des IA fonctionnent de manière très différente par rapport aux circuits de la sémiose humaine, mais aussi que chaque modèle énonce de manière différente.

Dans ces dernières lignes, j’aimerais revenir sur la définition de départ de ces modèles computationnels afin de dessiner un possible terrain de recherche en sémiotique des IA : des entités co-énonçantes, dépourvues d’intentionnalité et d’initiative, qui produisent pourtant des énoncés en collaboration avec un opérateur humain et sur la base d’archives de données hautement structurées et reconfigurables. À la lumière du parcours accompli, cette définition peut être mise à jour en convoquant deux concepts développés au sein de la sémiotique interprétative. D’une part, les IA génératives semblent se configurer comme des prothèses,[13] des objets qui étendent ou remplacent les compétences humaines. Dans la définition proposée par Umberto Eco, une prothèse est « un appareil servant à remplacer un membre, une partie du membre ou organe (par exemple, une prothèse dentaire) » (Eco 1999 : 503). Cependant, l’acception qui s’est imposée est plus inclusive, parce que Eco y place « tout appareil qui étend le rayon d’action d’un organe » (Eco 1999 : 503). Leur caractère spécifique étant l’adhérence au corps, on peut affirmer que les prothèses peuvent être situées à l’intérieur de la première dimension de gestion du sens, celle de la perception. Cependant, selon la définition d’Eco, les prothèses se substituent ou augmentent les fonctions perceptives et corporelles, mais ne produisent pas de signes objectivés sur un support sémiotique. Or, l’un des aspects qui définissent les IA génératives est exactement leur capacité de production sémiotique, le fait qu’elles sont capables de produire des textes verbaux, visuels et multimodaux. Même si l’on élargit la définition des prothèses aux dispositifs capables de produire des textes, comme les appareils photo par exemple, il faut tenir compte d’un autre aspect fondamental de leur fonctionnement : le fait que leur travail de production sémiotique repose sur un grand nombre de données articulées de manière complexe selon des catégories reconfigurables de traits visuels et de descripteurs verbaux. Il en résulte que, si l’on suivait jusqu’au bout cette piste prothétique, on serait contraint de définir les IA par la formule paradoxale de prothèses culturelles.

D’autre part, les IA génératives semblent fonctionner comme des encyclopédies. Dans les premières définitions proposées par Umberto Eco (1975), l’encyclopédie est décrite comme un modèle sémiotique composé de tous les interprétants enregistrés à une époque donnée. Chaque unité de signification – qu’Eco appelle « unité culturelle » – est définie non seulement par des valeurs sémantiques, mais aussi par le réseau de cooccurrences textuelles et d’instructions pragmatiques sédimentées dans l’usage. En effet, les IA génératives semblent se nourrir d’ensembles de données qui ressemblent, à une bonne approximation près, à l’ensemble de tous les interprétants enregistrés, et leurs bases de données contiennent une grande quantité de connaissances cognitives, d’usages pragmatiques et de cooccurrences textuelles. Pourtant, une caractéristique de leur fonctionnement s’oppose à ce rapprochement avec l’encyclopédie. Les IA génératives sont en effet capables de produire des textes inédits en recombinant finement les interprétants enregistrés et en manipulant algorithmiquement des configurations de l’ordre de magnitude du pixel. De plus, la phase d’apprentissage repose sur des actes de vision computationnelle qui les rapprochent des caractéristiques de la perception humaine, et qui sont irréductibles à des connaissances catégorielles organisées uniquement à travers des interprétants structurés.

Dans un certain sens, les IA semblent également fondées sur des formes particulières de catégories « sauvages » : non seulement des connaissances encyclopédiques organisées en catégories, mais aussi des connaissances quasi-expérientielles fondées sur des types cognitifs (Eco 1999 : 180–181), soit des organisations de traits sensoriels multimodaux reconfigurables qui permettent, par exemple, de reconnaître un exemplaire particulier de cheval comme étant un cheval. Dans le cas de l’IA, il s’agit de types cognitifs particuliers, qui dérivent de la vision de multiples occurrences d’une entité, mais qui conservent suffisamment de plasticité pour assurer la reconnaissance perceptive – et la génération visuelle – et ce, même dans des circonstances inédites.

En d’autres termes, les IA génératives ne semblent pas pouvoir être réduites à des prothèses ou à des encyclopédies. À mon sens, plutôt que des prothèses, elles pourraient être définies comme des machines. Selon Eco, en effet, les machines « sont des outils améliorés. Elles exécutent un travail sans être guidées par l’organe dont elles amplifient les possibilités. Une fois mises en marche, leur fonctionnement est autonome «(Eco 1999: 505). Une hypothèse de travail pour la sémiotique des IA génératives serait de les étudier en tant que machines co-énonçantes. Une fois mises en marche, elles peuvent produire elles-mêmes des textualités verbales, visuelles ou multimodales. Pourtant, en manque d’intentionnalité, elles ne peuvent pas énoncer seules ; elles ne peuvent pas réaliser les potentialités inédites contenues dans les bases de données, dans l’ensemble des combinaisons granulaires qui les composent. Pour qu’elles puissent produire des énoncés, elles doivent être activées par des requêtes humaines dotées d’intentionnalité, capables de sélectionner les circuits de composition qui les innervent. En d’autres termes, les multiples activations humaines nécessaires au fonctionnement des IA génératives configurent un régime inédit de co-énonciation où les circuits de signification algorithmiques sont constitutivement co-dépendants des circuits de la signification humaine. En amont, il s’agit d’une codépendance concernant la constitution des bases de données. En aval, cette codépendance est impliquée dans la transduction des requêtes verbales des usagers en configurations visuelles.


Corresponding author: Enzo D’Armenio, Université Jean Moulin Lyon 3, Lyon, France, E-mail:

Références

Bachimont, Bruno. 2010. Le sens de la technique : le numérique et le calcul. Paris: Encre marine.Search in Google Scholar

Badir, Sémir & Maria Giulia Dondero (eds.). 2016. L’image peut-elle nier ? Liège: Presses universitaires de Liège.Search in Google Scholar

Baron, Jaimie. 2014. The archive effect: Found footage and the audiovisual experience of history. Abingdon: Routledge.10.4324/9780203066935Search in Google Scholar

Basso Fossali, Pierluigi. 2017. Vers une écologies sémiotique de la culture. Perception, gestion et réappropriation du sens. Limoges: Lambert-Lucas.Search in Google Scholar

Basso Fossali, Pierluigi. 2024. De la générativité à la « circuitation » : instanciations et modèles diagrammatiques d’une écologie sémiotique. Actes Sémiotiques 130.10.25965/as.8223Search in Google Scholar

Benveniste, Émile. 1970. L’appareil formel de l’énonciation. Langages 17. 12–18.10.3406/lgge.1970.2572Search in Google Scholar

Bordron, Jean-François. 2010. Rhétorique et économie des images. Protée 38(1). 27–40. https://doi.org/10.7202/039700ar.Search in Google Scholar

Bordron, Jean-François. 2011. L’Iconicité et ses images. Paris: PUF.10.3917/puf.bord.2011.01Search in Google Scholar

Bordron, Jean-François & Maria Giulia Dondero. 2023. L’expression : de Hjelmslev à l’analyse computationnelle des larges collections d’images. Actes Sémiotiques 129.10.25965/as.8077Search in Google Scholar

Cardon, Dominique. 2015. À quoi rêvent les algorithmes. Nos vies à l’heure des big data. Paris: Seuil.Search in Google Scholar

Colas-Blaise, Marion. 2023a. Les critères de l’art au risque du numérique. L’œuvre-réseau. Visible 12.10.25965/visible.535Search in Google Scholar

Colas-Blaise, Marion. 2023b. L’Énonciation : Évolutions, passages, ouvertures. Liège: Presses Universitaires de Liège.Search in Google Scholar

Colas-Blaise, Marion, Laurent Perrin & Gian Maria Tore (eds.). 2016. L’Énonciation aujourd’hui : un concept clé des sciences du langage. Limoges: Lambert-Lucas.Search in Google Scholar

D’Armenio, Enzo. 2024. Kinetic images: A genealogy of visual media based on the concept of movement. Punctum 10(1).10.18680/hss.2024.0002Search in Google Scholar

D’Armenio, Enzo, Adrien Deliège & Maria Giulia Dondero. 2024a. Semiotics of machinic co-enunciation: About generative models (Midjourney and DALL·E). Signata 15. https://doi.org/10.4000/127x4.Search in Google Scholar

D’Armenio, Enzo, Adrien Deliège & Maria Giulia Dondero. 2024b. A semiotic methodology for assessing the compositional effectiveness of generative text-to-image models (Midjourney and DALL·E). In Proceedings of the first workshop on critical evaluation of generative models and their impact on society, ECCV 2024. Berlin: Springer.Search in Google Scholar

Deleuze, Gilles. 1981. Logique de la sensation. Paris: la Différence.Search in Google Scholar

Dondero, Maria Giulia. 2020. The language of images: The forms and the forces. Cham: Springer.10.1007/978-3-030-52620-7Search in Google Scholar

Dondero, Maria Giulia & Francesco La Mantia (eds.). 2021. Diagrammatic gestures. Metodo 9(1).10.19079/metodo.9.1.7Search in Google Scholar

Dondero, Maria Giulia. 2024. Inteligência artificial e enunciação : análise de grandes coleções de imagens e geração automática via Midjourney. Todas as Letras 26(2). 1–24. https://doi.org/10.5935/1980-6914/elettr17164.Search in Google Scholar

Dondero, Maria Giulia, Andreas Fickers, Gian Maria Tore & Matteo Treleani (eds.). 2021. Sémiotiques de l’archive. Signata 12.Search in Google Scholar

Eco, Umberto. 1975. Trattato di semiotica generale. Milano: Bompiani.Search in Google Scholar

Eco, Umberto. 1999. Kant et l’ornithorynque. Paris: Grasset.Search in Google Scholar

Eugeni, Ruggero. 2021. Capitale algoritmico. Cinque dispositivi postmediali (più uno). Brescia: Scholé.Search in Google Scholar

Fabbri, Paolo. 1998. La svolta semiotica. Rome-Bari: Laterza.Search in Google Scholar

Fontanille, Jacques. 1989. Les espaces subjectifs : Introduction à la sémiotique de l’observateur. Paris: Hachette.Search in Google Scholar

Fontanille, Jacques. 2006. The semiotics of discourse. New York: Peter Lang.Search in Google Scholar

Fontanille, Jacques. 2008. Pratiques sémiotiques. Paris: PUF.10.3917/puf.font.2008.01Search in Google Scholar

Fontanille, Jacques & Algirdas J. Greimas. 1991. Sémiotique des passions. Des états de choses aux états d’âme. Paris: Seuil.Search in Google Scholar

Gefen, Alexandre. 2023. Vivre avec ChatGPT : L’intelligence artificielle aura-t-elle réponse à tout ? Paris: Éditions de l’Observatoire.Search in Google Scholar

Greimas, Algirdas Julien. 1984. Sémiotique figurative et sémiotique plastique. Actes sémiotiques 60.Search in Google Scholar

Le Cun, Yann. 2019. Quand la machine apprend. La révolution des neurones artificiels et de l’apprentissage profond. Paris: Odile Jacob.Search in Google Scholar

Leone, Massimo (ed.). 2023. Il volto latente. Torino: FACETS Digital Press.Search in Google Scholar

Leveau-Vallier, Alban. 2023. IA : L’intuition et la création à l’épreuve des algorithmes. Ceyzérieu: Éditions Champ Vallon.Search in Google Scholar

MacKenzie, Adrian & Anna Munster. 2019. Platform seeing: Image ensembles and their invisualities. Theory, Culture & Society 36(5). 3–22. https://doi.org/10.1177/0263276419847508.Search in Google Scholar

McLuhan, Marshall. 1964. Understanding media: The extension of men. New York: McGraw Hill.Search in Google Scholar

Moutat, Audrey. 2015. Pour une sémiotique de la perception. Limoges: Lambert-Lucas.Du sensible à l’intelligibleSearch in Google Scholar

Offert, Fabian & Peter Bell. 2020. Perceptual bias and technical metapictures. AI & Society 36. 1133–1144. https://doi.org/10.1007/s00146-020-01058-z.Search in Google Scholar

Paolucci, Claudio. 2020. Persona : Soggettività nel linguaggio e semiotica dell’enunciazione. Milano: Bompiani.Search in Google Scholar

Paolucci, Claudio. 2021. Cognitive semiotics : Integrating signs, minds, meaning, and cognition. Cham: Springer.10.1007/978-3-030-42986-7Search in Google Scholar

Parikka, Jussi. 2023. Operational images : From the visual to the invisual. Minneapolis, MN: University of Minnesota Press.10.5749/9781452970929Search in Google Scholar

Schapiro, Meyer. 2000. Les mots et les images. Paris: Macula.Search in Google Scholar

Somaini, Antonio. 2023. Algorithmic images : Artificial Intelligence and visual culture. Grey Room 93. 74–115. https://doi.org/10.1162/grey_a_00383.Search in Google Scholar

Stjernfelt, Frederik. 2007. Diagrammatology: An investigation on the borderlines of phenomenology, ontology, and semiotics. Dordrecht: Springer Verlag.10.1007/978-1-4020-5652-9Search in Google Scholar

Stoichita, Victor. 1993. L’Instauration du Tableau : métapeinture à l’aube des temps modernes. Paris: Droz.Search in Google Scholar

Treleani, Matteo. 2017. Qu’est-ce que le patrimoine numérique ? Une sémiologie de la circulation des archives. Lormont: Le Bord de l’Eau.Search in Google Scholar

Voto, Cristina. 2023. Verso una semiotica della spazialità latente o di come le IA modellano e simulano il volto artificiale. In Massimo Leone (ed.), Il volto latente, 221–238. Torino: FACETS Digital Press.Search in Google Scholar

Received: 2024-10-27
Accepted: 2024-12-27
Published Online: 2025-02-05
Published in Print: 2025-01-29

© 2024 the author(s), published by De Gruyter, Berlin/Boston

This work is licensed under the Creative Commons Attribution 4.0 International License.

Downloaded on 28.9.2025 from https://www.degruyterbrill.com/document/doi/10.1515/sem-2024-0184/html
Scroll to top button