L’IA ne comprend rien aux images

Par André Gunthert15 mai 202120 octobre 2023Fisheye

(Fisheye #47) A rebours de l’enthousiasme médiatique, la chercheure Kate Crawford, spécialiste de l’intelligence artificielle, taille un costard aux recherches en IA dans un ouvrage récemment publié¹. Reprenant et approfondissant les critiques formulées de longue date à l’encontre des mirages du Deep Learning, elle dénonce l’abus dans les programmes de la recherche de l’exploitation des données personnelles, réunies et collectées dans des conditions douteuses à des fins d’entraînement des réseaux neuronaux. La nécessité pour l’industrie du calcul de disposer de bases toujours plus étendues pour améliorer les résultats de la reconnaissance nourrit une posture extractiviste dépourvue de toute considération éthique, qui expose les usagers des outils numériques à une exploitation sans frein de leurs activités.

Kate Crawford consacre de longs développements à l’analyse d’images, fer de lance de l’intelligence artificielle, qui a ouvert un horizon neuf à l’investigation automatique. La multiplication des sources d’identification à travers les images autoproduites diffusées par les usagers eux-mêmes et l’extension des outils de surveillance dans l’espace public dessine un espace documentaire qui ressemble à un nouvel eldorado. Pourtant, souligne la spécialiste des nouveaux médias, les méthodes utilisées pour la mise en œuvre de l’analyse automatique des images favorisent les confusions, les erreurs et les paradoxes. On le sait, les outils du Deep Learning s’appuient sur les identifications préalables des ouvriers du clic, prolétariat sous-payé qui examine et classe manuellement les images à partir de grilles stéréotypées. La décontextualisation qui préside à la constitution des bases de données et la collecte d’ensembles toujours plus vastes destinés à l’entraînement des machines accentuent encore l’homogénéisation d’une lecture de plus en plus standardisée.

Le développement de l’IA s’est accompagné d’une multiplication d’erreurs et de biais manifestes: biais racistes dans la reconnaissance des visages des smartphones d’Apple, biais homophobes dans des outils de détection automatique de l’homosexualité, biais de genre dans les algorithmes de recrutement, etc. Selon Kate Crawford, tous ces dysfonctionnements ne sont pas de simples défauts à corriger, mais la conséquence logique de la méthodologie mise en œuvre pour l’analyse des données. Ces anomalies sont encore plus marquées dans le domaine visuel: «Les images, comme toutes formes de données, sont chargées d’innombrables sens potentiels, de questions insolubles et de contradictions». Or, les exigences de l’automatisation vont à l’encontre de ces caractères.

L’utilisation des emojis ou des «reaction gifs», séquences expressives extraites de films ou d’images d’actualité, destinées à agrémenter les conversations en ligne, fournit un bon exemple de ce que la linguistique appelle des «modalisateurs», autrement dit des indicateurs de la subjectivité de l’interlocuteur. Le sourire d’un smiley n’a pas de sens en soi et ne constitue pas un message autosuffisant. Il intervient comme l’ajout d’une coloration expressive à un échange dont il infléchit la signification. Cette manière subtile d’enrichir la communication constitue une fonction essentielle des images.

Alors que l’analyse automatique s’attaque à la détection des émotions, l’absence d’une interprétation correcte de la nature des messages visuels fait apparaître les limites de la simplification algorithmique. Le principe de l’identification des expressions faciales les réduit à un vocabulaire dont il suffirait d’établir le relevé. Mais les jeux expressifs, comme les emojis, sont des modalisateurs qui ne prennent sens qu’au sein d’une interaction. Leur compréhension relève d’une analyse du discours en contexte, que chacun effectue spontanément – mais qui est hors de portée des machines.

Alors que les promesses d’une vision automatique des images ont alimenté les fantasmes des deux premières décennies du 21e siècle, il faut bien reconnaître qu’à l’exception de l’identification faciale, qui est une simple opération de comparaison, les applications concrètes de la reconnaissance de formes se font toujours attendre. L’analyse par Kate Crawford des procédures de l’IA montre que les difficultés auxquelles celle-ci se heurte ne sont pas des défauts qu’une amélioration du calcul peut résoudre, mais le résultat du recours à des méthodologies inadaptées. Loin de constituer la clé de l’accès à un langage universel facilement accessible, les images forment un îlot de résistance et de complexité irréductible à l’arraisonnement des données.

Lire la suite: « La Dame du Job. Comprendre les images« .

Kate Crawford, Atlas of IA. Power, Politics, and the Planetary Costs of Artificial Intelligence, Yale University Press, 2021. On consultera avec profit le compte rendu détaillé par Hubert Guillaud sur Internetactu, auquel ce billet doit beaucoup. [↩]

8 réflexions au sujet de « L’IA ne comprend rien aux images »

Laurent Fournier dit :

15 mai 2021 à 7 h 37 min

Merci pour ce billet passionant!
Une nuance cependant: Selon la critique de Guillaud, Crawford ne dit pas que l’IA ça ne marche pas pour les images. Et nous savons bien que les robots tueurs volants (drones) reposent beaucoup sur les images, leur analyse automatique, en lien étroit avec le petit robot personnel de la cible ou de quelqu’un qui lui est proche: le téléphone. Aujourd’hui un avion de guerre est inutilisable sans IA. C’est un robot assisté par un humain. Et l’interface est 99% visuelle. Donc l’IA et les images ça « fonctionne » très très bien, merci

Lucien Sfez en parlait déjà vers 1986: « Le Tautisme » = Tautologie + Autisme + Totalitarisme
André Gunthert dit :

15 mai 2021 à 7 h 55 min

Dans cette discussion, il y a une ambiguïté qui tient à la nature même des images, et qui nous fait confondre images et informations visuelles. Les images d’enregistrement capturent des informations du réel. Identifier ces informations dans l’image ne veut pas dire qu’on sait lire une image, ni qu’on en comprend le sens. En fait, cette détection est même tout le contraire de la lecture d’une image: c’est une négation de l’image comme dispositif, qui n’en retient que l’écume. La plupart du temps, nos usages visuels sont hautement contextualisés, c’est-à-dire que leur interprétation dépend d’informations qui ne sont pas dans l’image. Je répète donc ma formule: par construction, l’IA ne comprend rien aux images – ce qui ne l’empêche pas de pouvoir en tirer des données, sur un mode extractiviste, et surtout de les croiser avec d’autres, comme une localisation GPS, ou l’émission d’un signal téléphonique…
Laurent Fournier dit :

15 mai 2021 à 11 h 36 min

Ce qui nous amène au coeur du débat: les tenants de l’IA disent que ça n’a aucune importance de savoir si l’IA « comprend » vraiment ou fait seulement semblant, à partir du moment où on peut faire des robots qui fonctionnent, faire de l’argent, tirer du pouvoir, extraire des informations etc. C’est la réponse de Turing (1950) dans son « test ». La réponse est très efficace dans la pratique car croyez-vous que ça gêne beaucoup Facebook Amazon etc. de ne pas très bien savoir si l’IA « comprend » vraiment des choses ou pas? Mais réponse problématique quand même car – et les ingénieurs et tout praticien en général de l’IA le savent – cette efficacité « pragmatique » dépend entièrement de la croyance que l’ordinateur « comprend » ce qu’il manipule. C’est très intelligent d’avoir nommé le laboratoire informatique du MIT le « media » lab. A la suite de Turing, ils savent que si c’est assez bon pour faire illusion, la question de la compréhension « véritable » perd de son intérêt.
Le mérite de Crawford apparemment c’est de prouver comment dans la pratique, nous ne dupons que nous-mêmes!
André Gunthert dit :

16 mai 2021 à 8 h 07 min

Ce qui est intéressant, c’est que c’est grâce aux images, et à une bonne compréhension de leurs usages, que Kate Crawford peut affiner sa critique des méthodes du Deep Learning. Le principe de la décontextualisation forcée des données, étape nécessaire à la composition de bases qui conditionnent leur extraction, est en soi une mauvaise façon de poser le problème, reponsable d’une perte d’information majeure. L’efficacité locale de procédures ciblées cache une efficience très faible des systèmes. Comme le montrent les travaux des cultural studies, les images représentent une masse d’informations bluffante sur nos sociétés, mais détecter cette information nécessite une approche contextuelle fine. A vrai dire, je trouve ça plutôt rassurant de se dire que l’investigation robotisée n’a pas accès à ce continent.
benjamin dit :

17 mai 2021 à 12 h 06 min

Cocasse » Le développement de l’IA s’est accompagné d’une multiplication d’erreurs et de biais manifestes: biais racistes dans la reconnaissance des visages des smartphones d’Apple, biais homophobes dans des outils de détection automatique de l’homosexualité, biais de genre dans les algorithmes de recrutement »

On remplace IA par l’Homme et on est tout aussi pertinent ;).

Blague ( ou pas.. ) à part, dans une dimension évolutioniste, l’IA sera sage bien plus rapidement que nous (nottement, le respect de son environnement pour sa survie ). N’en déplaise à notre égo..
André Gunthert dit :

17 mai 2021 à 12 h 40 min

J’ai analysé (et critiqué) les erreurs qui ont permis la mise au point d’une IA de « détection de l’homosexualité »: http://imagesociale.fr/5140

Le problème que ce cas met en évidence est l’autorité prêtée au système de détection automatique, quand ce n’est pas la supériorité revendiquée de la machine sur la perception humaine. A contrario de l’enthousiasme naïf des médias – et de nombreux chercheurs – l’ouvrage de Kate Crawford dénonce le caractère ultra-stéréotypé de la méthodologie de l’IA.
Laurent Fournier dit :

19 mai 2021 à 15 h 21 min

@ Benjamin: La on est aussi au coeur de la question. Une piste de reponse: Sachant que le but n’est pas tant d’eviter d’etre raciste/homophobe/sexiste etc. que d’etre capable de sen rendre compte lorsqu’on l’est et eventuellement de corriger ses erreurs, est-ce que l’IA en multipliant les niveaux d’opacite tout en promouvant la « pensee magique » (« L’ordinateur m’a dit que… », « l’IA suggere que… ») dont vous memes n’etes pas indemne avec votre blague sur « l’evolution », ne nous rend pas cette tache beaucoup plus difficile?

Sinon, @ A. Gunthert: Je me demande si c’est bien correct de publier les photos de ces deux personnes, qui meme officiellement arretees par les autorites de l’epoque, ont quand meme droit a respect de la vie privee… Apres tout elles sont peut-etre encore vivantes, sinon, surement leurs enfants…
Ping : La Dame du Job. Comprendre les images – L'image sociale

Les commentaires sont fermés.