Des chercheurs de l’université de Stanford ont mis au point, en collaboration avec Google, un programme de description automatique d’images, capable de générer des légendes en langage naturel. Cette annonce a été volontiers accueillie comme le signal bienvenu d’une évolution imminente, qui permettrait de faire de l’image un espace documentaire enfin accessible aux moteurs de recherche.
Ce rêve qui hante depuis longtemps les travaux d’intelligence artificielle paraît un progrès désirable. Les technologies de recherche par image, combinées à la puissance de l’indexation lexicale, telles que Google Image Search en fournit l’exemple, ont déjà entrouvert l’horizon d’un accès inédit à l’information visuelle. Celui-ci reste pour l’instant limité à l’exploitation des données textuelles associées à l’image par les usagers, autrement dit à leur édition participative, ou crowdsourcing. On envisage à peine le bouleversement que constituerait une parfaite lisibilité de l’image pour des robots, capables d’identifier une information au sein d’un document visuel, de relier personnes, lieux et contextes ou de comparer des situations entre elles.
Que cette recherche soit activement poursuivie pourrait aussi nous inquiéter. Car il ne fait aucun doute que ceux qui la financent perçoivent le continent des images en ligne comme l’équivalent d’un champ de pétrole, une fabuleuse et inépuisable ressource à mettre en coupe réglée. Alors que nous peinons déjà à préserver un semblant de contrôle sur nos données personnelles, que se passera-t-il demain quand n’importe quelle photo de vacances livrera aux banques et aux assurances des informations sur nos goûts et nos pratiques les plus fugitives?
Si l’on peut imaginer dès maintenant des limites réglementaires à la curiosité des robots, il se peut toutefois qu’un autre obstacle se dresse entretemps sur leur route. Dans tous les projets de reconnaissance visuelle, l’image est considérée comme un conteneur, à l’instar d’une phrase qu’il s’agirait simplement de décomposer pour la rendre traduisible. Mais cette approche, qui correspond à la compréhension la plus répandue de l’image, ne tient pas compte de la réalité de nos pratiques, qui s’appuient de manière déterminante sur les éléments de contexte pour comprendre un document visuel.
Comme le montrent les réflexions de Roland Barthes sur le studium et le punctum, ou encore l’exposition récente de photos amateur à la MEP, justement intitulée “Toute photographie fait énigme”, le sens d’une image se construit moins à partir de l’information contenue à l’intérieur du cadre que grâce aux indications fournies par ses usages et ses formats, qui sont autant de données externes. Seule une fraction des images est directement interprétable : celles qui correspondent aux situations les plus simples et les plus stéréotypées. Mais dès qu’on s’écarte des vues standardisées de la photo de stock, le moindre enregistrement familial peut ouvrir à des batailles d’interprétation qui n’ont rien à envier à la théologie médiévale.
Les erreurs constatées dans l’application du logiciel des chercheurs de Stanford en fournissent la rassurante confirmation: la lisibilité de l’image est une question qui, même sur un plan théorique, est loin d’être réglée. Légender les photos d’une banque d’images paraît un objectif à la portée des robots. Mais leur inquisition bute sur le mystère de nos usages visuels. Ce qui compte dans une image, ce n’est pas ce qu’elle montre, c’est ce qu’on en fait. Le jour où nos photos seront placées sous surveillance, cette énigme sera peut-être le dernier rempart pour préserver nos secrets.
Billet initialement publié sur Fisheye.
5 réflexions au sujet de « Quand les images parleront »
Oui, moi je vois une panthère rose sur deux roues ou un minibus destiné seulement à trois écoliers…
La photo n’est pas encore tout à fait robotisable : et puis, s’il le faut, on s’échangera – pour échapper à leur interprétation ou utilisation marchandes – des dessins faits au crayon noir et envoyés sous forme de fusées en papier quadrillé.
Les commentaires sont fermés.