Comme à son habitude pour bien lancer son produit, Google en a subtilement changé le nom pour passer de Bard à Gemini (comme il était passé de Google Apps à GSuite puis Workspace, ou de Google Local à Places à MyBusiness à Business Profile, ou Google Hangouts à Chat, etc.) tout en lui donnant de nouvelles fonctionnalités.
Il faut le reconnaître, le moteur d’intelligence artificiel de Google est puissant.
Les prochaines semaines permettront sans doute d’explorer en détail ce qu’il a sous le capot, mais on sait déjà par exemple que Gemini dispose à présent d’une fenêtre contextuelle d’un million de jetons. Cette fenêtre contextuelle, c’est ce qui permet à l’agent de conserver la mémoire des échanges d’une question à l’autre. Par comparaison, ChatGPT 3.5 (la version gratuite) dispose d’une fenêtre d’environ 16.000 jetons et la version 4 autorise jusqu’à 128.000 jetons et pour donner un ordre de grandeur, ce dernier nombre représente l’équivalent d’un livre de poche à peu près, là où Gemini peut se rappeler d’une œuvre complète de 1.500 pages…
Ou d’un film d’une heure et demi environ : Gemini permet en effet à l’utilisateur de lui fournir des images ou des vidéos comme entrées contextuelles sur lesquelles baser ses réponses ; pour résumer rapidement une vidéo, voilà qui peut s’avérer particulièrement intéressant dans un futur proche.
Mais à côté de ces progrès techniques indéniables et d’une puissance vraiment intéressante, Gemini s’est surtout illustré par l’identification très rapide d’un problème assez gênant pour la firme de Moutain View en Californie : voulant sans doute rattraper son retard en matière de production d’image à partir d’une description textuelle – OpenAI permet en effet à ses clients de produire des images depuis plusieurs mois directement depuis ChatGPT – Gemini a été doté de cette possibilité mais à l’usage, il est rapidement apparu que certaines demandes n’étaient tout simplement pas acceptés ou que l’écart entre les requêtes et les résultats était si fort que, très rapidement, les réseaux sociaux se sont emparés de l’affaire.
Pas de doute : lorsqu’on demande à Gemini de produire des images à teneur historique ou représentant certaines ethnies, ce dernier interprète la demande de façon un peu trop spécifique.
Ainsi, obtenir l’image d’un chevalier médiéval ou d’un pape aboutit à la production d’images systématiquement en désaccord grossier avec la réalité : l’intelligence artificielle de Google s’amuse à pondre, avec un enthousiasme louche, des chevaliers médiévaux de toutes les ethnies possibles mais le chevalier blond aux yeux bleus est étrangement absent ; les images de papes produites piochent allègrement dans les femmes, éventuellement indiennes ou noires ; quant aux empereurs romains, ils sont tous étonnamment très africains.
Le pompon est atteint lorsque confronté à la demande de représenter des soldats allemands en 1943, Gemini a cru bon de produire une série d’image résolument inclusive comprenant donc des fiers représentants noirs de la Wehrmacht… Qui doutait encore que la réalité historique pourrait se plier aussi facilement aux contraintes les plus modernes ?