Au cours de l’année 2023, lorsque le battage médiatique autour de l’intelligence artificielle faisait les gros titres, j’ai écrit :
«L’«intelligence artificielle» est (principalement) de la reconnaissance de formes glorifiée
Actuellement, une famille de grands modèles de langage comme ChatGPT fait l’objet d’un certain battage médiatique. Le programme lit le langage naturel en entrée et le traite pour en faire un contenu en langage naturel en sortie. Ce n’est pas nouveau. La première entité informatique linguistique artificielle de l’internet (Alice) a été développée par Joseph Weizenbaum au MIT au début des années 1960. J’ai eu des discussions amusantes avec ELIZA dans les années 1980 sur un terminal central. ChatGPT est un peu plus astucieux et ses résultats itératifs, c’est-à-dire les «conversations» qu’il crée, pourraient bien en étonner plus d’un. Mais le battage médiatique dont il fait l’objet n’est pas justifié. (…)
Actuellement, l’exactitude factuelle des résultats des meilleurs grands modèles de langage est estimée à 80%. Ils traitent des symboles et des modèles, mais ne comprennent pas ce que ces symboles ou ces modèles représentent. Ils ne peuvent pas résoudre les problèmes mathématiques et logiques, même les plus élémentaires.
Il existe des applications de niche, comme la traduction de langues écrites, où l’IA et la reconnaissance des formes donnent des résultats étonnants. Mais on ne peut toujours pas leur faire confiance pour trouver le mot juste. Les modèles peuvent être des assistants, mais il faudra toujours revérifier leurs résultats.
Dans l’ensemble, la justesse des modèles d’IA actuels est encore bien trop faible pour leur permettre de décider d’une situation réelle. Davantage de données ou de puissance de calcul n’y changeront rien. Si l’on veut dépasser leurs limites, il faudra trouver des idées fondamentalement nouvelles».
Mais le battage médiatique s’est poursuivi. Un grand modèle d’IA, ChatGPT, a été fourni par une organisation à but non lucratif, OpenAI. Mais son PDG, Sam Altman, n’a pas tardé à sentir l’énorme quantité de dollars qu’il pouvait potentiellement gagner. Un an après avoir défendu la structure à but non lucratif d’OpenAI, Altman a fait main basse sur le conseil d’administration et a privatisé l’organisation :
«Le fabricant de ChatGPT, OpenAI travaille sur un plan de restructuration de son activité principale en une société à but lucratif qui ne sera plus contrôlée par son conseil d’administration à but non lucratif, ont déclaré à Reuters des personnes familières avec le sujet, dans une démarche qui rendra la société plus attrayante pour les investisseurs. (…)
Le directeur général Sam Altman recevra également pour la première fois des actions de la société à but lucratif, qui pourrait valoir 150 milliards de dollars après la restructuration, car elle tente également de supprimer le plafond des rendements pour les investisseurs, ont ajouté les sources».
Le modèle de langage de ChatGTP fourni par OpenAI est de source fermée. Il s’agit d’une boîte noire, fonctionnant dans le cloud, que l’on peut payer pour discuter avec elle ou utiliser pour la traduction, la génération de contenu ou l’analyse de certains problèmes.
La formation et la maintenance de ChatGTP nécessitent beaucoup de puissance de calcul et d’argent. Le système est un peu coûteux, mais il ne contient aucune nouvelle technologie. Les algorithmes utilisés sont bien connus et les données d’entraînement nécessaires pour le «programmer» sont disponibles gratuitement sur l’internet.
Malgré tout le battage fait autour de l’IA, il ne s’agit pas d’un programme secret, ni même d’une nouvelle technologie. Les barrières à l’entrée pour toute concurrence sont faibles.
C’est la raison pour laquelle Yves de Naked Capitalism, se référant à Edward Zitron, a posé la question suivante : «Comment OpenAI peut-il survivre ?» Il ne peut pas. Ou a peu de chances de le pouvoir. Les discussions sur ce sujet aux États-Unis n’ont jamais reconnu ces faits.
Les politiciens considèrent l’IA comme la prochaine grande chose qui renforcera le contrôle des États-Unis sur le monde. Ils tentent d’empêcher toute concurrence potentielle à l’avance que les États-Unis pensent avoir dans ce domaine. Nvidia, le dernier grand fabricant américain de puces, a perdu des milliards lorsqu’il lui a été interdit de vendre à la Chine ses derniers modèles spécialisés dans l’IA.
Il y a deux jours, Trump a annoncé Stargate, un investissement de 500 milliards de dollars dans l’infrastructure de l’IA aux États-Unis :
«Trois grandes entreprises technologiques ont annoncé mardi qu’elles allaient créer une nouvelle société, appelée Stargate, pour développer l’infrastructure de l’intelligence artificielle aux États-Unis.
Sam Altman, PDG d’OpenAI, Masayoshi Son, PDG de SoftBank, et Larry Ellison, président d’Oracle, se sont rendus à la Maison Blanche mardi après-midi aux côtés du président Donald Trump pour annoncer la création de cette société, que ce dernier a qualifiée de «plus grand projet d’infrastructure d’intelligence artificielle de l’histoire».
Les entreprises investiront 100 milliards de dollars dans le projet au départ, et prévoient d’injecter jusqu’à 500 milliards de dollars dans Stargate dans les années à venir. Le projet devrait créer 100 000 emplois aux États-Unis, a déclaré Trump.
Stargate construira «l’infrastructure physique et virtuelle qui alimentera la prochaine génération d’IA», y compris des centres de données dans tout le pays, a déclaré Trump. Ellison a indiqué que le premier projet de données du groupe, d’une superficie d’un million de mètres carrés, était déjà en cours de construction au Texas».
Le même jour, mais avec beaucoup moins de bruit, une entreprise chinoise publiait un autre modèle d’IA :
«Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT) en tant qu’étape préliminaire, a démontré des performances remarquables en matière de raisonnement. Avec l’apprentissage par renforcement, DeepSeek-R1-Zero a naturellement émergé avec de nombreux comportements de raisonnement puissants et intéressants».
Les nouveaux modèles DeepSeek ont de meilleures références que tous les autres modèles disponibles. Ils utilisent une combinaison différente de techniques, moins de données d’entraînement et beaucoup moins de puissance de calcul pour y parvenir. Ils sont peu coûteux à utiliser et, contrairement à OpenAI, ils sont totalement open source.
Forbes explique :
«Les contrôles américains à l’exportation sur les semi-conducteurs avancés étaient destinés à ralentir les progrès de la Chine en matière d’IA, mais ils ont peut-être involontairement stimulé l’innovation. Incapables de s’appuyer uniquement sur le matériel le plus récent, des entreprises comme DeepSeek, basée à Hangzhou, ont été obligées de trouver des solutions créatives pour faire plus avec moins. (…)
Ce mois-ci, DeepSeek a publié son modèle R1, qui utilise des techniques avancées telles que l’apprentissage par renforcement pur pour créer un modèle qui est non seulement l’un des plus formidables au monde, mais qui est également entièrement open source, ce qui permet à tout le monde de l’examiner, de le modifier et de s’en inspirer. (…)
Les performances de DeepSeek-R1 sont comparables à celles des meilleurs modèles de raisonnement d’OpenAI pour toute une série de tâches, notamment les mathématiques, le codage et le raisonnement complexe. par exemple, sur le benchmark de mathématiques AIME 2024, DeepSeek-R1 a obtenu un score de 79,8% contre 79,2% pour OpenAI-o1. Sur le test MATH-500, DeepSeek-R1 a obtenu 97,3% contre 96,4% pour o1. Dans les tâches de codage, DeepSeek-R1 a atteint le percentile 96,3 sur Codeforces, tandis que o1 a atteint le percentile 96,6 – bien qu’il soit important de noter que les résultats de ces tests peuvent être imparfaits et ne doivent pas être surinterprétés.
Mais ce qui est le plus remarquable, c’est que DeepSeek a pu atteindre ces résultats en grande partie grâce à l’innovation plutôt qu’en s’appuyant sur les puces informatiques les plus récentes».
La revue Nature est également impressionnée :
«Un modèle de langage étendu construit en Chine, appelé DeepSeek-R1, enthousiasme les scientifiques, qui le considèrent comme un rival abordable et ouvert aux modèles de «raisonnement» tels que le modèle o1 d’OpenAI. (…)
«C’est fou et totalement inattendu», a écrit Elvis Saravia, chercheur en IA et cofondateur de la société de conseil en IA DAIR.AI, basée au Royaume-Uni.
R1 se distingue pour une autre raison. DeepSeek, la start-up de Hangzhou qui a construit le modèle, l’a publié en tant que «poids libre», ce qui signifie que les chercheurs peuvent étudier et développer l’algorithme. Publié sous licence MIT, le modèle peut être librement réutilisé, mais il n’est pas considéré comme entièrement open source, car ses données d’entraînement n’ont pas été mises à disposition.
«L’ouverture de DeepSeek est tout à fait remarquable», déclare Mario Krenn, directeur du laboratoire de sciences artificielles de l’Institut Max Planck pour la science de la lumière à Erlangen, en Allemagne. En comparaison, o1 et d’autres modèles construits par OpenAI à San Francisco, en Californie, y compris son dernier effort o3, sont «essentiellement des boîtes noires», dit-il».
Même les investisseurs Internet de longue date, qui ont tout vu, sont impressionnés :
Deepseek R1 est l’une des percées les plus étonnantes et les plus impressionnantes que j’ai jamais vues – et en tant qu’open source, un profond cadeau pour le monde. ~ Marc Andreessen
Nature ajoute :
«DeepSeek n’a pas communiqué le coût total de la formation de R1, mais elle fait payer aux personnes qui utilisent son interface environ un trentième de ce que coûte le fonctionnement de o1. L’entreprise a également créé des mini-versions «distillées» de R1 pour permettre aux chercheurs disposant d’une puissance de calcul limitée de jouer avec le modèle».
Cela fonctionne en effet !
[...]