OpenAI, l’entreprise derrière le célèbre chatbot ChatGPT, a récemment lancé un nouvel algorithme baptisé “o1”. Conçu pour optimiser le raisonnement et la réflexion de l’IA, o1 surprend par son comportement singulier : il semble utiliser le chinois, notamment le mandarin et le cantonais, dans son processus de réflexion, même lorsque les requêtes des utilisateurs sont formulées en anglais ou dans d’autres langues.
Des caractères chinois qui apparaissent de manière inattendue
Ce phénomène a été observé par plusieurs utilisateurs qui ont accès à la visualisation du processus de raisonnement de l’algorithme. Alors que la plupart des utilisateurs se concentrent uniquement sur la réponse finale fournie par ChatGPT, certains ont la possibilité d’observer les étapes de réflexion de l’IA, et c’est là qu’ils ont remarqué l’apparition de caractères chinois.
Des captures d’écran publiées sur les réseaux sociaux montrent clairement l’intégration de ces caractères au sein du processus de réflexion de l’algorithme, suscitant l’étonnement et l’interrogation des utilisateurs.
L’influence des données d’entraînement
Face à ce comportement inattendu, plusieurs hypothèses ont été avancées. La plus probable est que l’algorithme, ayant été entraîné sur d’immenses bases de données multilingues, puise dans ses connaissances en chinois pour optimiser ses calculs.
Rohan Paul, ingénieur en IA, suggère que certains langages, dont le chinois, pourraient offrir des gains d’efficacité en termes de “tokenisation” – le processus de découpage du texte en unités – ou des correspondances plus faciles pour certains types de problèmes. L’algorithme pourrait donc choisir d’utiliser le chinois car sa représentation interne des connaissances révèle que cette langue conduit à des chemins de calcul plus optimisés pour certains problèmes.
Raisonner dans un espace latent partagé
Raj Mehta, un autre expert en IA, propose une explication complémentaire. Selon lui, o1, comme beaucoup d’autres grands modèles de langage (LLM), fonctionne dans un “espace latent partagé” où les concepts sont abstraits et non liés à des langues spécifiques. L’algorithme pourrait donc “raisonner” dans la langue la plus efficace pour le problème donné, et il semblerait que le chinois soit parfois privilégié.
Un manque de transparence critiqué
Malgré les nombreuses spéculations, OpenAI n’a pas fourni d’explication officielle sur ce phénomène. Contactée par plusieurs médias, l’entreprise est restée silencieuse.
Ce manque de transparence est d’ailleurs critiqué par certains experts, qui soulignent l’ironie de la situation. OpenAI, dont le nom suggère une volonté d’ouverture et de transparence, adopte une attitude opaque qui empêche de comprendre pleinement le fonctionnement de ses algorithmes. Luca Soldaini, chercheur à l’Institut Allen pour l’IA, souligne l’importance de la transparence dans la construction des systèmes d’IA, notamment lorsque ceux-ci présentent des comportements inattendus.
Le chinois, langue de l’efficacité pour l’IA ?
Si les raisons précises de l’utilisation du chinois par o1 restent floues, ce phénomène soulève des questions fascinantes sur le fonctionnement des algorithmes d’IA et sur l’influence des données d’entraînement. Il est possible que le chinois, de par sa structure et ses caractéristiques, offre des avantages en termes d’efficacité et d’optimisation des calculs pour les intelligences artificielles.
Cette découverte pourrait ouvrir de nouvelles perspectives dans le domaine de l’IA et inciter les chercheurs à explorer davantage le potentiel des différentes langues dans le développement de modèles de langage toujours plus performants.