La récente actualisation des directives de confidentialité de Google autorisera la compagnie à naviguer sans restriction sur le web, afin de découvrir tout contenu qui pourrait enrichir et perfectionner ses outils d’intelligence artificielle.
L’ensemble du web désormais sous l’égide de l’intelligence artificielle de Google ?
« Google emploie des informations pour perfectionner ses services et concevoir de nouveaux produits, fonctionnalités et technologies au bénéfice de ses utilisateurs et de la population« , stipule la politique renouvelée de Google. « Par exemple, nous exploitons des informations publiques pour aider à former les modèles d’IA de Google et à élaborer des produits et des fonctionnalités comme Google Translate, Bard et les capacités d’IA dans le cloud. »
Gizmodo fait remarquer que la politique a été actualisée pour indiquer « modèles d’IA » alors qu’elle mentionnait auparavant « pour les modèles de langage« . De plus, la politique a inclus Bard et Cloud AI, alors qu’elle ne faisait référence auparavant qu’à Google Translate, pour lequel elle récoltait des données.
Les directives de confidentialité, qui ont été réactualisées durant le week-end, semblent préoccupantes car elles suggèrent que toutes les informations que vous générez en ligne peuvent être exploitées par Google pour entraîner ses modèles d’intelligence artificielle.
L’expression précédemment citée semble concerner non seulement les individus qui font partie de l’écosystème de Google d’une manière ou d’une autre, mais elle est formulée de telle sorte que la marque pourrait accéder à des informations issues de n’importe quel coin du web.
Des interrogations majeures sur la vie privée, le plagiat et bien plus
L’expansion massive de l’intelligence artificielle soulève des interrogations majeures relatives à la protection de la vie privée, le plagiat et la capacité de l’intelligence artificielle à diffuser des informations correctes. Les premières versions des chatbots tels que ChatGPT reposent sur de grands modèles de langage (LLM) qui utilisent des sources déjà publiques, comme l’archive web Common Crawl, WebText2, Books1, Books2 et Wikipedia, comme données d’apprentissage.
Les premiers ChatGPT étaient notoirement connus pour être limités à des informations datant d’après 2021 et pour combler par la suite les réponses avec des données fictives. C’est probablement l’une des raisons pour lesquelles Google souhaiterait bénéficier d’un accès illimité aux données web au profit d’outils tels que Bard, afin d’avoir un apprentissage réel et potentiellement en temps réel pour ses modèles d’intelligence artificielle.
Gizmodo a également observé que Google pourrait exploiter cette nouvelle politique pour récolter du contenu ancien, mais toujours généré par des humains, comme des critiques ou des articles de blog oubliés depuis longtemps, pour avoir une meilleure compréhension de la manière dont le texte et la parole humains sont conçus et diffusés. Il reste à voir comment Google exploitera les données recueillies.
Twitter et Reddit restreignent leurs API
Plusieurs plateformes de réseaux sociaux, dont Twitter et Reddit, qui sont des sources primordiales d’informations à jour, ont déjà limité leur accès public à la suite de la popularité des chatbots d’IA, au grand désarroi de leurs communautés entières.
Ces deux plateformes ont restreint l’accès gratuit à leurs API, empêchant ainsi les utilisateurs de télécharger des volumes massifs de messages pour les partager ailleurs, sous couvert de la protection de leur propriété intellectuelle. Cette mesure a eu pour conséquence de briser de nombreux outils tiers qui permettaient à Twitter et à Reddit de fonctionner sans problèmes.
Twitter et Reddit ont dû gérer d’autres déconvenues et controverses, alors que leurs propriétaires s’inquiètent de plus en plus de la mainmise de l’IA.