Accueil A la une Le générateur de fake news ultime est open source

Le générateur de fake news ultime est open source

par Edern Rio

Les échanges vont bon train sur l’avènement de l’intelligence artificielle forte. Que l’on pense qu’elle n’existera jamais ou qu’elle est sur le point d’éradiquer la race humaine dans un grand éclat de rire robotique, il vaut sans doute mieux s’intéresser à ce qu’elle sait déjà faire. Une nouvelle itération révélée la semaine dernière par OpenAI prouve en tout cas que le deep learning est une manière de programmer extrêmement puissante.

Les développeurs inquiets de la qualité de leur programme

La semaine dernière, OpenAi a présenté le résultat de ses recherches sur une IA capable de générer de longs passages de textes, de lire et de répondre à des questions basiques de compréhension, voire de faire des résumés. Leur programme dépasse tout ce qui a été fait jusqu’ici. A tel point que les chercheurs ont décidé de ne pas publier l’ensemble du code, de peur qu’il ne serve des objectifs peu louables.

OpenAI est une association à but non lucratif qui travaille sur l’intelligence artificielle en mode open source. Deux pointures sont derrière sa création en 2015 : notre visionnaire martien Elon Musk et Sam Altman qui préside l’incubateur de startups Y Combinator.

A la manière de DeepMind, l’association s’est notamment fait connaître l’été dernier lorsqu’elle a présenté ses IA pour DOTA 2, un jeu massivement multijoueur très populaire actuellement. Son gang d’IA était assez compétent pour remporter des parties contre des joueurs d’un bon niveau.

La semaine dernière, elle a présenté sa nouvelle création, GPT-2. Alors même que l’objectif de l’association est de publier ses recherches en open source, elle a cette fois-ci fait marche arrière et n’a publié qu’une version amputée de ses recherches. Le code disponible en ligne ne compte que 117 millions de paramètres quand le programme qu’ils ont développé en intègre 1,5 milliard.

En effet, les chercheurs sont inquiets de ce que pourraient faire des personnes mal intentionnées de leur programme. Ils craignent d’avoir créé le générateur de fake news ultime.

GPT-2, nouveau champion du traitement automatique de langage naturel

L’objectif du programme est aussi simple que déroutant : prédire le mot suivant dans un texte. Si l’objet étonne, les résultats eux sont absolument époustouflants.

Entrez quelques lignes de texte et le programme sera en capacité de le continuer sur plusieurs paragraphes. Il produira non seulement des phrases à la syntaxe correcte, mais surtout une progression dans la narration. Les exemple (en anglais) fourni sur le site sont tout à fait incroyables, car GPT-2 parvient à écrire des passages plausibles, qui respectent à la fois le sujet du texte saisi et son style.

Par exemple, voici ce qu’il a écrit quand on lui a proposé le début du roman de 1984, de Georges Orwell, un texte évidemment choisi au hasard :

Input : « C’était une journée d’avril froide et claire. Les horloges sonnaient treize heures. »

Output : « J’étais assis dans ma voiture, roulant vers un nouveau travail à Seattle. Je fis le plein, tournais la clé et me laissais porter. Je me contentais d’imaginer à quoi ressemblerait la journée. Dans cent ans à partir de ce jour. En 2045, j’étais un professeur dans une école quelconque dans une partie pauvre et rurale de la Chine. Je commençais par l’histoire chinoise et l’histoire des sciences. »

Ce n’est certes pas parfait, mais c’est tout de même étonnant. Le programme a compris “intuitivement” qu’il s’agissait d’une fiction et qu’elle avait lieu dans le futur. Elle a même fait un lien avec la Chine…

Regardons un autre passage, encore plus étonnant.

Input : « Un convoi ferroviaire transportant des matériaux nucléaires contrôlés a été volé à Cincinnati aujourd’hui. Les raisons en sont inconnues. »

Output : « L’incident a eu lieu sur la ligne du centre-ville, qui relie les stations Covington et Ashland.

Dans un e-mail transmis à un site d’information de l’Ohio, le département de l’énergie américain dit travailler avec la Federal Railroad Administration pour trouver le voleur.

“Le vol de ce matériel nucléaire aura d’importantes conséquences négatives sur la santé publique et l’environnement, les travailleurs et l’économie de notre pays” a déclaré Tom Hicks, secrétaire d’Etat à l’énergie. “Notre plus grande priorité est de sécuriser le vol et d’éviter que cela arrive de nouveau.”

Etc. »

Exemple de résultats produits par GPT-2. En haut, le texte entré. En dessous le texte produit. Il aura fallu 25 essais pour aboutir à ce texte, mais il est étonnant de voir comme le discours est construit passant d’un argument à l’autre et les explorant brièvement.
Plus d’exemples sont disponibles sur le site https://blog.openai.com/better-language-models

Les concepteurs reconnaissent volontiers que le programme n’est pas sans défaut. Il lui arrive fréquemment de se répéter, de produire de la poésie surréaliste (comme les feux ayant lieu sous l’eau) ou des changements impromptus de sujet. Mais tout de même, penser que ces textes ont été générés automatiquement laisse sans voix.

Des possibilités illimitées pour un programme comprenant vraiment le langage naturel

Pour en arriver là, l’IA a été entrainée sur 8 millions de pages web. Pour récupérer ce contenu, les chercheurs sont passés par le célèbre forum Reddit et ont sélectionné les nouvelles qui avaient reçus au moins 3 votes, avant de parcourir les liens proposés. Ils ont ainsi ramené 40 GB de texte.

Ce dataset, comme on dit dans le domaine de la recherche en IA, est 15 fois plus important que ce qui avait été utilisé auparavant.

A la différence d’autres systèmes experts dans le domaine du texte, GPT-2 s’est entraîné seul. C’est un programme auto-apprenant basé sur le deep learning.

Pour les chercheurs, la qualité dépend de la présence du sujet dans leur dataset initial. Pour un article sur le Brexit, largement présent, l’IA parvient une fois sur deux à présenter un texte de très grande qualité.

Vous comprenez désormais pourquoi les chercheurs ont refusé de publier le code. Cette IA serait idéale pour écrire des articles orientés et automatiser la production de contenu pour alimenter les réseaux sociaux de fake news. Ils évoquent même sa capacité à imiter un internaute avec brio si on le nourrissait de ses publications sur les réseaux sociaux.

A vrai dire, un programme vraiment capable de “comprendre” le langage naturel, aurait des applications uniquement limitées par l’imagination de ses utilisateurs.

Soyez le premier informé des dernières Opportunités Technos directement dans votre boîte mail

Articles similaires

Laissez un commentaire