Accueil A la une Pas de bonne IA sans bonnes données

Pas de bonne IA sans bonnes données

par Arthur Toce
bad ia

Une Intelligence Artificielle (IA) est encore aujourd’hui tout sauf intelligente. Mais elle apprend… en ingurgitant de la data notamment. Plus l’IA est ciblée, plus il est simple de la développer parce que la typologie des données est plus normée et spécialisée.

Ainsi, plus que la capacité à écrire un bon algorithme, c’est la capacité des entreprises à bien gérer les données qui est stratégique.

L’affaire du LancetGate vient illustrer, en grandeur nature, un des grands risques pour les entreprises du XXIe siècle.

IA : de l’analyse des données jaillira la lumière

Ces derniers mois, la France s’est écharpée au sujet de l’hydroxychloroquine. Tout un chacun était sommé de prendre position : pour ou contre.

L’exploration par intelligence artificielle des données accumulées au fil du temps pourrait révéler de superbes trouvailles

Alors que l’enthousiasme était de mise au début, de plus en plus d’études ont pointé vers un effet relatif. Surtout, l’étude publiée dans la revue scientifique The Lancet a fait changer d’avis de nombreux observateurs, dont l’Etat français qui a mis fin à ses études cliniques.

Sauf que cette étude n’est pas une étude clinique classique… C’est une étude rétrospective, ce qui veut dire qu’elle se base sur un ensemble de données d’événements passés.

C’est assez important comme sujet parce que dans pas mal de domaines, et particulièrement dans celui la santé, beaucoup de chercheurs pensent actuellement que l’exploration par intelligence artificielle des données accumulées au fil du temps pourrait révéler de superbes trouvailles.

Certes, mais il faut bien garder en tête que les modèles d’apprentissage automatisé (soit une grosse part de ce que l’on nomme IA), sont caractérisés par une constante toute bête :

qualité de la donnée > qualité de l’algorithme

Beaucoup de sociétés ont des données stockées sous une forme ou une autre, mais qui a des données de bonne qualité ? C’est vraiment le principal problème des data scientists et, plus généralement, des développeurs du domaine du machine learning.

Avoir un bon algorithme, mais de mauvaises datas amènera forcément à des conclusions erronées, alors qu’avoir un mauvais algorithme avec d’excellentes datas peut fonctionner.

LancetGate, conte moral du big data

Evidemment, on ne vous parle pas de cela. On insiste le plus souvent sur la qualité de l’algo, plutôt que sur la qualité des datas qui ont permis sa création. C’est d’autant plus problématique que le plus souvent les bases de données sont entièrement privées et inaccessibles. De là à dire qu’elles sont bidonnées, il n’y a qu’un pas…

C’est toute l’histoire du “LancetGate” et de Surgisphere qui vous montre, grandeur nature, ce que je nomme la dark data.

L’affaire Surgisphere l’illustre admirablement bien. Je rappelle que la publication d’une étude par ses dirigeants dans la prestigieuse revue The Lancet a jeté l’opprobre sur la chloroquine et l’hydroxychloroquine. Celle-ci indiquait que ces deux médicaments augmentaient les risques de malaise cardiaque et a mis un terme à de nombreuses études cliniques portant sur ces produits. Toutes les données de l’étude provenaient de Surgisphere, une société censée collecter les données de milliers d’hôpitaux, les garder anonymes puis les monétiser.

Il s’avère qu’elles étaient largement bidonnées. Et The Lancet s’est fait avoir comme un bleu… Qui garantissait l’authenticité de ces données ? Qui les suivait et les surveillait ?

Personne.

Quand on achète des données, on fait souvent confiance à celui qui les vend, et les ennuis commencent. Pour le dire simplement, tout le monde critiquera la qualité des calculs d’un algorithme qui indique 18 % de taux de mortalité, s’il y a 90 patients vivants et 10 morts. En revanche, personne n’ira vérifier la véracité de l’état des 100 patients.

C’est l’erreur de beaucoup dans l’IA. On rêve de l’algorithme miracle, de celui qui créerait un robot à la C-3PO, sauf que les vraies IA qui fonctionnent sont le plus souvent ultraspécialisées.

Bien pire que la junk data, qui est une donnée de mauvaise qualité, la dark data est tout simplement une data bidonnée. Ne vous y trompez pas : outre les mauvaises intentions, avec toutes les brèches de sécurité, c’est un phénomène plus courant qu’on ne le croit !

L’enjeu actuel pour l’IA est donc du côté de la qualité de la donnée et nous verrons demain quelles entreprises savent faire cela.

Soyez le premier informé des dernières Opportunités Technos directement dans votre boîte mail

Articles similaires

Laissez un commentaire