Une éthique de la donnée passe-t-elle par une éthique de l’IA ?

Affaire Snowden, Cambridge Analytica : l’actualité récente a mis en lumière la nécessité de trouver un cadre pour le traitement des données, afin de protéger les utilisateurs de certaines dérives. L’entrée en vigueur sur le territoire européen, en mai 2018, du nouveau Règlement Général sur la Protection des Données (RGPD) a constitué une première étape. Mais la question éthique s’étend désormais aux algorithmes et aux applications d’intelligence artificielle dont l’évolution demeure plus que jamais liée à celle de l’écosystème du big data.

Chaque seconde, dans le monde, un internaute produirait 1,7 Mo de données (source : baromètre « Data never sleeps »). Un chiffre qui donne le vertige quand on le rapporte au nombre d’utilisateurs d’Internet, voire à la progression exponentielle des objets connectés. Et les enjeux ne sont pas purement économiques : derrière ces données, il y a des informations parfois extrêmement sensibles, notamment en matière de santé et de sécurité, qui suscitent la convoitise et ne sont pas toujours protégées de manière adéquate. Il y a aussi des paramètres sociaux qui biaisent la constitution de ces fichiers et donc des logiciels qui les utilisent.

Le 24 novembre 2021, lors de sa 41e conférence générale, l’Unesco a livré un texte dense et inédit sur ces questions. La recommandation sur l’éthique de l’intelligence artificielle fixe sur le papier, pour la première fois depuis l’entrée en vigueur du RGPD, le lien entre gestion responsable des données et régulation des innovations dans le domaine de l’IA. Car, pour que la technologie profite à tous, il semble désormais nécessaire que son carburant (la data), comme son moteur (les algorithmes d’IA) soient conçus de manière éthique.

>>> Tout savoir sur le métier de data scientist

Une question d’égalité

Quand on parle de protection des données, on se réfère en premier lieu à cinq principes fondamentaux :

finalité (une information ne peut-être stockée et utilisée que dans un but précis, légal et légitime)
proportionnalité et pertinence (les informations doivent être strictement nécessaires au regard des objectifs fixés)
durée de conservation limitée (une donnée ne peut pas être stockée indéfiniment),
sécurité et confidentialité (la protection des données et de leur anonymat doit être garantie)
droit des personnes (l’information collectée doit respecter la législation en vigueur)

C’est en ce sens que l’Union européenne a actualisé le RGPD afin d’élaborer un cadre légal adapté aux nouvelles technologies, qui garantisse aux utilisateurs que leurs données personnelles sont utilisées de manière éthique, en obligeant notamment les entreprises à obtenir leur consentement pour les stocker. Un premier pas en matière de respect de la confidentialité qui ne répond pas, pour autant, à toutes les questions autour du big data.

Un des principaux problèmes reste en effet celui des biais. Nous ne sommes pas tous égaux face à la donnée et les inégalités présentes dans la société (déséquilibre nord/sud, égalité homme/femme, etc.) se retrouvent souvent dans la construction des bases de données et des systèmes qui les utilisent. Avec des conséquences qu’on peut imaginer : si la base de données est biaisée, l’algorithme qui va la traiter risque d’être le reflet involontaire de ce déséquilibre initial. Au final, quelle que soit la qualité de la data récoltée, sans ouverture vers la diversité, l’IA risque de générer une technologie excluant une partie de la population de ses usages. Et ce, dans tous les domaines.

En matière de sécurité, par exemple, IBM, Amazon et Microsoft ont récemment suspendu leur collaboration avec la police américaine sur des programmes de reconnaissance faciale. En cause, des algorithmes trop entraînés sur des hommes blancs qui pouvaient atteindre 35 à 38% d’erreur au moment d’identifier une femme de couleur. De la même manière, en 2014, le recours à un logiciel de recrutement chez Amazon a conduit à une vaste discrimination des profils féminins, car les meilleurs CV utilisés pour former la machine étaient exclusivement masculins.

Des données plus éthiques pour une IA plus « verte » ?

Pour un État comme pour une entreprise, mettre en place une gestion éthique des données ainsi que de l’IA qui les traite est donc d’abord une question d’équité entre les citoyens, pour que l’innovation puisse être bénéfique à l’ensemble de la société. La question environnementale tient également une place centrale dans cette gestion responsable. Selon l’Unesco, le processus d’extraction de données consomme environ 10% de l’énergie mondiale.

Pour réduire cet impact, il paraît nécessaire de réfléchir à des algorithmes moins gourmands. Dans ce domaine également, éthique de la donnée et de l’IA se rejoignent : en passant d’une approche big data à une démarche « smart data » (collecter moins, mais de manière plus pertinente, pour constituer des bases de données de qualité), mais aussi en concevant une IA plus verte, frugale, qui nécessite moins de données pour fonctionner.

Évidemment, il existe encore des freins. Selon un rapport DESI de l’Union Européenne, à peine 20% des spécialistes des Technologies de l’Information et de la Communication (TIC) sont des femmes. L’efficacité de directives comme le RGPD se limite également à leur portée régionale, tandis que les recommandations de l’Unesco – à laquelle les États-Unis et Israël, deux grands acteurs du secteur big data, ne participent plus depuis 2017 – n’ont aucune valeur contraignante.

Pour autant, la progression des thématiques éthiques dans la société, tout comme l’importance de la responsabilité sociétale des entreprises jouent des rôles de levier. De telle sorte que les trajectoires éthiques de la donnée et de l’IA semblent plus que jamais liées.