Derrière les assistants vocaux, des humains vous entendent

505

Derrière les assistants vocaux, des humains vous entendent

mai 21, 2018

Cette semaine, nous sommes allés à la rencontre de Julie, qui a travaillé pour une entreprise chargée d’ « améliorer » le fonctionnement de Cortana, l’assistant vocal de Microsoft, en écoutant une à une diverses paroles captées par la machine (volontairement ou non).

Nous partageons ici son témoignage édifiant, en vidéo ainsi qu’à l’écrit (en fin d’article).

Témoignage complet : https://video.lqdn.fr/videos/watch/9772f4a0-c025-4238-bfff-2ca473eceb54

Extrait du témoignage (1min) : https://video.lqdn.fr/videos/watch/694e4a99-29c3-43a2-a877-56fe9de84548

Comme nous le rappelle Antonio Casilli ci-dessous, ce récit souligne exactement les pratiques très « humaines » que l’on retrouve en masse sous les miroirs trompeurs d’une soi-disant « intelligence artificielle ».

Contre l’emprise des GAFAM sur nos vies, signez les plaintes collectives sur gafam.laquadrature.net

Les humains derrière Cortana, par Antonio Casilli
Antonio Casilli, membre de La Quadrature du Net, est maître de conférences en Digital Humanities à Telecom ParisTech et chercheur associé en sociologie au Centre Edgar-Morin, Ecole des Hautes Etudes en Sciences Sociales, Paris. Voir son site.

Qui écoute vos conversations quand vous utilisez un assistant vocal comme Cortana ? Qui regarde vos requêtes quand vous utilisez un moteur de recherche comme Bing ? « Personne », vous assurent les concepteurs de ces dispositifs, « ce sont des machines ». La réalité est toute autre, comme l’atteste ce témoignage : une jeune femme qui, sans contrat de travail et sans aucun accord de confidentialité, a retranscrit des milliers de conversations privées, recherches d’information, noms et coordonnées personnelles de personnes utilisant des produits Microsoft.

Son métier ? Dresseuse d’IA.

Malgré les allégations de leurs producteurs, les assistants virtuels qui équipent les enceintes connectées trônant dans nos salles à manger ou qui se nichent jusque dans nos poches, installés sur nos smartphones, ne naissent pas intelligents. Ils doivent apprendre à interpréter les requêtes et les habitudes de leurs utilisateurs.

Cet apprentissage est aidé par des êtres humains, qui vérifient la pertinence des réponses des assistants virtuels aux questions de leurs propriétaires. Mais plus souvent encore, ces êtres humains « entraînent » les dispositifs, en leurs fournissant des données déjà préparées, des requêtes avec des réponses toutes faites (ex. « Quelle est la météo aujourd’hui ? » : « Il fait 23 degrés » ou « Il pleut »), des phrases auxquelles ils fournissent des interprétations (ex. savoir dans quel contexte « la flotte » signifie « un ensemble de navires » ou « la pluie »).

Ces dresseurs d’intelligences artificielles sont parfois des télétravailleurs payés à l’heure par des entreprises spécialisées. Dans d’autres cas, ils sont des « travailleurs à la pièce » recrutés sur des services web que l’on appelle des plateformes de micro-travail.

Celle de Microsoft s’appelle UHRS et propose des rémunérations de 3, 2, voire même 1 centime de dollar par micro-tâche (retranscrire un mot, labelliser une image…). Parfois les personnes qui trient vos requêtes, regardent vos photos, écoutent vos propos sont situés dans votre pays, voire dans votre ville (peut-être vos voisins d’en bas ?). D’autres fois, ils sont des travailleurs précaires de pays francophones, comme la Tunisie, le Maroc ou Madagascar (qui s’est dernièrement imposé comme « leader français de l’intelligence artificielle »

Les logiciels à activation vocale tels Cortana, Siri ou Alexa sont des agents conversationnels qui possèdent une forte composante de travail non-artificiel. Cette implication humaine introduit des risques sociétaux spécifiques. La confidentialité des données personnelles utilisées pour entraîner les solutions intelligentes est à risque. Ces IA présupposent le transfert de quantités importantes de données à caractère personnel et existent dans une zone grise légale et éthique.

Dans la mesure où les usagers des services numériques ignorent la présence d’êtres humains dans les coulisses de l’IA, ils sous-estiment les risques qui pèsent sur leur vie privée. Il est urgent de répertorier les atteintes à la privacy et à la confidentialité associées à cette forme de « digital labor », afin d’en estimer la portée pour informer, sensibiliser, et mieux protéger les personnes les plus exposées.

Témoignage complet de Julie
J’ai travaillé comme transcripteuse (‘transcriber’) pour améliorer la qualité de la version française de Cortana, « votre assistante personnelle virtuelle » proposée par Microsoft. Je travaillais en télétravail pour une entreprise chinoise qui avait Microsoft pour client. J’ai commencé en Avril 2017 et arrêté en Décembre 2017.

J’ai pu constater directement le type de données que Microsoft collecte via son petit monstre Cortana, car les données audio qu’elle collectait passaient entre nos mains (et nos oreilles !) pour analyse et correction.

Microsoft, voulant améliorer les capacités de compréhension de Cortana, collectait les données des utilisateurs ‘consentants’. Donc, quand ces utilisateurs s’adressaient à Cortana, celle-ci collectait, enregistrait ce qu’ils disaient. Ensuite, Microsoft récupérait tout ça, envoyait une partie des enregistrements à la compagnie pour laquelle je travaillais, et celle-ci mettait le tout sur notre plate-forme de télétravail.

Les transcripteurs se connectaient, et écoutaient un par un les enregistrements. Les pistes étaient généralement très courtes, entre 3 et 15 secondes en moyenne (mais pouvaient parfois durer plusieurs minutes). En fonction des projets sur lesquels on travaillait, on devait réaliser entre 120 et 170 transcriptions/heure. Plusieurs milliers de pistes étaient déposées quotidiennement sur notre plate-forme.

On écoutait l’enregistrement audio, ensuite un texte s’affichait, nous montrant ce que Cortana avait compris et retranscrit. Notre travail était de vérifier si elle avait bien compris – si ce n’était pas le cas, on devait corriger le texte, la moindre faute de compréhension, de conjugaison ou d’orthographe. Une autre partie du travail consistait à ajouter des tags dans le texte signalant les événements sonores qui pourraient expliquer pourquoi Cortana avait mal compris ceci ou mieux compris cela.

Je n’ai pas le détail de la suite du processus, mais j’imagine qu’ensuite, les données que nous corrigions étaient envoyées à une équipe de techniciens, programmeurs et autres génies de l’informatique qui s’occupaient de faire comprendre à Cortana comment ne pas répéter les mêmes erreurs.

« Je me demandais à chaque fois si ces gens avaient conscience qu’une personne extérieure allaient entendre leurs petits délires sexuels »

Les données qu’on écoutait allaient d’Utilisateur A qui dit simplement « Hey Cortana, quelle sera la météo demain? » à Utilisateur B qui demande en chuchotant à Cortana de lui trouver des vidéos porno de telle ou telle catégorie…

Il y avait leurs recherches internet, leurs interactions directes avec Cortana (« Hey Cortana, raconte-moi une blague », « imite la poule », « est-ce que tu m’aimes? », « est-ce que tu ressens la douleur? »…). Les utilisateurs peuvent aussi dicter du texte : messages, documents texte (résumés de cours, comptes-rendus professionnels…), adresses GPS, courriers administratifs (avec par exemple leur numéro de sécurité sociale), etc. ; nous avions accès à tout ça.

Elle peut être connectée à des consoles Xbox, on avait donc aussi des enregistrements provenant de ce service-là. Il y avait notamment des morceaux de communication en ligne (principalement d’ados et d’enfants) qui discutent sur les jeux en réseaux.

On avait également de nombreux extraits de conversations en ligne, sûrement sur Skype, provenant de personnes qui utilisaient un service de traduction instantanée (Microsoft Translator mais peut-être aussi Skype Translator, je ne suis pas certaine).

Nous n’avions jamais l’intégralité des conversations évidemment, elles étaient découpées en petites pistes ; cependant on pouvait tomber sur plusieurs morceaux d’une même conversation dans une même série de transcriptions (c’était suffisant pour dresser un profil basique de l’utilisateur ou de son humeur du moment par exemple).

On avait des conversations diverses, vraiment toutes sortes de choses, notamment souvent les séances sexcams de certains utilisateurs qui avaient besoin d’un service de traduction pour se faire comprendre, et dans ces cas-là les transcriptions étaient très explicites (parfois amusantes, parfois glauques). Je me demandais à chaque fois si ces gens avaient conscience qu’une personne extérieure allaient entendre leurs petits délires sexuels. Cortana ne fait pas le tri…

Enfin, il y avait beaucoup d’enregistrements involontaires, où des personnes discutent entre elles (dans leur voiture, à la maison, avec leurs enfants sur le chemin de l’école…) tandis que Cortana est dans les parages (tablette, téléphone portable, ordinateur, etc.) et s’est déclenchée de manière non-sollicitée et a tout enregistré.

(D’ailleurs, on avait aussi beaucoup d’utilisateurs qui insultaient tout simplement Cortana, car elle s’était déclenchée de façon non-sollicitée, ou avait mal compris une requête… Vous n’imaginez pas le nombre de fois où j’ai entendu « Sale pute Cortana ! » )

On avait ainsi accès à énormément de données personnelles, que ce soit des bribes de conversations privées en ligne ou bien hors ligne.

« N’importe qui pouvait être engagé »

Pour pouvoir être embauché (ils recrutaient en grand nombre), il fallait s’inscrire sur le site de l’entreprise, postuler puis suivre une formation en ligne conclue par un examen final. Si on avait un pourcentage de réussite satisfaisant, on était engagé. Auquel cas, le manager nous faisait créer un compte sur le site internet de télétravail (une plate-forme externe, utilisée par plusieurs compagnies comme celle qui m’avait engagée), et le travail commençait.

Il n’y avait pas besoin d’envoyer son CV, ni aucun entretien individuel avec un responsable ou un manager (ni par téléphone, ni par Skype, ni e-mail, rien). N’importe qui pouvait être engagé et avoir accès aux enregistrements du moment qu’ils en avaient les compétences techniques, que l’examen final avait été réussi. Pourtant, nous avions accès à des informations sensibles et personnelles.

Beaucoup de personnes ignorent ou oublient que les données collectées par Cortana (et autres outils du genre) ne sont pas uniquement traitées par des robots, mais bien aussi par des êtres-humains.

En m’inscrivant sur le site de l’entreprise, j’ai accepté ses conditions d’utilisations en cochant machinalement des petites cases, celles-ci parlaient d’une multitudes de choses, mais à ce que je me souviens il n’y avait pas d’emphase spéciale sur le respect de la vie privée des utilisateurs de nos clients. Et à aucun moment j’ai signé de ma main un contrat de confidentialité.

Ils m’ont pourtant bien demandé de signer et renvoyer un document relatif aux taxes et impôts ; ils auraient pu en faire autant pour le respect de la confidentialité.

Et sur plus d’une cinquantaine de pages d’instructions détaillées sur comment traiter les transcriptions, pas une seule ligne ne mentionnait le respect de la vie privée des utilisateurs. Pas un seul des nombreux e-mails du manager que nous recevions chaque semaine, rien n’a jamais été dédié au respect de la vie privée (en ligne et hors ligne) des utilisateurs.

Et ce dont je parle ici ne concerne pas uniquement les utilisateurs français de Cortana, il y avait des équipes de transcripteurs pour une multitudes de langues (anglais, portugais, espagnol, etc.). On avait le même manager et les mêmes instructions générales.

En théorie, les données étaient anonymes pour les transcripteurs, c’est-à-dire que nous n’avions jamais les identifiants des utilisateurs que nous écoutions, et les pistes étaient généralement distribuées de façon aléatoire et désordonnée, en plus d’être parfois découpées. Cependant, inévitablement il arrivait que les utilisateurs révèlent un numéro de téléphone, une adresse, des coordonnées, date de naissance, numéros importants, événements auxquels ils allaient se rendre, etc.

Certaines voix se reconnaissent facilement, et bien que les pistes étaient aléatoires et dans le désordre, mises bout à bout elles auraient dans quelques cas pu suffire à un transcripteur déterminé pour identifier un utilisateur. De plus, on travaillait tous depuis nos propres ordinateurs, il était donc facile de récupérer les enregistrements qu’on traitait si on le voulait.

Selon moi, ce n’était pas bien sécurisé, surtout quand on considère le fait qu’on avait aussi beaucoup d’enregistrements provenant d’enfants. Mais il faut comprendre que ce genre de traitement de données est de toute façon impossible à sécuriser entièrement (encore moins quand on sous-traite), car des données récoltées massivement ne peuvent pas être triées parfaitement, des informations sensibles passeront toujours.

« Beaucoup d’utilisateurs se sentent dépassés par tout ça, et les GAFAM savent exactement comment en tirer parti »

Enfin, j’aimerais parler du fait qu’il me semble évident que la plupart des logiciels de reconnaissance vocale et assistants virtuels doivent se construire comme Cortana, donc il est important que les gens mesurent ce qu’utiliser de tels logiciels implique (ce que j’ai décrit n’est assurément pas juste typique à Microsoft).

Avec l’affluence des nouveaux »assistants personnels virtuels », le champs des possibles pour la collecte de données s’est développé de manière fulgurante.
Le modèle de Microsoft (et les autres GAFAM) n’est pas basé sur le respect de la vie privée et la non-intrusion, c’est le contraire.

Les outils comme Cortana sont hautement intrusifs et ont accès à une liste impressionnante de données personnelles, qu’ils exploitent et développent simultanément.

La collecte de données qu’ils peuvent permettre peut être utilisée à votre insu, détournée, utilisée contre votre gré, tombée entre de mauvaises mains, être exploitée à des fins auxquelles vous n’avez jamais consciemment donné votre accord…

Personnaliser les paramètres de confidentialité de services de ce genre requiert parfois des compétences en informatique qui dépassent l’utilisateur amateur, et des écrans de fumée font oublier que vous sacrifiez et marchandez votre vie privée à l’aide de formules comme « personnalisation du contenu », « optimisation des résultats », « amélioration de votre expérience et de nos services ».

Beaucoup d’utilisateurs se sentent dépassés par tout ça, et les GAFAM savent exactement comment en tirer parti.

Merci beaucoup à Julie pour son témoignage !

Vudailleurs.com