Les Archiveilleurs

Veille archivistique collaborative

Vie privée à l’horizon 2020 (.pdf) – Cnil

leave a comment

Partagé par Hubert Guillaud
Commentaire de Hubert Guillaud :  La Cnil publie le premier numéro de son cahier de prospective sur le thème de l'avenir de la vie privée, avec les contributions de nombre d'experts. Passionnant !


Lire l’article original

Moderniser le droit d’auteur dans l’économie du numérique

leave a comment

Partagé par Thomas Fourmeux


Lire l’article original

05/12/2012

Partagé par Charlotte Maday

Mots-clés : ,

Compte rendu de la conférence EUDAT (+1)

leave a comment

Un compte rendu de différentes communications présentées à la première conférence EUDAT est accessible en pièce jointe. Il met l'accent sur le projet EUDAT et les projets Clusters.

PDF - 47.8 ko
Compte rendu de la première conférence EUDAT / Octobre 2012

04/12/2012

Partagé par Charlotte Maday

MesInfos : quand les “données personnelles” deviennent vraiment… personnelles

leave a comment

Que se passerait-il si, demain, les organisations partageaient les données personnelles qu’elles détiennent avec les individus qu’elles concernent, pour qu’ils en fassent ce que bon leur semble ? Quels usages, quelles connaissances, quels services, quels risques aussi, pourraient-ils émerger si les individus disposaient, non seulement du contrôle, mais de l’usage de ces données : leurs finances, leurs achats, leurs déplacements, leurs communications et leurs relations en ligne, leur navigation web, leur consommation d’énergie, etc. ?

Voilà tout juste un an, la Fing et un petit groupe d’entreprises, d’acteurs publics et de chercheurs décidaient de chercher ensemble les réponses à ces questions un peu iconoclastes : le projet MesInfos était né. Aujourd’hui, celui-ci s’apprête à passer à une nouvelle étape, celle de l’expérimentation.

Rééquilibrer la relation entre les individus et les organisations

L’idée de “restituer” leurs données aux individus émergeait tout naturellement du travail que nous menions en 2010 sur la “confiance numérique” (.pdf). Nous alertions alors sur le risque qu’une approche du marketing fondée sur une connaissance unilatérale et purement quantitative du client n’en vienne à faire disparaître toute possibilité réelle de dialogue entre le client et l’entreprise. Depuis, les “Big Data” (dans leur utilisation marketing) ont poussé la tendance jusqu’à son paroxysme : pourquoi perdre son temps à dialoguer avec un consommateur, puisqu’on sait déjà tout sur lui ?

Or aujourd’hui, les individus disposent des moyens de capter, stocker, traiter et échanger beaucoup d’information. Ils s’en servent pour discuter ensemble de ce qu’ils vivent ou évaluer des produits, pour s’échanger des avis ou des services, pour partager des biens. La seule chose qu’ils ne peuvent pas encore faire, c’est, lorsqu’ils le savent, de dire aux entreprises ce qu’ils veulent : ce pour quoi le britannique Alan Mitchell disait récemment que “le principal déficit que rencontre notre société ne réside pas dans la capacité de traiter un grand nombre de données, bien au contraire. Le défi est celui de la logistique de l’information : comment transmettre exactement la bonne information à, et depuis, les bonnes personnes, au bon format, au bon moment. Une affaire de “Toutes Petites Données” (Small Data).”

Pour des raisons similaires, Doc Searls inventait en 2006 l’expression “VRM” (Vendor Relationship Management), le symétrique côté consommateur du CRM, Customer Relationship Management). Son message : il est tout à fait compréhensible que les entreprises cherchent à devenir plus intelligentes à propos de leurs clients en exploitant des données personnelles – mais pourquoi les clients eux-mêmes ne pourraient-ils pas aussi s’en servir pour le devenir tout autant ? Et en définitive, la relation entre des entreprises et des clients également informés et outillés ne pourrait-elle pas produite plus de confiance et de fidélité que l’asymétrie actuelle ?

Efficacité économique et empowerment

Dans deux grands pays, ce mouvement s’engage déjà. Porté par le gouvernement britannique et 19 entreprises, le projet Midata se fixe pour objectif de “tirer parti du potentiel économique que représente, pour les entreprises, le basculement de leur relation clients d’une approche unilatérale de collecte des données à une approche de partage fondée sur une confiance mutuelle.” La perspective est économique : d’une part, des consommateurs plus exigeants et mieux en mesure d’exprimer leurs intentions rendront les marchés plus efficients ; d’autre part, un marché entièrement nouveau de services personnels fondés sur les données des individus pourrait émerger. Nous en voyons déjà les prémices avec les outils d’agrégation et de gestion de données financières (le Personal Finance Management) et les “coffres-forts numériques” ; des start-ups émergent en France et ailleurs autour du “cloud personnel“, de la gestion de sa vie privée numérique ou d’analyse de sa consommation en scannant ses tickets de caisse. Les Britanniques, eux, imaginent des comparateurs de prix qui, sur la base d’historiques longs de la consommation d’un foyer, pourraient non seulement aider à choisir ses fournisseurs, mais aussi permettre, par exemple, de faire des choix de consommation plus éthiques, ou plus écologiques…

Aux Etats-Unis, l’administration Obama multiplie les initiatives sectorielles de restitution des données aux individus : Blue Button (données de santé), Green Button (énergie), Purple Button (formation). Ici, la perspective est celle de l’empowerment des individus, outillés et mis en capacité de prendre de meilleures décisions, de faire des choix plus éclairés, d’exprimer leurs attentes et aspirations, de prendre en mains leur quotidien comme leur destinée (voir le dossier d’InternetActu.net sur la réutilisation des données personnelles).

Plus à gagner qu’à perdre

Bien sûr, ce véritable retournement de la relation client fait émerger beaucoup d’interrogations.

Les individus vont-ils se saisir de leurs données et des outils qui leur seront proposés et si oui, comment et à quelles fins ? Comment éviter que seuls les consommateurs les plus aisés, équipés, compétents, n’en tirent profit ? Probablement en se concentrant sur leurs préoccupations les plus quotidiennes (faire ses courses, gérer son budget, se déplacer…), ainsi qu’en proposant des applications aux bénéfices concrets, à l’instar du projet de design Refact d’User Studio (video) qui permet d’analyser ses factures de téléphone et, on l’imagine, de “scanner” le marché à la recherche d’offres plus adaptées à ses pratiques réelles. Un des services imaginés lors du premier Hackathon du projet britannique Midata croise les données financières d’un individu et celles de sa consommation énergétique, de son logement, de sa mobilité, pour lui proposer des pistes simples en vue de réduire ses factures et d’améliorer son bilan carbone : un service à valeur ajoutée vraiment personnalisé, permettant de trouver des solutions sur un marché complexe (le projet EmpowerMi de Jason Neylon et Chris Adams, vidéo).

Les organisations accepteront-elles de partager avec leurs clients des données qu’elles considèrent aujourd’hui comme l’un de leurs actifs les plus précieux ? Sans doute pas en l’absence, soit d’une menace (réglementaire ou concurrentielle), soit d’une idée claire de ce qu’elles pourraient y gagner : une relation client plus confiante, voire enrichie, des données plus à jour, la possibilité de proposer de nouveaux services, la perspective de se positionner sur de nouvelles activités rémunératrices, telles que le “Coach de Mobilité” imaginé par les participants d’un atelier MesInfos

Enfin, comment les données personnelles des individus circuleront-elles concrètement, où seront-elles conservées – et comment éviter l’émergence de nouveaux intermédiaires en position de monopole sur les données personnelles de millions de consommateurs ?

Obtenir les réponses du terrain

Pour esquisser la réponse à ces questions, l’équipe Fing et les partenaires de MesInfos ont fait le déplacement à Londres (.pdf) auprès des acteurs de Midata. Ils ont pris part aux discussions du “Project VRM”, multiplié les ateliers, nourri un riche dossier de veille. Beaucoup de pistes ont déjà émergé, que nous réunirons prochainement dans un “Livre Vert”.

Pour en faire le tri, pour valider ou invalider certaines hypothèses, il nous faut désormais nous frotter au terrain.

Voilà pourquoi nous lancerons en 2013 l’expérimentation grandeur nature de MesInfos.

L’expérimentation mobilisera d’abord une dizaine (au moins) de grandes organisations détentrices de données personnelles et disposées à tester ce qu’il se passerait si elles les restituaient à leurs consommateurs : banques et assurances, distributeurs généralistes et pure players du web, opérateurs télécoms, transporteurs, fournisseurs d’énergie ou d’eau… La liste n’est pas close !

L’idée de regrouper plusieurs grandes organisations qui “couvrent” une part importante des pratiques quotidiennes des individus est essentielle : une entreprise isolée qui choisirait de partager ses données avec ses clients n’en apprendrait pas grand-chose, parce que la valeur de chaque donnée augmente de manière exponentielle à mesure que l’individu approche d’une vision “à 360°” de sa propre vie. Nous pensons que même les initiatives sectorielles des Américains risquent de rater l’essentiel et de cantonner les effets du retour aux individus de leurs données à une dimension de contrôle (vérifier ce que l’on sait sur moi, contrôler mes dépenses), alors que l’enjeu est de créer de la confiance et de la valeur.

300 individus “testeurs”, volontaires, clients de plusieurs des entreprises partenaires, seront associés à l’expérimentation. Ils accéderont à leurs données personnelles via une plateforme de données. Celle-ci sera alimentée par les organisations détentrices de données, mais aussi par les individus eux-mêmes, selon leur bon vouloir. Mais surtout, elle permettra à des développeurs extérieurs de proposer aux testeurs des applications qui tireront parti de leurs données : calculateurs, agrégateurs, simulateurs, comparateurs, applications thématiques (santé, alimentation, finances…). Les testeurs autoriseront ces applications à demander certaines données à la plateforme, qui leur y donnera accès sans forcément les autoriser à les conserver. Dans le cadre de l’expérimentation, nous chercherons à mobiliser la plus grande diversité possible de développeurs de telles applications, au travers d’une variété de formats : concours, ateliers, hackathons, speed datings entre petits acteurs et grandes entreprises… L’idée est d’amorcer la pompe en mobilisant start-ups, grandes entreprises, communautés du libre, designers et développeurs indépendants, étudiants d’établissements partenaires, chercheurs…

Enfin, des professionnels des études ainsi que des chercheurs observeront en permanence ce qui émerge de l’expérimentation, tant du côté des applications que des pratiques et de la perception des individus testeurs. Comment ceux-ci reçoivent-ils au départ leurs données ? Quels usages en imaginent-ils, quelles applications utilisent-ils ? Et comment évolue leur relation avec les organisations qui font le choix de leur restituer les données qui les concernent ? Voici quelques-unes des questions auxquelles nous tenterons de répondre.

L’expérimentation vise également à repérer en marchant, à la fois les difficultés concrètes que rencontreront les participants, les problèmes et risques inattendus, les idées ou les réponses pratiques qui émergeront de la pratique.

Lancé avant MesInfos, Midata n’est pas encore entré en phase d’expérimentation. La situation américaine est différente, faite à la fois d’une floraison de start-ups et de quelques initiatives très sectorielles. En nous engageant dès 2013 dans une expérimentation de terrain, nous nous placerions au même niveau que ces pionniers, voire un peu en avant.

Il n’y a plus à attendre : faisons de 2013 l’an 1 de la révolution des relations entre les individus et les organisations !

Marine Albarede, Renaud Francou, Daniel Kaplan

Intéressé ?

L’expérimentation MesInfos courra sur l’année 2013. Elle est aujourd’hui en phase de préfiguration.
> Voir le dossier de présentation (.pdf)

MesInfos cherche encore quelques partenaires, grandes entreprises détentrices de données, désireuses de participer à l’expérimentation. Parmi les domaines : énergie, services urbains, mobilité, distribution spécialisée, e-commerce…

Dans un second temps, avec l’aide des pôles de compétitivité associés au projet (Cap Digital, Industries du Commerce, Finance Innovation), nous proposerons à des entreprises innovantes, des designers, des équipes d’étudiants, des artistes, des chercheurs… de contribuer à faire émerger les concepts d’applications qui créeront de la valeur pour les gens à partir de leurs propres données.

Si vous êtes intéressé-e, n’hésitez pas à vous faire connaître en remplissant ce court formulaire !

, ,

La pertinence des algorithmes

leave a comment

Sur l’excellent Culture Digitally, le sociologue Tarleton Gillespie (@TarletonG) vient de publier un court essai (.pdf) sur la “pertinence des algorithmes” pour réfléchir à la place des algorithmes dans la culture et la connaissance (cet essai se veut l’introduction d’une anthologie sur le sujet qui devrait paraître… à l’automne 2013 aux presses du MIT). Tarleton Gillespie s’est longuement intéressé à comment les plates-formes utilisent les algorithmes pour gérer les “mauvais contenus” (voir “ces algorithmes qui nous gouvernent”) ce qui lui a permis de dresser le tableau des techniques algorithmiques émergentes en cours de déploiement. Une manière d’approfondir les propos d’Evgeny Morozov dont nous vous faisions part récemment.

Qu’est-ce qu’un algorithme ?

“Les algorithmes jouent un rôle de plus en plus important dans le choix de l’information que nous considérons comme la plus pertinente pour nous. Ils sont un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans des bases de données massives d’information ou sur l’ensemble du web. Les algorithmes de recommandation cartographient nos préférences. Les algorithmes gèrent nos interactions sur les réseaux sociaux, surlignant les nouvelles d’un ami tout en excluant celles d’un autre. Les algorithmes conçus pour calculer ce qui est “chaud”, “tendance” ou “le plus discuté” écrèment les bavardages sans limites. Ensemble, ces algorithmes non seulement nous aident à trouver l’information, mais ils constituent aussi un moyen de savoir ce qu’il y a à savoir et comment vous le savez, de participer au débat social et politique et de se familiariser avec les publics avec lesquels nous discutons.” Ils sont maintenant une logique clé qui régit le flux des informations dont nous dépendons. Ils ont le “pouvoir d’activer et d’affecter la signification, de gérer la façon dont l’information est perçue par les utilisateurs”. D’où l’importance de proposer une taxonomie des enjeux politiques que les algorithmes produisent.

l'algorithme de l'amitié
Image : l’algorithme de l’amitié dessiné par MnGyver d’après la série The Big Bang Theory (saison 2, épisode 13).

Les algorithmes sont des “procédures codées pour transformer les données d’entrée en sorties désirées, basées sur des calculs précis”, explique le sociologue. Ces procédures sont à la fois un problème et les étapes par lesquelles elles se résolvent. Des instructions pour la navigation peuvent être considérées comme un algorithme comme les formules mathématiques nécessaires pour prédire le mouvement d’un corps céleste dans le ciel. “Les algorithmes font des choses et leur syntaxe incarne une structure de commandement pour permettre que cela se produise.”

A mesure que nous utilisons des outils de calculs dans nos médias d’expression primaires, nous soumettons le discours humain et la connaissance à des logiques procédurales qui sous-tendent tous les calculs. Et cela engendre des implications spécifiques lorsque nous utilisons des algorithmes pour choisir ce qu’il y a de plus pertinent à partir de données composées de nos traces d’activités, de nos préférences et de nos expressions, explique le sociologue. Ces algorithmes “pertinents” produisent et certifient de plus en plus les connaissances auxquelles nous accédons.

“L’évaluation algorithmique de l’information représente donc une logique de connaissance particulière”. Nous utilisons désormais les algorithmes pour déterminer ce que nous devons savoir et ce changement est “aussi important que de se fonder sur des experts accrédités, sur la méthode scientifique, le sens commun ou la parole de Dieu”.

“Les algorithmes sont une technologie de communication comme la diffusion ou la publication. Ils sont désormais “les instruments scientifiques d’une société au sens large”. Ils organisent la connaissance d’une manière calculatoire plus que tout autre médium avant eux.”

Comment appréhender les conséquences des algorithmes ?

Pour Tarleton Gillespie, nous avons besoin d’interroger ces algorithmes qui sont devenus l’élément clé de notre système d’information en portant une attention particulière sur l’endroit et la façon dont ils se mettent en place dans les pratiques humaines, notamment pour comprendre leurs ramifications politiques. Car c’est bien là l’enjeu : les conséquences de l’utilisation des algorithmes sur notre vision et notre compréhension du monde.

Pour mesurer ces conséquences, le sociologue distingue 6 dimensions de la pertinence des algorithmes qui ont valence politique.

Les schémas d’inclusion
Les algorithmes sont inertes, rappelle le sociologue. “Ce sont des machines dépourvues de sens s’ils ne sont pas jumelés aux bases de données sur lesquels ils fonctionnent”. Pour les utilisateurs, algorithmes et bases de données sont un seul appareil de travail et les créateurs de bases de données et fournisseurs d’algorithmes sont souvent une seule et même personne. Pourtant, avant que les résultats ne soient fournis de manière algorithmique, l’information doit être recueillie, préparée pour lui et certaines données exclues ou rétrogradées.

Nous vivons un moment où toutes nos activités laissent une trace numérique. Ces traces intégrées dans des bases de données impliquent un ensemble complexe de pratiques de collecte et de tri. Comprendre cette collecte nécessite de prêter à attention à celle-ci et comprendre ce que le collecteur de données entreprend. La résistance politique au projet Google Street View en Allemagne ou en Inde, nous rappelle par exemple que la réponse à la question “A quoi ce coin de rue ressemble-t-il ?” a des implications différentes pour ceux qui veulent y aller et pour ceux qui y vivent. Mais elle révèle aussi que ce que Google pense de ce qui devrait être public.

Les données doivent être préparées pour l’algorithme : nettoyées, formalisées, afin que les algorithmes puissent agir sur elles. “Les algorithmes peuvent ainsi être compris en regardant de près la façon dont l’information doit être mise en forme pour cela”, souligne le sociologue. Mais avec les bases de données relationnelles orientées objets, l’information peut-être organisée de manière plus souple. Les catégories peuvent changer au fil du temps. Les données peuvent être explorées sans avoir à comprendre la structure hiérarchique par laquelle elles sont archivées. “Les implications sociologiques de la conception de bases de données relationnelles ont été largement négligées”, estime le sociologue, alors qu’elles induisent et inscrivent dans les bases de données une vision politique, qui vise à faire des algorithmes les outils d’information essentiels de nos systèmes d’information. Comme le note Bernhard Rieder, professeur assistant en Media Studies à l’université d’Amsterdam, dans “les bases de données relationnelles comme forme culturelle pervasive” (présentation), l’adoption des bases de données relationnelles créée des ontologies relationnelles entre des données atomisées qui peuvent être commandées de façon illimitée, “déplaçant ainsi la puissance expressive de la conception de la structure de la base de données à la requête”.

Ainsi, la catégorisation des données est une intervention politique et sémantique puissante, qui dessine une ligne de démarcation forte entre les données. Et le sociologue d’en donner un exemple avec l’une des nombreuses erreurs d’Amazon. En 2009, plus de 57 000 livres gay friendly ont disparu des listes de ventes d’Amazon parce qu’ils avaient accidentellement été placés dans la catégorie “adulte”. Cette erreur a révélé que l’algorithme de classement des ventes d’Amazon est chargé d’ignorer les livres de la catégorie “adulte”. Cela ne dit pas les critères qu’Amazon utilise pour déterminer quels livres sont inscrits dans cette catégorie, mais cela permet de comprendre que le moteur de ces bases de données repose sur ce qu’elles distinguent, excluent.

L’exclusion, la rétrogradation ont pour but de rendre certaines données invisibles. Les index sont nettoyés des spams, des virus, de la pornographie, de l’obscénité, du répréhensible, etc. Et ces nettoyages sont souvent confiés à des algorithmes. YouTube rétrograde algorithmiquement les vidéos suggestives afin qu’elles n’apparaissent sur la page d’accueil ou dans les listes des vidéos les plus regardées… par exemple. Twitter ne censure pas les tweets blasphématoires, mais les retire de ses algorithmes qui permettent de mettre en avant les tendances du moment. Les modèles qui font que l’information est exclue d’une base de données (ou inclus puis gérée de manière particulière) rappellent les discours sur la modération. Que les règles soient adoptées par un rédacteur en chef ou par des outils d’indexation, ces choix aident à établir et confirmer les normes du débat, leur légitimité.

Reste que les schémas d’inclusion ou d’exclusion ont un rôle majeur pour comprendre des procédures qu’on nous présente comme automatiques.

Les cycles d’anticipation
Les algorithmes de recherche déterminent ce qu’ils doivent servir en fonction des apports de l’utilisateur. Mais la plupart des plates-formes désormais font leurs affaires en en sachant beaucoup beaucoup plus des utilisateurs que les requêtes qu’ils viennent de faire. “Les sites souhaitent anticiper le désir de l’utilisateur au moment même où l’algorithme est appelé ce qui nécessite d’avoir des données sur ce que l’utilisateur glane à cet instant, d’avoir la connaissance sur ce que l’utilisateur a déjà recueilli et une connaissance des utilisateurs proches d’eux estimée statistiquement et démographiquement”. Ce que les chercheurs Félix Stalder et Christine Mayer appellent le “second index”.

“Si les diffuseurs fournissent non seulement du contenu aux audiences, mais aussi des audiences aux annonceurs, les fournisseurs ne fournissent pas seulement des informations aux utilisateurs, ils fournissent également leurs utilisateurs à leurs algorithmes. Et les algorithmes sont fabriqués et refabriqués à chacune de leur utilisation, car chaque clic, chaque requête changent l’outil d’une façon incrémentale.” Michael Zimmer estime que les moteurs de recherche aspirent désormais non seulement à indexer le web, mais aussi à développer un “rappel parfait” de l’ensemble de leurs utilisateurs. Pour cela, les fournisseurs d’information ne doivent pas seulement tracer leurs utilisateurs, mais aussi construire des infrastructures techniques et des modèles commerciaux qui lient les sites à un ensemble de services (comme le fait Google avec Gmail, Drive, etc.) ou même dans un plus large écosystème (comme le fait le “graphe social” de Facebook et ses boutons dispersés à travers le web) pour créer des incitations à rester captif de son service. Cela permet aux fournisseurs d’être à la fois passifs et agressifs dans la façon dont ils assemblent les informations recueillies sur de nombreux sites pour dresser un profil cohérent et compréhensible des utilisateurs. Ils profitent également de la culture participative du web où les utilisateurs sont encouragés à dévoiler des informations sur eux-mêmes et à se sentir plus puissants en le faisant.

Pourtant, dans ces cycles d’anticipation, la vie privée n’est pas la seule préoccupation politiquement pertinente, estime Tarleton Gillespie. Ce sont les éléments d’informations qui sont le plus lisibles à l’algorithme et qui ont tendance à se substituer aux utilisateurs.

Facebook ne connaît de ses utilisateurs que ce qu’il est capable de savoir. Les informations les plus “connaissables” (géolocalisation, profil, amis, mises à jour de statuts, temps passé sur le site, activité sur d’autres sites via les boutons like ou les cookies…) constituent le dossier numérique ou l’identité algorithmique de l’utilisateur, qui est certes imparfaite, mais suffisante. Ce qui ne peut être lisible ou connu sur les utilisateurs tombe à côté ou est estimé. Les systèmes d’information produisent des “corps d’ombres” chers à Ellen Balka en insistant sur certains aspects et pas sur d’autres. Ces “corps d’ombres” se multiplient et persistent à travers les systèmes d’information et nous font glisser de l’utilisateur à l’utilisateur anticipé qu’ils représentent et qui peut être plus problématique tant politiquement que productivement. D’une certaine manière les faux profils qui nous remplacent, qui deviennent l’ombre de nous-mêmes créent des représentations de chacun d’entre nous qui peuvent être plus problématiques que nos profils réels, à l’image des faux profils que ces algorithmes extraient des données.

Les algorithmes ne font pas toujours une prédiction exhaustive. Au contraire, ils produisent le plus souvent “approximation suffisante”. Cette notion, estime Tarleton Gillespie est peut-être tout aussi importante que la surveillance dont les utilisateurs font l’objet, car elle permet aux fournisseurs de tirer des conclusions sur les utilisateurs parfois depuis des bases d’informations relativement restreintes. Hunch.com, un service de recommandation de contenu, a annoncé être capable de connaître un utilisateur avec une précision de 80 à 85% en le soumettant à cinq questions seulement. “Les caricatures d’utilisateurs, les questions qui servent à nous trier “suffisamment”, notamment celles qui concernent nos préférences de consommation, risquent de croître en importance en tant que mesures publiques de l’audience. D’une certaine manière, nous sommes invités à nous formaliser en catégories connaissables. Lorsque nous sommes confrontés à ces fournisseurs de contenus, nous sommes encouragés à choisir parmi les menus qu’ils offrent, de manière à être correctement anticipés par les systèmes.”

La compréhension de la psychologie humaine et de sa perception ont une incidence sur la conception d’algorithmes et sur la façon dont les résultats sont représentés. Les concepteurs d’algorithmes espèrent anticiper les capacités et les tendances psychophysiologiques des utilisateurs, et pas seulement les préférences et habitudes d’un utilisateur en particulier. Sauf que dans ces anticipations, des valences ou des implicites politiques peuvent être inscrites dans la technologie. Et c’est ainsi que la perception ou les habitudes d’interprétation de certains utilisateurs deviennent universelles. Les habitudes contemporaines sont imaginées pour être intemporelles et les objectifs informatiques sont supposés être évidents.

Nous assistons à la naissance d’un nouveau type de puissance informationnelle, recueillies dans ces énormes bases de données sur l’activité et les préférences des utilisateurs qui remodèlent à leur tour le paysage politique. L’extraction de données dans l’organisation politique, le journalisme ou l’édition, tire des secrets de quantités massives de données où les utilisateurs sont considérés comme des orientations convaincantes pour la production des contenus à venir.

Dit autrement, nos faux profils, ou plutôt nos profils approximatifs produits par les algorithmes ont des conséquences directes la façon dont est conçu et produite l’information à venir.

L’évaluation de la pertinence
Lorsque les utilisateurs cliquent sur “rechercher”, ou chargent leurs flux d’information Facebook ou demandent une recommandation à Netflix, les algorithmes doivent instantanément et automatiquement identifier lequel des milliers de milliards de bits d’information répond le mieux aux critères qu’ils ont à portée de main et satisfont le mieux un utilisateur spécifique et ses objectifs présumés. Bien que ces calculs n’aient jamais été simples, ils ont connu une croissance plus complexe que l’utilisation par le public de ces services.

Selon Google, son algorithme de recherche examine plus de 200 signaux pour chaque requête. Ces signaux sont les moyens par lesquels l’algorithme se rapproche de la pertinence. La pertinence, voilà précisément ce à quoi les sociologues des algorithmes devraient s’intéresser, estime Gillespie. Comme il n’existe pas de mesure indépendante de ce que sont les résultats pertinents pour une requête donnée, les ingénieurs doivent décider ensemble de ce à quoi doivent ressembler les résultats et modifier leurs algorithmes pour atteindre ce résultat ou apporter des changements fondés sur des données probantes de leurs utilisateurs, utiliser les clics et les recherches de suivi comme une approximation, non pas de la pertinence, mais de la satisfaction.

Accuser un algorithme de partialité implique qu’il existe un jugement de pertinence impartiale disponible que l’outil ne parvient pas à atteindre. Comme aucune mesure n’est disponible, les conflits sur les évaluations algorithmiques n’ont aucune base solide sur laquelle se baser.

Or pour faire des hypothèses d’évaluation des algorithmes, interroger les critères sous-jacents, il faudrait pouvoir accéder aux critères d’évaluation cachés. L’algorithme Twitter Trends, qui expose les mots clefs qui ont du succès sur Twitter, laisse la définition de ce que sont ces “tendances” non spécifiées. Les critères qui évaluent ce qui est tendance ne sont décrits qu’en termes généraux : vélocité d’un terme, le fait qu’il soit déjà apparu ou non dans la liste des tendances, le fait de savoir s’il circule à l’intérieur ou à travers certaines grappes d’utilisateurs… “Mais nous ne savons pas comment ces critères sont mesurés, comment ils sont pesés les uns contre les autres, quels autres critères sont également incorporés à l’algorithme, si et quand ces critères seront remplacés. Ces algorithmes sont perpétuellement ouverts à la suspicion des utilisateurs, car les critères peuvent être rapportés au bénéfice commercial ou politique du fournisseur, ou incorporer, intégrer des hypothèses non examinées qui agissent en dessous du niveau de prise de conscience, même de celle de ses concepteurs.”

Twitter ne peut pas être très précis sur le fonctionnement de son algorithme, au risque de donner à ses concurrents un moyen facile de dupliquer et dépasser le service qu’il offre. Il faudrait également fournir une explication plus technique que celle à laquelle sont préparés les usagers. Et surtout, il remettrait à ceux qui souhaitent déjouer le système une feuille de route pour permettre à leurs mots clefs de mieux figurer sur cette liste de tendances. Des sites comme Reddit ont rendu publics leurs algorithmes de classement des histoires des utilisateurs, mais ils doivent constamment corriger les contre vote organisé et ces tactiques, elles, ne peuvent être rendues publiques. A de rares exceptions près, donc, la tendance vise à rendre les algorithmes opaques.

Une autre approche pour évaluer la pertinence des algorithmes consisterait à faire un examen attentif de la situation économique et des contextes culturels qui ont procédé à sa naissance, estime encore le sociologue. Tout système de connaissance émerge de stratégies politiques et économiques et est déterminé par les objectifs et les stratégies des institutions qui cherchent à capitaliser sur elles. Les pressions subies par les moteurs de recherches, les plates-formes de contenus et les fournisseurs d’information peuvent subtilement façonner la conception des algorithmes et la présentation des résultats. Par exemple, quand les moteurs ont annoncé qu’ils ajouteraient des publicités dans leurs résultats, produits de calculs algorithmiques, le public a rejeté en masse ces stratagèmes. Les utilisateurs ne souhaitaient pas que les contenus que les algorithmes avaient sélectionnés soient mêlés à des contenus que les fournisseurs voulaient nous faire voir pour des raisons financières – bien que différenciés des autres contenus, nous y avons tout de même été soumis.

Mais le problème est devenu maintenant plus complexe, multidimensionnel, estime Gillespie. “Le fil d’information de Facebook par exemple, ne peut être décrit comme distinguant deux territoires, sociaux et commerciaux. Il entremêle les deux dans les résultats de ses calculs algorithmiques (la mise à jour des statuts dépend des activités de vos amis, des liens qu’ils recommandent…), les éléments structurels (commentaires, liens vers des pages ou des groupes…) et les éléments placés selon une relation commerciale (bannières, application de sites tiers….). Cartographier ce terrain complexe nécessite une compréhension profonde des relations économiques et des hypothèses sociales qu’il représente.” Les éléments algorithmiques se démultiplient. Ils investissent de plus en plus d’éléments constitutifs de nos outils sociotechniques.

Enfin, il faut questionner les critères d’évaluation d’un algorithme spécifique afin de savoir s’ils sont structurés par des principes politiques ou organisationnels. Un algorithme peut ainsi souvent favoriser les intérêts commerciaux d’un fournisseur de contenu plutôt que d’un autre. Plusieurs études ont aussi relevé certaines tendances structurelles des algorithmes à favoriser les contenus qui sont déjà très populaires, les contenus en anglais et les fournisseurs d’information commerciale. Les juristes, comme James Grimmelmann dans le dilemme Google (.pdf) ou Frank Pasquale et Oren Bracha débattent d’ailleurs de ce que signifierait d’exiger la neutralité des résultats de recherche.

Enfin, les algorithmes ne sont pas stables. “Ils peuvent être changés facilement, instantanément, radicalement et invisiblement”. Ils sont régulièrement “tordus”, c’est-à-dire corrigés. Obscurs et malléables, ils nous donnent peu de possibilités d’évaluer leurs préjugés. Sans compter que ce que nous pourrions consulter comme étant un algorithme en referme le plus souvent plusieurs. Les moteurs de recherches font ainsi régulièrement des tests d’utilisateurs présentant différents classements à des utilisateurs pour améliorer leurs algorithmes, intégrer les ajustements préférés des utilisateurs dans une mise à jour ultérieure.

Chaque algorithme est donc à la fois fondé sur une hypothèse concernant l’évaluation correcte de la pertinence, et sur une instanciation de cette hypothèse dans un technique de calcul de l’évaluation, estime Gillespie.

La promesse de l’objectivité algorithmique
Plus que de simples outils, les algorithmes sont également des “stabilisants de confiance”. Ils semblent des garanties pratiques et symboliques que leurs évaluations seront justes et précises, exemptes de subjectivité, d’erreur ou de tentative d’influence.

Mais c’est la une fiction soigneusement élaborée, souligne Tarleton Gillespie. Aucun service d’information ne peut complètement livrer une information sans intervention. Si un algorithme peut évaluer qu’un site est le plus pertinent pour votre requête, ce résultat n’apparaitra pas si c’est un site de dissident politique en Chine ou si c’est un site nazi en France. Pourtant, les fournisseurs d’algorithmes insistent sur l’automatisme de leurs produits, comme si l’automatisme était le fondement de leur légitimité. L’articulation attentive de l’impartialité d’un algorithme (même quand cette caractérisation est plus une obfuscation qu’une explication) le certifie comme un acteur sociotechnique fiable, lui confère des résultats pertinents et crédibles, et maintient l’apparente neutralité de l’opérateur face aux millions d’évaluations qu’il effectue à chaque seconde. “Promu d’un côté comme un outil d’évaluation impartial pour ceux qui le critiquent, l’algorithme est promu d’un autre côté comme un outil de promotion sélective pour les annonceurs”.

La description du PageRank de Google, la plus ancienne composante de son algorithme de recherche complexe, a été d’abord publié comme un document technique, mais a ensuite été mythifié – d’abord comme une caractéristique technique (l’élément central permettant à Google de se démarquer) puis comme une logique fondamentalement de calcul démocratique – alors même que l’algorithme a été remanié de nombreuses fois pour tenir compte de centaines d’autres critères, rappelle le sociologue.


Image : les changements dans l’algorithme de Google, extrait d’une infographie signée Martina Seefeld trouvée sur Brandignity.

Par-dessus tout, les producteurs d’algorithmes doivent affirmer que leur algorithme est impartial. La performance de l’objectivité algorithmique est devenue fondamentale pour la maintenance de ces outils comme étant les courtiers légitimes de connaissances pertinentes. “Aucun fournisseur n’a été plus catégorique quant à la neutralité de son algorithme que Google, qui répond régulièrement à des demandes pour modifier les résultats de ses recherches par l’affirmation selon laquelle son algorithme ne doit pas être modifié.” Bien sûr, en dépit de cette position officielle, Google n’a cessé de modifier son algorithme par exemple pour filtrer les résultats en ôtant les images à caractère sexuel ou en supprimant certaines saisies automatiques ou en rétrogradant les sites de partage de fichiers de ses résultats. Pourtant, Google affirme régulièrement qu’il ne modifie pas son index ou ne manipule pas ses résultats.

Evgeny Morozov estime que c’est là une façon de détourner sa responsabilité : la neutralité algorithmique de Google trahit un malaise grandissant à devenir le gardien mondial de l’information. La technologie est réifiée comme une force autonome et objective, loin des biais inhérents à ses systèmes – “systèmes si complexes qu’aucun ingénieur de Google ne les comprend pleinement”.

Cette affirmation de l’objectivité algorithmique joue à bien des égards un rôle équivalent à celle de l’objectivité du journalisme, estime Tarleton Gillespie. Comme les moteurs de recherche, les journalistes ont mis au point des tactiques pour déterminer ce qui leur apparaît pertinent, le signaler, assurer sa pertinence… Des pratiques qui sont relativement invisibles à leur public, des pratiques compliquées qui n’éliminent pas les jugements de valeur et les prises de position politique personnelles. Ces pratiques institutionnalisées sont animées par une promesse conceptuelle qui, dans le discours du journalisme, est régulièrement articulée (ou surestimé) comme une sorte de totem. Les journalistes utilisent la norme de l’objectivité comme un “rituel stratégique” pour donner une légitimité publique à des tactiques de production de connaissances qui sont par nature précaires. Analyser objectivement la réalité est une prétention d’un type particulier d’autorité.

Mais l’objectivité journalistique et algorithmique ne sont pas les mêmes. L’objectivité journalistique dépend d’une promesse institutionnelle, construite par un ensemble de normes sociales et liées à leur travail. Leurs choix sont censés représenter une expertise minutieuse permettant de mettre de côté leurs préjugés et leurs convictions. “La promesse de l’objectivité algorithmique repose beaucoup moins sur des normes institutionnelles et sur la formation de l’expertise, que sur la promesse technologique d’une neutralité mécanique.”

Mais dans les deux cas, “la légitimité repose sur la procéduralisation de la sélection d’informations”. L’objectivité fait partie de la façon dont le travail des journalistes est évalué, par les éditeurs, leurs collègues ou les lecteurs. La promesse d’objectivité algorithmique, elle aussi, a été manifestement intégrée dans les pratiques de travail des prestataires qui conçoivent les algorithmes. Elle sert la nature publique du service d’information qu’ils produisent. Elle légitime leur entreprise et contribue à masquer la réalité du service qu’ils fournissent, estime le sociologue.

En examinant l’articulation d’un algorithme, nous devons accorder une attention particulière à la façon dont cette tension entre la neutralité techniquement assurée et la saveur sociale de l’évaluation faite est gérée – et parfois, se décompose.

L’intrication avec la pratique
Bien qu’ils puissent être étudiés comme des outils de calculs abstraits, les algorithmes sont conçus pour être intégrés dans le monde vécu qui génère les informations qu’ils traitent et dans celui de leurs utilisateurs. Cela est particulièrement vrai lorsque l’algorithme est l’instrument d’une entreprise pour qui, l’information qu’elle fournit est le produit. Si les utilisateurs refusent de s’adapter à cet outil dans leurs pratiques, alors l’algorithme échoue. “Cela signifie que nous devons considérer non leur “effet” sur les gens, mais une approche multidimensionnelle de l’intrication entre les algorithmes mis en pratique et la tactique sociale des utilisateurs qui les utilisent.”

Les algorithmes se sont nichés dans la vie quotidienne des gens et dans des pratiques d’information banales. Les utilisateurs façonnent et réarticulent les algorithmes qu’ils rencontrent et les algorithmes empiètent sur la façon dont les gens recherchent des informations, la manière dont ils perçoivent et pensent les contours de la connaissance et comment ils sont compris dans et par le discours du grand public.

“Il est important que nous concevions cet enchevêtrement non pas comme une influence à sens unique, mais comme une boucle récursive entre les calculs de l’algorithme et les “calculs” des personnes.” L’algorithme qui permet aux utilisateurs de naviguer dans les archives photographiques de Flickr est bâti sur les archives des photos postées, ce qui signifie qu’il est conçu pour appréhender et refléter les choix faits par les photographes. “Ainsi, tout comme l’algorithme doit être sensible aux photographes, les photographes ont tout intérêt à être sensibles à l’algorithme, conscients qu’être livrés en réponse à une requête pourrait mettre leur photo devant les bonnes personnes.” L’algorithme de Flickr peut ainsi induire des réorientations subtiles des pratiques photographiques vers sa propre logique conduisant les photographes par exemple à étiqueter des clichés selon le succès de certaines catégories ou à orienter leurs choix de sujets et de composition vers ceux que l’algorithme semble privilégier… Nos traces ne sont pas tant des marques de notre présence qu’une tacite négociation entre nous-mêmes et nos auditeurs imaginés.

Cette négociation tacite consiste d’abord et avant tout en une réorientation stratégique des pratiques de nombreux utilisateurs dans les outils dans lesquels ils s’engagent afin de les utiliser pour amplifier leurs efforts. Toute une industrie de l’optimisation des moteurs de recherche permet ainsi d’accroître ses résultats dans les requêtes des moteurs de recherche. L’optimisation délibérée, professionnelle, n’est que la marque de pratiques beaucoup plus variées, organiques et complexes par lesquelles les producteurs de contenus de toutes sortes orientent leurs productions vers les algorithmes. “Lorsque nous utilisons les hastags dans nos tweets – une innovation d’utilisateur qui a été adopté ensuite par Twitter – nous ne rejoignons pas seulement une conversation dans l’espoir d’être lu par d’autres, nous reformulons notre expression afin d’être mieux reconnu et distribué par l’algorithme de recherche de Twitter.” Nombre sont ceux qui travaillent ainsi pour être remarqués par les algorithmes. D’autres au contraire, comme les utilisateurs de sites de partage, travaillent à échapper aux algorithmes.

Ces pratiques souvent basées sur notre meilleure estimation du fonctionnement de l’algorithme ressemblent à la manière dont les vedettes de l’actualité s’adaptent à l’industrie de l’information, en utilisant ses techniques pour mieux amplifier sa présence.

“A l’heure où les algorithmes comptent énormément dans la circulation publique de la connaissance, comprendre leurs fonctionnements est une forme de pouvoir : essentielle à la participation au discours public, à la visibilité en ligne, à la crédibilité…” La plupart des utilisateurs ont une compréhension vague des algorithmes qui les manipulent. Souvent, ils essaient de pousser de l’information par des bonnes pratiques (hastags, métadonnées) sans comprendre nécessairement les modalités de l’algorithme (comme ceux qui retweetent un message à plusieurs reprises dans l’espoir d’apparaître dans les tendances de Twitter).

Les optimiseurs de moteurs de recherche et les spammeurs ont aussi un accès limité à la compréhension algorithmique, mais ils ont développé une grande habileté technique à deviner les critères de ceux-ci au moyen d’essais et de re-ingénierie. Les amateurs de technologies se livrent à des tentatives similaires pour découvrir le fonctionnement de ces systèmes que ce soit par plaisir ou pour produire des perturbations déterminées. Certains disposent d’un accès particulier à l’algorithme, comme les annonceurs ou les développeurs qui utilisent les API de ces systèmes…

Taleton Gillespie parle d’ailleurs de domestication dans la façon dont nous nous approprions ces algorithmes, pour désigner à la fois la façon dont ils entrent dans nos maisons et la façon dont nous intégrons leurs fonctionnements implicites à nos habitudes. Quand Facebook modifie ses algorithmes (pour des raisons économiques), il n’est par rare de voir apparaître des soulèvements d’utilisateurs. Face aux asymétries de pouvoir de la collecte de données et de la surveillance en ligne, les utilisateurs ont développé toute une gamme de tactiques pour échapper ou polluer les transformations algorithmiques dont ils sont l’objet.

Les algorithmes sont également une technologie de soi. Nous surveillons comment Google nous présente au reste du monde et “confirme notre sentiment d’identité”.

“Les algorithmes ne sont donc pas seulement ce que les concepteurs en font, ou ce qu’ils font des informations qu’ils traitent. Ils sont aussi ce que nous en faisons jour après jour – mais avec cette mise en garde : parce que la logique, l’entretien et la refonte de ces algorithmes restent entre les mains des fournisseurs d’information, ils sont dans une position privilégiée pour réécrire la compréhension que nous avons d’eux, ou engendrer une incertitude persistante au sujet de leurs critères, il est donc difficile pour nous de les traiter comme étant vraiment nôtres.”

“Il est difficile de documenter comment les utilisateurs peuvent changer leurs visions du monde pour accueillir les logiques sous-jacentes et les présomptions implicites des algorithmes qu’ils utilisent régulièrement. (…) Les logiques de fonctionnement de ces algorithmes non seulement façonnent les pratiques des utilisateurs, mais les conduisent à internaliser leurs normes et priorités.” Taina Bucher soutient que l’EdgeRank de Facebook encourage une “subjectivité participative” entre utilisateurs qui estiment que les gestes d’affinités (comme les commentaires sous une photo d’amis) sont un élément clé de son algorithme. Graham Longford estime lui que les paramètres par défaut sont conçus pour nous demander toujours plus de renseignements personnels. Astrid Mager et Elizabeth Van Couvering estiment que les principes du capitalisme sont intégrés dans le fonctionnement des moteurs de recherche.

Tarleton Gillespie estime quant à lui que les théories de la domination n’aident pas nécessairement à comprendre les algorithmes, car si ceux-ci sont conçus pour pour apporter des connaissances pertinentes ils offrent aussi des chemins d’accès à la connaissance – et à mesure qu’ils deviennent plus omniprésents et fiables, leurs logiques s’autoaffirme. Google et ses 200 signaux présument que les connaissances pertinentes sont largement assurées par la ratification publique, ajustée à l’opinion de ceux qui sont eux-mêmes publiquement ratifiés. Ce mélange de sagesse des foules et d’autorités certifiées collectivement est la solution de Google pour équilibrer la tension entre l’expertise et le sens commun.

La production de publics calculés
Joï Ito, danah boyd et quelques autres ont introduit le terme de “publics en réseau” pour mettre en évidence à la fois les communautés d’utilisateurs qui se rassemblent via les médias sociaux et la façon dont les technologies structurent l’interaction de ces publics, c’est-à-dire dont elles façonnent l’engagement des gens dans ces environnements.

Comme les algorithmes sont un élément clé de ces environnements de médiation technologiques, ils contribuent également à structurer les publics.

Plusieurs auteurs ont montré leur préoccupation dans la façon dont le fonctionnement de ces algorithmes pourrait transformer notre rapport aux autres. Le risque de la personnalisation des résultats de recherches par exemple a été longuement documenté, notamment par Eli Pariser. Les résultats d’une même requête par deux utilisateurs différents peuvent être sensiblement différents si les résultats prennent en charge les préférences de l’utilisateur. Lorsque les services d’information algorithmiques peuvent être personnalisés à ce degré, la diversité des connaissances et le dialogue politique peuvent être compromis. Les bulles de filtrage de Pariser évoquent le fait que les algorithmes favorisent l’information que l’on recherche et les convictions politiques qui sont les nôtres.

Mais les algorithmes ne structurent pas seulement nos interactions avec les autres, ils structurent également nos interactions avec les publics calculés qu’ils produisent, rappelle Gillespie. “Quand Amazon nous recommande un livre que d’autres clients ont acheté, il prétend produire un public avec lequel nous sommes invités à nous sentir en affinité”, même si cette population sur laquelle il base ses recommandations ne correspond pas pleinement avec notre profil. “Quand Facebook propose dans ses paramètres de confidentialité que l’information soit vue par les amis et amis d’amis, il transforme un ensemble discret d’utilisateurs en auditoire… Or, ce groupe, qui n’existait pas jusque-là, seulement Facebook connaît sa composition exacte. Ces groupes générés algorithmiquement peuvent se chevaucher, être une approximation inexacte, ou peuvent n’avoir rien à voir avec les publics que l’utilisateur recherche.”

“Klout promet de mesurer l’influence des utilisateurs à travers les différentes plates-formes sociales. Leurs mesures sont intuitives dans leur définition, mais complètement opaques dans leurs mécanismes.” Au final, “le frottement entre les “publics en réseau” forgés par les utilisateurs et “les publics calculés” générés par les algorithmes complique davantage la dynamique de la sociabilité en réseau.”

Avec d’autres mesures de l’opinion publique (les sondages, les enquêtes….), le problème central demeurait l’extrapolation, où un sous-ensemble est présumé représenter toute la population. Avec les algorithmes, le problème central est l’intention derrière ces représentations calculées de la population. Les algorithmes qui calculent ce qui est chaud par exemple s’engagent dans une approximation calculée d’un public par le biais d’une activité traçable avant de leur rendre compte de ce dont ils ont le plus parlé. “Quel est le gain pour les fournisseurs à faire de telles caractérisations ? Comment cela façonne ce qu’ils observent ? Qui est choisi pour être mesuré pour produire cette représentation ? Qui est laissé de côté ? Comment ces technologies, qui sont non seulement des technologies d’évaluation, mais également des technologies de représentation, aident à constituer et codifier les publics qu’ils prétendent mesurer – publics qui n’existeraient pas si l’algorithme ne les avait pas créés ?”

Ces questions ont d’autant plus d’importance, estime le sociologue que les représentations du public produites par les algorithmes sont incorporés à des projets plus vastes. Ce que Twitter affirme important aux Américains ou ce qu’Amazon dit des lectures des jeunes sont des formes de connaissances d’autorités qui peuvent être invoqués par des institutions dont le but est de réguler ces populations, comme nous l’expliquait le philosophe Thomas Bern.

La croyance selon laquelle de tels algorithmes, combinés à des données utilisateurs massives, puissent nous dire des choses sur la nature des publics ou la constitution de la société fonde la science des Big Data. La science sociale se tourne vers les techniques de calcul pour comprendre la sociabilité humaine.

L’approche est séduisante, estime le sociologue : accéder à des millions de données apporte une légitimité et les algorithmes permettent de repérer des modèles que les chercheurs ne pouvaient pas toujours voir. Mais cette approche méthodologique doit tenir compte des complexités décrites à ce jour, en particulier lorsque leurs données sont générées par des algorithmes commerciaux eux-mêmes. “Les techniques de calcul de recherche ne sont pas des baromètres de la vie sociale. Ils produisent des hiéroglyphes : façonnés par les outils avec lesquels ils sont sculptés, nécessitant une interprétation sacerdotale, ils racontent des histoires puissantes, mais souvent mythologiques – généralement aux services des dieux dont ils dépendent.”

Enfin, lorsque les données sont nous-mêmes, que devons-nous faire de ces associations que les algorithmes prétendent identifier sur nous en tant que société – que nous ne savions pas, ou peut-être que nous ne voulions pas savoir ? Mike Ananny pour TheAtlantic par exemple a remarqué que la place de marché Androïd recommande une application contre les prédateurs sexuels à ceux qui ont téléchargé Grindr, un réseau social géolocalisé pour les gays. Il suppose que cette association est produite par l’algorithme de cette place de marché. “Est-ce que l’algorithme a fait une erreur ? L’algorithme a-t-il fait une association grossière par l’appariement du terme sexe dans la description des deux applications ? Ou est-ce que le moteur de recommandation d’Androïd fait une association subtile dans notre comportement culturel entre l’homosexualité et la prédation sexuelle.”

“Si nous examinons les algorithmes qui font des associations comme celle-ci, nous devrions également interroger les “algorithmes culturels” que ces associations représentent (c’est-à-dire notre propension à associer l’homosexualité à la prédation sexuelle) à travers un ensemble massif et distribué de points de données : c’est-à-dire, nous !”

De quels algorithmes sommes-nous dépendants ?

“Comprendre les algorithmes et leur impact sur le discours public nécessite une réflexion non seulement sur la façon dont ils travaillent, ou sur la façon dont ils sont déployés, ou sur ce qui les anime financièrement. Cela ne consiste pas à dévoiler seulement leur fonctionnement interne et mettre en lumière leurs critères implicites. Il s’agit d’une enquête sociologique qui n’intéresse pas les fournisseurs de ces algorithmes. Il nécessite d’examiner pourquoi les algorithmes sont regardés comme une logique de connaissance crédible, comment ils se désagrègent et sont réparés quand ils entrent en contact avec le flux et le reflux du discours public et pour lesquels les hypothèses politiques pourraient être non seulement gravés dans leurs conceptions, mais également constitutive de leur utilisation répandue et de leur légitimité.”

Tarleton Gillespie voit l’émergence des algorithmes comme un outil d’information fiable comme la dernière réponse à une tension fondamentale du discours public. Les moyens par lesquels nous produisons, faisons circuler et consommons l’information dans une société complexe doit nécessairement être traitée par la division du travail : “certains produisent et sélectionnent l’information et le reste d’entre nous, du moins pour le moment, peuvent seulement la prendre pour ce qu’elle vaut.”

“Chaque média public a du faire face à ce défi : que ce soit les crieurs publics, les journaux ou les technologies de diffusion de masse. Dans chaque cas, lorsque nous observons comment la connaissance est apportée aux autres, nous nous révélons vulnérables à des choix, des méthodes et des subjectivités que nous ne maîtrisons pas.” Parfois cela est positif. Parfois moins. “Les procédures des fournisseurs d’information n’ont jamais été très disponibles à ceux qui les consomment. Elles sont inévitablement sélectives, insistent sur certains sujets et en rejettent d’autres. La diffusion de l’information a toujours été vulnérable : nous pouvons simplement construire des garanties le mieux que nous pouvons.”

“Nous pouvons voir les algorithmes comme des codes avec des conséquences, un mécanisme socialement construit et institutionnellement géré pour assurer la perspicacité publique : une logique de nouvelles connaissances.” Nous pourrions envisager la logique algorithmique contre une logique opposée – et peut-être supplantant – la logique éditoriale concurrente. La logique éditoriale qui a longtemps prévalu dépend des choix subjectifs d’experts, eux-mêmes composés et autorisés par des processus institutionnels de formation et de certification, ou validés par le public à travers les mécanismes du marché. La logique algorithmique, en revanche, dépend des choix procéduralisés d’une machine, conçue par des opérateurs humains pour automatiser certains rapprochements ou déterrer des modèles de l’ensemble des traces sociales recueillies. Les deux s’affrontent et prétendent résoudre le problème fondamental de la connaissance humaine : “comment identifier les informations pertinentes et cruciales pour le public, par le biais de moyens inévitablement humains, de manière à être libéré de toute erreur humaine, de toute partialité ou de toute manipulation.”

Les deux approches, algorithmiques et éditoriales, sont importantes et profondément problématiques.

Une enquête sociologique sur les algorithmes devrait aspirer à révéler les rouages complexes de cette machine de la connaissance, à la fois en observant le processus par lequel il choisit d’informer des usagers et le processus social par lequel il est transformé en un système légitime.

“Mais il demeure quelque chose d’impénétrable avec les algorithmes. Ils sont conçus pour fonctionner sans intervention humaine, ils sont délibérément brouillés et ils travaillent avec des informations sur une échelle qui est difficile à appréhender (du moins sans outils algorithmiques).” Peut-être que cela nous dispense de l’obligation d’être sceptique quant à une information que nous ne pourrons jamais nous assurer comme certaine. Ces mécanismes par lesquels nous réglons (à défaut de résoudre) ce problème sont des solutions sur lesquels nous ne pouvons pas nous fier, mais que nous devons croire. Cette foi rend difficile de reconnaître sobrement leurs défauts et leurs fragilités.

“A bien des égards, les algorithmes demeurent en dehors de notre portée et sont conçus pour cela”, conclut le sociologue. Cela ne veut pas dire que nous ne devrions pas aspirer à éclairer leur fonctionnement et leur impact. Nous devrions ! Mais nous devons également nous préparer à des rencontres avec l’imprévu et aux associations ineffables qu’ils tirent de nous”… à l’incertitude fondamentale de ne plus savoir à qui nous parlons ou qui nous écoute…

Hubert Guillaud

, , , , ,

La dématérialisation et la gouvernance de l’information (+1)

leave a comment

La généralisation des technologies de l’information et de la communication et en particulier le développement d’Internet a conduit à la mise en place de politiques publiques pour encourager la dématérialisation des échanges et des procédures. Il s’agissait dans la plupart des cas d’une volonté de "moderniser l’administration". Il faut vivre avec son époque me diriez-vous. […]

A Framework for Contextual Metadata Used in the Digital Preservation of Cultural Objects

leave a comment

Article by Joan E. Beaudoin, Wayne State University

16/11/2012

Partagé par Charlotte Maday

Le Conseil National des Barreaux et la CNIL poursuivent leur collaboration (+1)

leave a comment

Grâce à leur statut de conseillers externes et leur maitrise des procédures juridiques, les avocats détiennent une légitimité particulière pour s’assurer de la conformité de leurs clients avec la loi Informatique et Libertés et pour exercer des missions de correspondant Informatique et Libertés (CIL).

Dans ce contexte, la convention signée le 5 octobre avec le Conseil National des Barreaux vise à développer des actions conjointes de sensibilisation et de formation à la loi "Informatique et Libertés" à destination des avocats en exercice et des élèves avocats.

Elle prévoit également la mise en place de CIL au sein de la profession d’avocat et de ses structures représentatives. Enfin, une réflexion conjointe sur les nouveaux enjeux Informatique et Libertés est prévue.

13/11/2012

Partagé par Charlotte Maday

Des experts rappellent les risques de piratage liés à l’usage des photocopieurs – Actualité PC INpact

leave a comment

Partagé par Thomas Fourmeux


Lire l’article original

07/11/2012

Partagé par Charlotte Maday

Mots-clés : ,

L’archivage électronique: l’acte manqué des politiques de modernisation de l’Etat (+1)

leave a comment

A la fin des années 1990, on voit apparaître les premières mesures relatives à une amélioration de la visibilité de l’administration sur Internet et des services aux citoyens avec en particulier le programme PAGSI, programme d’action gouvernemental pour la société de l’information (1997). Celui-ci visait notamment la généralisation des sites Internet des services publics, la […]

06/11/2012

Partagé par Charlotte Maday