Catégories
Pauline Moirez

L’Open Knowledge Foundation arrive en France

Tags:

Catégories
Alexandre Garcia

Allemagne : le CICR remet la gestion du Service international de recherches

Le CICR s’apprête à remettre la gestion du Service international de recherches (SIR) de Bad Arolsen aux Archives fédérales allemandes après l’avoir dirigé et administré pendant plus d’un demi-siècle. Le SIR a été créé en 1943 dans le but de répondre aux questions de millions de familles ayant perdu le contact avec des proches pendant la Seconde Guerre mondiale.

Tags:

Catégories
Pauline Moirez

Les présentations des journées OAIS sont en ligne

Ces journées ont permis d'examiner plus attentivement les possibilités de la norme OAIS pour l'organisation de dispositifs d'archivage numériques.

Tags:

Catégories
Charlotte Maday

La pertinence des algorithmes

Sur l’excellent Culture Digitally, le sociologue Tarleton Gillespie (@TarletonG) vient de publier un court essai (.pdf) sur la “pertinence des algorithmes” pour réfléchir à la place des algorithmes dans la culture et la connaissance (cet essai se veut l’introduction d’une anthologie sur le sujet qui devrait paraître… à l’automne 2013 aux presses du MIT). Tarleton Gillespie s’est longuement intéressé à comment les plates-formes utilisent les algorithmes pour gérer les “mauvais contenus” (voir “ces algorithmes qui nous gouvernent”) ce qui lui a permis de dresser le tableau des techniques algorithmiques émergentes en cours de déploiement. Une manière d’approfondir les propos d’Evgeny Morozov dont nous vous faisions part récemment.

Qu’est-ce qu’un algorithme ?

“Les algorithmes jouent un rôle de plus en plus important dans le choix de l’information que nous considérons comme la plus pertinente pour nous. Ils sont un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans des bases de données massives d’information ou sur l’ensemble du web. Les algorithmes de recommandation cartographient nos préférences. Les algorithmes gèrent nos interactions sur les réseaux sociaux, surlignant les nouvelles d’un ami tout en excluant celles d’un autre. Les algorithmes conçus pour calculer ce qui est “chaud”, “tendance” ou “le plus discuté” écrèment les bavardages sans limites. Ensemble, ces algorithmes non seulement nous aident à trouver l’information, mais ils constituent aussi un moyen de savoir ce qu’il y a à savoir et comment vous le savez, de participer au débat social et politique et de se familiariser avec les publics avec lesquels nous discutons.” Ils sont maintenant une logique clé qui régit le flux des informations dont nous dépendons. Ils ont le “pouvoir d’activer et d’affecter la signification, de gérer la façon dont l’information est perçue par les utilisateurs”. D’où l’importance de proposer une taxonomie des enjeux politiques que les algorithmes produisent.

l'algorithme de l'amitié
Image : l’algorithme de l’amitié dessiné par MnGyver d’après la série The Big Bang Theory (saison 2, épisode 13).

Les algorithmes sont des “procédures codées pour transformer les données d’entrée en sorties désirées, basées sur des calculs précis”, explique le sociologue. Ces procédures sont à la fois un problème et les étapes par lesquelles elles se résolvent. Des instructions pour la navigation peuvent être considérées comme un algorithme comme les formules mathématiques nécessaires pour prédire le mouvement d’un corps céleste dans le ciel. “Les algorithmes font des choses et leur syntaxe incarne une structure de commandement pour permettre que cela se produise.”

A mesure que nous utilisons des outils de calculs dans nos médias d’expression primaires, nous soumettons le discours humain et la connaissance à des logiques procédurales qui sous-tendent tous les calculs. Et cela engendre des implications spécifiques lorsque nous utilisons des algorithmes pour choisir ce qu’il y a de plus pertinent à partir de données composées de nos traces d’activités, de nos préférences et de nos expressions, explique le sociologue. Ces algorithmes “pertinents” produisent et certifient de plus en plus les connaissances auxquelles nous accédons.

“L’évaluation algorithmique de l’information représente donc une logique de connaissance particulière”. Nous utilisons désormais les algorithmes pour déterminer ce que nous devons savoir et ce changement est “aussi important que de se fonder sur des experts accrédités, sur la méthode scientifique, le sens commun ou la parole de Dieu”.

“Les algorithmes sont une technologie de communication comme la diffusion ou la publication. Ils sont désormais “les instruments scientifiques d’une société au sens large”. Ils organisent la connaissance d’une manière calculatoire plus que tout autre médium avant eux.”

Comment appréhender les conséquences des algorithmes ?

Pour Tarleton Gillespie, nous avons besoin d’interroger ces algorithmes qui sont devenus l’élément clé de notre système d’information en portant une attention particulière sur l’endroit et la façon dont ils se mettent en place dans les pratiques humaines, notamment pour comprendre leurs ramifications politiques. Car c’est bien là l’enjeu : les conséquences de l’utilisation des algorithmes sur notre vision et notre compréhension du monde.

Pour mesurer ces conséquences, le sociologue distingue 6 dimensions de la pertinence des algorithmes qui ont valence politique.

Les schémas d’inclusion
Les algorithmes sont inertes, rappelle le sociologue. “Ce sont des machines dépourvues de sens s’ils ne sont pas jumelés aux bases de données sur lesquels ils fonctionnent”. Pour les utilisateurs, algorithmes et bases de données sont un seul appareil de travail et les créateurs de bases de données et fournisseurs d’algorithmes sont souvent une seule et même personne. Pourtant, avant que les résultats ne soient fournis de manière algorithmique, l’information doit être recueillie, préparée pour lui et certaines données exclues ou rétrogradées.

Nous vivons un moment où toutes nos activités laissent une trace numérique. Ces traces intégrées dans des bases de données impliquent un ensemble complexe de pratiques de collecte et de tri. Comprendre cette collecte nécessite de prêter à attention à celle-ci et comprendre ce que le collecteur de données entreprend. La résistance politique au projet Google Street View en Allemagne ou en Inde, nous rappelle par exemple que la réponse à la question “A quoi ce coin de rue ressemble-t-il ?” a des implications différentes pour ceux qui veulent y aller et pour ceux qui y vivent. Mais elle révèle aussi que ce que Google pense de ce qui devrait être public.

Les données doivent être préparées pour l’algorithme : nettoyées, formalisées, afin que les algorithmes puissent agir sur elles. “Les algorithmes peuvent ainsi être compris en regardant de près la façon dont l’information doit être mise en forme pour cela”, souligne le sociologue. Mais avec les bases de données relationnelles orientées objets, l’information peut-être organisée de manière plus souple. Les catégories peuvent changer au fil du temps. Les données peuvent être explorées sans avoir à comprendre la structure hiérarchique par laquelle elles sont archivées. “Les implications sociologiques de la conception de bases de données relationnelles ont été largement négligées”, estime le sociologue, alors qu’elles induisent et inscrivent dans les bases de données une vision politique, qui vise à faire des algorithmes les outils d’information essentiels de nos systèmes d’information. Comme le note Bernhard Rieder, professeur assistant en Media Studies à l’université d’Amsterdam, dans “les bases de données relationnelles comme forme culturelle pervasive” (présentation), l’adoption des bases de données relationnelles créée des ontologies relationnelles entre des données atomisées qui peuvent être commandées de façon illimitée, “déplaçant ainsi la puissance expressive de la conception de la structure de la base de données à la requête”.

Ainsi, la catégorisation des données est une intervention politique et sémantique puissante, qui dessine une ligne de démarcation forte entre les données. Et le sociologue d’en donner un exemple avec l’une des nombreuses erreurs d’Amazon. En 2009, plus de 57 000 livres gay friendly ont disparu des listes de ventes d’Amazon parce qu’ils avaient accidentellement été placés dans la catégorie “adulte”. Cette erreur a révélé que l’algorithme de classement des ventes d’Amazon est chargé d’ignorer les livres de la catégorie “adulte”. Cela ne dit pas les critères qu’Amazon utilise pour déterminer quels livres sont inscrits dans cette catégorie, mais cela permet de comprendre que le moteur de ces bases de données repose sur ce qu’elles distinguent, excluent.

L’exclusion, la rétrogradation ont pour but de rendre certaines données invisibles. Les index sont nettoyés des spams, des virus, de la pornographie, de l’obscénité, du répréhensible, etc. Et ces nettoyages sont souvent confiés à des algorithmes. YouTube rétrograde algorithmiquement les vidéos suggestives afin qu’elles n’apparaissent sur la page d’accueil ou dans les listes des vidéos les plus regardées… par exemple. Twitter ne censure pas les tweets blasphématoires, mais les retire de ses algorithmes qui permettent de mettre en avant les tendances du moment. Les modèles qui font que l’information est exclue d’une base de données (ou inclus puis gérée de manière particulière) rappellent les discours sur la modération. Que les règles soient adoptées par un rédacteur en chef ou par des outils d’indexation, ces choix aident à établir et confirmer les normes du débat, leur légitimité.

Reste que les schémas d’inclusion ou d’exclusion ont un rôle majeur pour comprendre des procédures qu’on nous présente comme automatiques.

Les cycles d’anticipation
Les algorithmes de recherche déterminent ce qu’ils doivent servir en fonction des apports de l’utilisateur. Mais la plupart des plates-formes désormais font leurs affaires en en sachant beaucoup beaucoup plus des utilisateurs que les requêtes qu’ils viennent de faire. “Les sites souhaitent anticiper le désir de l’utilisateur au moment même où l’algorithme est appelé ce qui nécessite d’avoir des données sur ce que l’utilisateur glane à cet instant, d’avoir la connaissance sur ce que l’utilisateur a déjà recueilli et une connaissance des utilisateurs proches d’eux estimée statistiquement et démographiquement”. Ce que les chercheurs Félix Stalder et Christine Mayer appellent le “second index”.

“Si les diffuseurs fournissent non seulement du contenu aux audiences, mais aussi des audiences aux annonceurs, les fournisseurs ne fournissent pas seulement des informations aux utilisateurs, ils fournissent également leurs utilisateurs à leurs algorithmes. Et les algorithmes sont fabriqués et refabriqués à chacune de leur utilisation, car chaque clic, chaque requête changent l’outil d’une façon incrémentale.” Michael Zimmer estime que les moteurs de recherche aspirent désormais non seulement à indexer le web, mais aussi à développer un “rappel parfait” de l’ensemble de leurs utilisateurs. Pour cela, les fournisseurs d’information ne doivent pas seulement tracer leurs utilisateurs, mais aussi construire des infrastructures techniques et des modèles commerciaux qui lient les sites à un ensemble de services (comme le fait Google avec Gmail, Drive, etc.) ou même dans un plus large écosystème (comme le fait le “graphe social” de Facebook et ses boutons dispersés à travers le web) pour créer des incitations à rester captif de son service. Cela permet aux fournisseurs d’être à la fois passifs et agressifs dans la façon dont ils assemblent les informations recueillies sur de nombreux sites pour dresser un profil cohérent et compréhensible des utilisateurs. Ils profitent également de la culture participative du web où les utilisateurs sont encouragés à dévoiler des informations sur eux-mêmes et à se sentir plus puissants en le faisant.

Pourtant, dans ces cycles d’anticipation, la vie privée n’est pas la seule préoccupation politiquement pertinente, estime Tarleton Gillespie. Ce sont les éléments d’informations qui sont le plus lisibles à l’algorithme et qui ont tendance à se substituer aux utilisateurs.

Facebook ne connaît de ses utilisateurs que ce qu’il est capable de savoir. Les informations les plus “connaissables” (géolocalisation, profil, amis, mises à jour de statuts, temps passé sur le site, activité sur d’autres sites via les boutons like ou les cookies…) constituent le dossier numérique ou l’identité algorithmique de l’utilisateur, qui est certes imparfaite, mais suffisante. Ce qui ne peut être lisible ou connu sur les utilisateurs tombe à côté ou est estimé. Les systèmes d’information produisent des “corps d’ombres” chers à Ellen Balka en insistant sur certains aspects et pas sur d’autres. Ces “corps d’ombres” se multiplient et persistent à travers les systèmes d’information et nous font glisser de l’utilisateur à l’utilisateur anticipé qu’ils représentent et qui peut être plus problématique tant politiquement que productivement. D’une certaine manière les faux profils qui nous remplacent, qui deviennent l’ombre de nous-mêmes créent des représentations de chacun d’entre nous qui peuvent être plus problématiques que nos profils réels, à l’image des faux profils que ces algorithmes extraient des données.

Les algorithmes ne font pas toujours une prédiction exhaustive. Au contraire, ils produisent le plus souvent “approximation suffisante”. Cette notion, estime Tarleton Gillespie est peut-être tout aussi importante que la surveillance dont les utilisateurs font l’objet, car elle permet aux fournisseurs de tirer des conclusions sur les utilisateurs parfois depuis des bases d’informations relativement restreintes. Hunch.com, un service de recommandation de contenu, a annoncé être capable de connaître un utilisateur avec une précision de 80 à 85% en le soumettant à cinq questions seulement. “Les caricatures d’utilisateurs, les questions qui servent à nous trier “suffisamment”, notamment celles qui concernent nos préférences de consommation, risquent de croître en importance en tant que mesures publiques de l’audience. D’une certaine manière, nous sommes invités à nous formaliser en catégories connaissables. Lorsque nous sommes confrontés à ces fournisseurs de contenus, nous sommes encouragés à choisir parmi les menus qu’ils offrent, de manière à être correctement anticipés par les systèmes.”

La compréhension de la psychologie humaine et de sa perception ont une incidence sur la conception d’algorithmes et sur la façon dont les résultats sont représentés. Les concepteurs d’algorithmes espèrent anticiper les capacités et les tendances psychophysiologiques des utilisateurs, et pas seulement les préférences et habitudes d’un utilisateur en particulier. Sauf que dans ces anticipations, des valences ou des implicites politiques peuvent être inscrites dans la technologie. Et c’est ainsi que la perception ou les habitudes d’interprétation de certains utilisateurs deviennent universelles. Les habitudes contemporaines sont imaginées pour être intemporelles et les objectifs informatiques sont supposés être évidents.

Nous assistons à la naissance d’un nouveau type de puissance informationnelle, recueillies dans ces énormes bases de données sur l’activité et les préférences des utilisateurs qui remodèlent à leur tour le paysage politique. L’extraction de données dans l’organisation politique, le journalisme ou l’édition, tire des secrets de quantités massives de données où les utilisateurs sont considérés comme des orientations convaincantes pour la production des contenus à venir.

Dit autrement, nos faux profils, ou plutôt nos profils approximatifs produits par les algorithmes ont des conséquences directes la façon dont est conçu et produite l’information à venir.

L’évaluation de la pertinence
Lorsque les utilisateurs cliquent sur “rechercher”, ou chargent leurs flux d’information Facebook ou demandent une recommandation à Netflix, les algorithmes doivent instantanément et automatiquement identifier lequel des milliers de milliards de bits d’information répond le mieux aux critères qu’ils ont à portée de main et satisfont le mieux un utilisateur spécifique et ses objectifs présumés. Bien que ces calculs n’aient jamais été simples, ils ont connu une croissance plus complexe que l’utilisation par le public de ces services.

Selon Google, son algorithme de recherche examine plus de 200 signaux pour chaque requête. Ces signaux sont les moyens par lesquels l’algorithme se rapproche de la pertinence. La pertinence, voilà précisément ce à quoi les sociologues des algorithmes devraient s’intéresser, estime Gillespie. Comme il n’existe pas de mesure indépendante de ce que sont les résultats pertinents pour une requête donnée, les ingénieurs doivent décider ensemble de ce à quoi doivent ressembler les résultats et modifier leurs algorithmes pour atteindre ce résultat ou apporter des changements fondés sur des données probantes de leurs utilisateurs, utiliser les clics et les recherches de suivi comme une approximation, non pas de la pertinence, mais de la satisfaction.

Accuser un algorithme de partialité implique qu’il existe un jugement de pertinence impartiale disponible que l’outil ne parvient pas à atteindre. Comme aucune mesure n’est disponible, les conflits sur les évaluations algorithmiques n’ont aucune base solide sur laquelle se baser.

Or pour faire des hypothèses d’évaluation des algorithmes, interroger les critères sous-jacents, il faudrait pouvoir accéder aux critères d’évaluation cachés. L’algorithme Twitter Trends, qui expose les mots clefs qui ont du succès sur Twitter, laisse la définition de ce que sont ces “tendances” non spécifiées. Les critères qui évaluent ce qui est tendance ne sont décrits qu’en termes généraux : vélocité d’un terme, le fait qu’il soit déjà apparu ou non dans la liste des tendances, le fait de savoir s’il circule à l’intérieur ou à travers certaines grappes d’utilisateurs… “Mais nous ne savons pas comment ces critères sont mesurés, comment ils sont pesés les uns contre les autres, quels autres critères sont également incorporés à l’algorithme, si et quand ces critères seront remplacés. Ces algorithmes sont perpétuellement ouverts à la suspicion des utilisateurs, car les critères peuvent être rapportés au bénéfice commercial ou politique du fournisseur, ou incorporer, intégrer des hypothèses non examinées qui agissent en dessous du niveau de prise de conscience, même de celle de ses concepteurs.”

Twitter ne peut pas être très précis sur le fonctionnement de son algorithme, au risque de donner à ses concurrents un moyen facile de dupliquer et dépasser le service qu’il offre. Il faudrait également fournir une explication plus technique que celle à laquelle sont préparés les usagers. Et surtout, il remettrait à ceux qui souhaitent déjouer le système une feuille de route pour permettre à leurs mots clefs de mieux figurer sur cette liste de tendances. Des sites comme Reddit ont rendu publics leurs algorithmes de classement des histoires des utilisateurs, mais ils doivent constamment corriger les contre vote organisé et ces tactiques, elles, ne peuvent être rendues publiques. A de rares exceptions près, donc, la tendance vise à rendre les algorithmes opaques.

Une autre approche pour évaluer la pertinence des algorithmes consisterait à faire un examen attentif de la situation économique et des contextes culturels qui ont procédé à sa naissance, estime encore le sociologue. Tout système de connaissance émerge de stratégies politiques et économiques et est déterminé par les objectifs et les stratégies des institutions qui cherchent à capitaliser sur elles. Les pressions subies par les moteurs de recherches, les plates-formes de contenus et les fournisseurs d’information peuvent subtilement façonner la conception des algorithmes et la présentation des résultats. Par exemple, quand les moteurs ont annoncé qu’ils ajouteraient des publicités dans leurs résultats, produits de calculs algorithmiques, le public a rejeté en masse ces stratagèmes. Les utilisateurs ne souhaitaient pas que les contenus que les algorithmes avaient sélectionnés soient mêlés à des contenus que les fournisseurs voulaient nous faire voir pour des raisons financières – bien que différenciés des autres contenus, nous y avons tout de même été soumis.

Mais le problème est devenu maintenant plus complexe, multidimensionnel, estime Gillespie. “Le fil d’information de Facebook par exemple, ne peut être décrit comme distinguant deux territoires, sociaux et commerciaux. Il entremêle les deux dans les résultats de ses calculs algorithmiques (la mise à jour des statuts dépend des activités de vos amis, des liens qu’ils recommandent…), les éléments structurels (commentaires, liens vers des pages ou des groupes…) et les éléments placés selon une relation commerciale (bannières, application de sites tiers….). Cartographier ce terrain complexe nécessite une compréhension profonde des relations économiques et des hypothèses sociales qu’il représente.” Les éléments algorithmiques se démultiplient. Ils investissent de plus en plus d’éléments constitutifs de nos outils sociotechniques.

Enfin, il faut questionner les critères d’évaluation d’un algorithme spécifique afin de savoir s’ils sont structurés par des principes politiques ou organisationnels. Un algorithme peut ainsi souvent favoriser les intérêts commerciaux d’un fournisseur de contenu plutôt que d’un autre. Plusieurs études ont aussi relevé certaines tendances structurelles des algorithmes à favoriser les contenus qui sont déjà très populaires, les contenus en anglais et les fournisseurs d’information commerciale. Les juristes, comme James Grimmelmann dans le dilemme Google (.pdf) ou Frank Pasquale et Oren Bracha débattent d’ailleurs de ce que signifierait d’exiger la neutralité des résultats de recherche.

Enfin, les algorithmes ne sont pas stables. “Ils peuvent être changés facilement, instantanément, radicalement et invisiblement”. Ils sont régulièrement “tordus”, c’est-à-dire corrigés. Obscurs et malléables, ils nous donnent peu de possibilités d’évaluer leurs préjugés. Sans compter que ce que nous pourrions consulter comme étant un algorithme en referme le plus souvent plusieurs. Les moteurs de recherches font ainsi régulièrement des tests d’utilisateurs présentant différents classements à des utilisateurs pour améliorer leurs algorithmes, intégrer les ajustements préférés des utilisateurs dans une mise à jour ultérieure.

Chaque algorithme est donc à la fois fondé sur une hypothèse concernant l’évaluation correcte de la pertinence, et sur une instanciation de cette hypothèse dans un technique de calcul de l’évaluation, estime Gillespie.

La promesse de l’objectivité algorithmique
Plus que de simples outils, les algorithmes sont également des “stabilisants de confiance”. Ils semblent des garanties pratiques et symboliques que leurs évaluations seront justes et précises, exemptes de subjectivité, d’erreur ou de tentative d’influence.

Mais c’est la une fiction soigneusement élaborée, souligne Tarleton Gillespie. Aucun service d’information ne peut complètement livrer une information sans intervention. Si un algorithme peut évaluer qu’un site est le plus pertinent pour votre requête, ce résultat n’apparaitra pas si c’est un site de dissident politique en Chine ou si c’est un site nazi en France. Pourtant, les fournisseurs d’algorithmes insistent sur l’automatisme de leurs produits, comme si l’automatisme était le fondement de leur légitimité. L’articulation attentive de l’impartialité d’un algorithme (même quand cette caractérisation est plus une obfuscation qu’une explication) le certifie comme un acteur sociotechnique fiable, lui confère des résultats pertinents et crédibles, et maintient l’apparente neutralité de l’opérateur face aux millions d’évaluations qu’il effectue à chaque seconde. “Promu d’un côté comme un outil d’évaluation impartial pour ceux qui le critiquent, l’algorithme est promu d’un autre côté comme un outil de promotion sélective pour les annonceurs”.

La description du PageRank de Google, la plus ancienne composante de son algorithme de recherche complexe, a été d’abord publié comme un document technique, mais a ensuite été mythifié – d’abord comme une caractéristique technique (l’élément central permettant à Google de se démarquer) puis comme une logique fondamentalement de calcul démocratique – alors même que l’algorithme a été remanié de nombreuses fois pour tenir compte de centaines d’autres critères, rappelle le sociologue.


Image : les changements dans l’algorithme de Google, extrait d’une infographie signée Martina Seefeld trouvée sur Brandignity.

Par-dessus tout, les producteurs d’algorithmes doivent affirmer que leur algorithme est impartial. La performance de l’objectivité algorithmique est devenue fondamentale pour la maintenance de ces outils comme étant les courtiers légitimes de connaissances pertinentes. “Aucun fournisseur n’a été plus catégorique quant à la neutralité de son algorithme que Google, qui répond régulièrement à des demandes pour modifier les résultats de ses recherches par l’affirmation selon laquelle son algorithme ne doit pas être modifié.” Bien sûr, en dépit de cette position officielle, Google n’a cessé de modifier son algorithme par exemple pour filtrer les résultats en ôtant les images à caractère sexuel ou en supprimant certaines saisies automatiques ou en rétrogradant les sites de partage de fichiers de ses résultats. Pourtant, Google affirme régulièrement qu’il ne modifie pas son index ou ne manipule pas ses résultats.

Evgeny Morozov estime que c’est là une façon de détourner sa responsabilité : la neutralité algorithmique de Google trahit un malaise grandissant à devenir le gardien mondial de l’information. La technologie est réifiée comme une force autonome et objective, loin des biais inhérents à ses systèmes – “systèmes si complexes qu’aucun ingénieur de Google ne les comprend pleinement”.

Cette affirmation de l’objectivité algorithmique joue à bien des égards un rôle équivalent à celle de l’objectivité du journalisme, estime Tarleton Gillespie. Comme les moteurs de recherche, les journalistes ont mis au point des tactiques pour déterminer ce qui leur apparaît pertinent, le signaler, assurer sa pertinence… Des pratiques qui sont relativement invisibles à leur public, des pratiques compliquées qui n’éliminent pas les jugements de valeur et les prises de position politique personnelles. Ces pratiques institutionnalisées sont animées par une promesse conceptuelle qui, dans le discours du journalisme, est régulièrement articulée (ou surestimé) comme une sorte de totem. Les journalistes utilisent la norme de l’objectivité comme un “rituel stratégique” pour donner une légitimité publique à des tactiques de production de connaissances qui sont par nature précaires. Analyser objectivement la réalité est une prétention d’un type particulier d’autorité.

Mais l’objectivité journalistique et algorithmique ne sont pas les mêmes. L’objectivité journalistique dépend d’une promesse institutionnelle, construite par un ensemble de normes sociales et liées à leur travail. Leurs choix sont censés représenter une expertise minutieuse permettant de mettre de côté leurs préjugés et leurs convictions. “La promesse de l’objectivité algorithmique repose beaucoup moins sur des normes institutionnelles et sur la formation de l’expertise, que sur la promesse technologique d’une neutralité mécanique.”

Mais dans les deux cas, “la légitimité repose sur la procéduralisation de la sélection d’informations”. L’objectivité fait partie de la façon dont le travail des journalistes est évalué, par les éditeurs, leurs collègues ou les lecteurs. La promesse d’objectivité algorithmique, elle aussi, a été manifestement intégrée dans les pratiques de travail des prestataires qui conçoivent les algorithmes. Elle sert la nature publique du service d’information qu’ils produisent. Elle légitime leur entreprise et contribue à masquer la réalité du service qu’ils fournissent, estime le sociologue.

En examinant l’articulation d’un algorithme, nous devons accorder une attention particulière à la façon dont cette tension entre la neutralité techniquement assurée et la saveur sociale de l’évaluation faite est gérée – et parfois, se décompose.

L’intrication avec la pratique
Bien qu’ils puissent être étudiés comme des outils de calculs abstraits, les algorithmes sont conçus pour être intégrés dans le monde vécu qui génère les informations qu’ils traitent et dans celui de leurs utilisateurs. Cela est particulièrement vrai lorsque l’algorithme est l’instrument d’une entreprise pour qui, l’information qu’elle fournit est le produit. Si les utilisateurs refusent de s’adapter à cet outil dans leurs pratiques, alors l’algorithme échoue. “Cela signifie que nous devons considérer non leur “effet” sur les gens, mais une approche multidimensionnelle de l’intrication entre les algorithmes mis en pratique et la tactique sociale des utilisateurs qui les utilisent.”

Les algorithmes se sont nichés dans la vie quotidienne des gens et dans des pratiques d’information banales. Les utilisateurs façonnent et réarticulent les algorithmes qu’ils rencontrent et les algorithmes empiètent sur la façon dont les gens recherchent des informations, la manière dont ils perçoivent et pensent les contours de la connaissance et comment ils sont compris dans et par le discours du grand public.

“Il est important que nous concevions cet enchevêtrement non pas comme une influence à sens unique, mais comme une boucle récursive entre les calculs de l’algorithme et les “calculs” des personnes.” L’algorithme qui permet aux utilisateurs de naviguer dans les archives photographiques de Flickr est bâti sur les archives des photos postées, ce qui signifie qu’il est conçu pour appréhender et refléter les choix faits par les photographes. “Ainsi, tout comme l’algorithme doit être sensible aux photographes, les photographes ont tout intérêt à être sensibles à l’algorithme, conscients qu’être livrés en réponse à une requête pourrait mettre leur photo devant les bonnes personnes.” L’algorithme de Flickr peut ainsi induire des réorientations subtiles des pratiques photographiques vers sa propre logique conduisant les photographes par exemple à étiqueter des clichés selon le succès de certaines catégories ou à orienter leurs choix de sujets et de composition vers ceux que l’algorithme semble privilégier… Nos traces ne sont pas tant des marques de notre présence qu’une tacite négociation entre nous-mêmes et nos auditeurs imaginés.

Cette négociation tacite consiste d’abord et avant tout en une réorientation stratégique des pratiques de nombreux utilisateurs dans les outils dans lesquels ils s’engagent afin de les utiliser pour amplifier leurs efforts. Toute une industrie de l’optimisation des moteurs de recherche permet ainsi d’accroître ses résultats dans les requêtes des moteurs de recherche. L’optimisation délibérée, professionnelle, n’est que la marque de pratiques beaucoup plus variées, organiques et complexes par lesquelles les producteurs de contenus de toutes sortes orientent leurs productions vers les algorithmes. “Lorsque nous utilisons les hastags dans nos tweets – une innovation d’utilisateur qui a été adopté ensuite par Twitter – nous ne rejoignons pas seulement une conversation dans l’espoir d’être lu par d’autres, nous reformulons notre expression afin d’être mieux reconnu et distribué par l’algorithme de recherche de Twitter.” Nombre sont ceux qui travaillent ainsi pour être remarqués par les algorithmes. D’autres au contraire, comme les utilisateurs de sites de partage, travaillent à échapper aux algorithmes.

Ces pratiques souvent basées sur notre meilleure estimation du fonctionnement de l’algorithme ressemblent à la manière dont les vedettes de l’actualité s’adaptent à l’industrie de l’information, en utilisant ses techniques pour mieux amplifier sa présence.

“A l’heure où les algorithmes comptent énormément dans la circulation publique de la connaissance, comprendre leurs fonctionnements est une forme de pouvoir : essentielle à la participation au discours public, à la visibilité en ligne, à la crédibilité…” La plupart des utilisateurs ont une compréhension vague des algorithmes qui les manipulent. Souvent, ils essaient de pousser de l’information par des bonnes pratiques (hastags, métadonnées) sans comprendre nécessairement les modalités de l’algorithme (comme ceux qui retweetent un message à plusieurs reprises dans l’espoir d’apparaître dans les tendances de Twitter).

Les optimiseurs de moteurs de recherche et les spammeurs ont aussi un accès limité à la compréhension algorithmique, mais ils ont développé une grande habileté technique à deviner les critères de ceux-ci au moyen d’essais et de re-ingénierie. Les amateurs de technologies se livrent à des tentatives similaires pour découvrir le fonctionnement de ces systèmes que ce soit par plaisir ou pour produire des perturbations déterminées. Certains disposent d’un accès particulier à l’algorithme, comme les annonceurs ou les développeurs qui utilisent les API de ces systèmes…

Taleton Gillespie parle d’ailleurs de domestication dans la façon dont nous nous approprions ces algorithmes, pour désigner à la fois la façon dont ils entrent dans nos maisons et la façon dont nous intégrons leurs fonctionnements implicites à nos habitudes. Quand Facebook modifie ses algorithmes (pour des raisons économiques), il n’est par rare de voir apparaître des soulèvements d’utilisateurs. Face aux asymétries de pouvoir de la collecte de données et de la surveillance en ligne, les utilisateurs ont développé toute une gamme de tactiques pour échapper ou polluer les transformations algorithmiques dont ils sont l’objet.

Les algorithmes sont également une technologie de soi. Nous surveillons comment Google nous présente au reste du monde et “confirme notre sentiment d’identité”.

“Les algorithmes ne sont donc pas seulement ce que les concepteurs en font, ou ce qu’ils font des informations qu’ils traitent. Ils sont aussi ce que nous en faisons jour après jour – mais avec cette mise en garde : parce que la logique, l’entretien et la refonte de ces algorithmes restent entre les mains des fournisseurs d’information, ils sont dans une position privilégiée pour réécrire la compréhension que nous avons d’eux, ou engendrer une incertitude persistante au sujet de leurs critères, il est donc difficile pour nous de les traiter comme étant vraiment nôtres.”

“Il est difficile de documenter comment les utilisateurs peuvent changer leurs visions du monde pour accueillir les logiques sous-jacentes et les présomptions implicites des algorithmes qu’ils utilisent régulièrement. (…) Les logiques de fonctionnement de ces algorithmes non seulement façonnent les pratiques des utilisateurs, mais les conduisent à internaliser leurs normes et priorités.” Taina Bucher soutient que l’EdgeRank de Facebook encourage une “subjectivité participative” entre utilisateurs qui estiment que les gestes d’affinités (comme les commentaires sous une photo d’amis) sont un élément clé de son algorithme. Graham Longford estime lui que les paramètres par défaut sont conçus pour nous demander toujours plus de renseignements personnels. Astrid Mager et Elizabeth Van Couvering estiment que les principes du capitalisme sont intégrés dans le fonctionnement des moteurs de recherche.

Tarleton Gillespie estime quant à lui que les théories de la domination n’aident pas nécessairement à comprendre les algorithmes, car si ceux-ci sont conçus pour pour apporter des connaissances pertinentes ils offrent aussi des chemins d’accès à la connaissance – et à mesure qu’ils deviennent plus omniprésents et fiables, leurs logiques s’autoaffirme. Google et ses 200 signaux présument que les connaissances pertinentes sont largement assurées par la ratification publique, ajustée à l’opinion de ceux qui sont eux-mêmes publiquement ratifiés. Ce mélange de sagesse des foules et d’autorités certifiées collectivement est la solution de Google pour équilibrer la tension entre l’expertise et le sens commun.

La production de publics calculés
Joï Ito, danah boyd et quelques autres ont introduit le terme de “publics en réseau” pour mettre en évidence à la fois les communautés d’utilisateurs qui se rassemblent via les médias sociaux et la façon dont les technologies structurent l’interaction de ces publics, c’est-à-dire dont elles façonnent l’engagement des gens dans ces environnements.

Comme les algorithmes sont un élément clé de ces environnements de médiation technologiques, ils contribuent également à structurer les publics.

Plusieurs auteurs ont montré leur préoccupation dans la façon dont le fonctionnement de ces algorithmes pourrait transformer notre rapport aux autres. Le risque de la personnalisation des résultats de recherches par exemple a été longuement documenté, notamment par Eli Pariser. Les résultats d’une même requête par deux utilisateurs différents peuvent être sensiblement différents si les résultats prennent en charge les préférences de l’utilisateur. Lorsque les services d’information algorithmiques peuvent être personnalisés à ce degré, la diversité des connaissances et le dialogue politique peuvent être compromis. Les bulles de filtrage de Pariser évoquent le fait que les algorithmes favorisent l’information que l’on recherche et les convictions politiques qui sont les nôtres.

Mais les algorithmes ne structurent pas seulement nos interactions avec les autres, ils structurent également nos interactions avec les publics calculés qu’ils produisent, rappelle Gillespie. “Quand Amazon nous recommande un livre que d’autres clients ont acheté, il prétend produire un public avec lequel nous sommes invités à nous sentir en affinité”, même si cette population sur laquelle il base ses recommandations ne correspond pas pleinement avec notre profil. “Quand Facebook propose dans ses paramètres de confidentialité que l’information soit vue par les amis et amis d’amis, il transforme un ensemble discret d’utilisateurs en auditoire… Or, ce groupe, qui n’existait pas jusque-là, seulement Facebook connaît sa composition exacte. Ces groupes générés algorithmiquement peuvent se chevaucher, être une approximation inexacte, ou peuvent n’avoir rien à voir avec les publics que l’utilisateur recherche.”

“Klout promet de mesurer l’influence des utilisateurs à travers les différentes plates-formes sociales. Leurs mesures sont intuitives dans leur définition, mais complètement opaques dans leurs mécanismes.” Au final, “le frottement entre les “publics en réseau” forgés par les utilisateurs et “les publics calculés” générés par les algorithmes complique davantage la dynamique de la sociabilité en réseau.”

Avec d’autres mesures de l’opinion publique (les sondages, les enquêtes….), le problème central demeurait l’extrapolation, où un sous-ensemble est présumé représenter toute la population. Avec les algorithmes, le problème central est l’intention derrière ces représentations calculées de la population. Les algorithmes qui calculent ce qui est chaud par exemple s’engagent dans une approximation calculée d’un public par le biais d’une activité traçable avant de leur rendre compte de ce dont ils ont le plus parlé. “Quel est le gain pour les fournisseurs à faire de telles caractérisations ? Comment cela façonne ce qu’ils observent ? Qui est choisi pour être mesuré pour produire cette représentation ? Qui est laissé de côté ? Comment ces technologies, qui sont non seulement des technologies d’évaluation, mais également des technologies de représentation, aident à constituer et codifier les publics qu’ils prétendent mesurer – publics qui n’existeraient pas si l’algorithme ne les avait pas créés ?”

Ces questions ont d’autant plus d’importance, estime le sociologue que les représentations du public produites par les algorithmes sont incorporés à des projets plus vastes. Ce que Twitter affirme important aux Américains ou ce qu’Amazon dit des lectures des jeunes sont des formes de connaissances d’autorités qui peuvent être invoqués par des institutions dont le but est de réguler ces populations, comme nous l’expliquait le philosophe Thomas Bern.

La croyance selon laquelle de tels algorithmes, combinés à des données utilisateurs massives, puissent nous dire des choses sur la nature des publics ou la constitution de la société fonde la science des Big Data. La science sociale se tourne vers les techniques de calcul pour comprendre la sociabilité humaine.

L’approche est séduisante, estime le sociologue : accéder à des millions de données apporte une légitimité et les algorithmes permettent de repérer des modèles que les chercheurs ne pouvaient pas toujours voir. Mais cette approche méthodologique doit tenir compte des complexités décrites à ce jour, en particulier lorsque leurs données sont générées par des algorithmes commerciaux eux-mêmes. “Les techniques de calcul de recherche ne sont pas des baromètres de la vie sociale. Ils produisent des hiéroglyphes : façonnés par les outils avec lesquels ils sont sculptés, nécessitant une interprétation sacerdotale, ils racontent des histoires puissantes, mais souvent mythologiques – généralement aux services des dieux dont ils dépendent.”

Enfin, lorsque les données sont nous-mêmes, que devons-nous faire de ces associations que les algorithmes prétendent identifier sur nous en tant que société – que nous ne savions pas, ou peut-être que nous ne voulions pas savoir ? Mike Ananny pour TheAtlantic par exemple a remarqué que la place de marché Androïd recommande une application contre les prédateurs sexuels à ceux qui ont téléchargé Grindr, un réseau social géolocalisé pour les gays. Il suppose que cette association est produite par l’algorithme de cette place de marché. “Est-ce que l’algorithme a fait une erreur ? L’algorithme a-t-il fait une association grossière par l’appariement du terme sexe dans la description des deux applications ? Ou est-ce que le moteur de recommandation d’Androïd fait une association subtile dans notre comportement culturel entre l’homosexualité et la prédation sexuelle.”

“Si nous examinons les algorithmes qui font des associations comme celle-ci, nous devrions également interroger les “algorithmes culturels” que ces associations représentent (c’est-à-dire notre propension à associer l’homosexualité à la prédation sexuelle) à travers un ensemble massif et distribué de points de données : c’est-à-dire, nous !”

De quels algorithmes sommes-nous dépendants ?

“Comprendre les algorithmes et leur impact sur le discours public nécessite une réflexion non seulement sur la façon dont ils travaillent, ou sur la façon dont ils sont déployés, ou sur ce qui les anime financièrement. Cela ne consiste pas à dévoiler seulement leur fonctionnement interne et mettre en lumière leurs critères implicites. Il s’agit d’une enquête sociologique qui n’intéresse pas les fournisseurs de ces algorithmes. Il nécessite d’examiner pourquoi les algorithmes sont regardés comme une logique de connaissance crédible, comment ils se désagrègent et sont réparés quand ils entrent en contact avec le flux et le reflux du discours public et pour lesquels les hypothèses politiques pourraient être non seulement gravés dans leurs conceptions, mais également constitutive de leur utilisation répandue et de leur légitimité.”

Tarleton Gillespie voit l’émergence des algorithmes comme un outil d’information fiable comme la dernière réponse à une tension fondamentale du discours public. Les moyens par lesquels nous produisons, faisons circuler et consommons l’information dans une société complexe doit nécessairement être traitée par la division du travail : “certains produisent et sélectionnent l’information et le reste d’entre nous, du moins pour le moment, peuvent seulement la prendre pour ce qu’elle vaut.”

“Chaque média public a du faire face à ce défi : que ce soit les crieurs publics, les journaux ou les technologies de diffusion de masse. Dans chaque cas, lorsque nous observons comment la connaissance est apportée aux autres, nous nous révélons vulnérables à des choix, des méthodes et des subjectivités que nous ne maîtrisons pas.” Parfois cela est positif. Parfois moins. “Les procédures des fournisseurs d’information n’ont jamais été très disponibles à ceux qui les consomment. Elles sont inévitablement sélectives, insistent sur certains sujets et en rejettent d’autres. La diffusion de l’information a toujours été vulnérable : nous pouvons simplement construire des garanties le mieux que nous pouvons.”

“Nous pouvons voir les algorithmes comme des codes avec des conséquences, un mécanisme socialement construit et institutionnellement géré pour assurer la perspicacité publique : une logique de nouvelles connaissances.” Nous pourrions envisager la logique algorithmique contre une logique opposée – et peut-être supplantant – la logique éditoriale concurrente. La logique éditoriale qui a longtemps prévalu dépend des choix subjectifs d’experts, eux-mêmes composés et autorisés par des processus institutionnels de formation et de certification, ou validés par le public à travers les mécanismes du marché. La logique algorithmique, en revanche, dépend des choix procéduralisés d’une machine, conçue par des opérateurs humains pour automatiser certains rapprochements ou déterrer des modèles de l’ensemble des traces sociales recueillies. Les deux s’affrontent et prétendent résoudre le problème fondamental de la connaissance humaine : “comment identifier les informations pertinentes et cruciales pour le public, par le biais de moyens inévitablement humains, de manière à être libéré de toute erreur humaine, de toute partialité ou de toute manipulation.”

Les deux approches, algorithmiques et éditoriales, sont importantes et profondément problématiques.

Une enquête sociologique sur les algorithmes devrait aspirer à révéler les rouages complexes de cette machine de la connaissance, à la fois en observant le processus par lequel il choisit d’informer des usagers et le processus social par lequel il est transformé en un système légitime.

“Mais il demeure quelque chose d’impénétrable avec les algorithmes. Ils sont conçus pour fonctionner sans intervention humaine, ils sont délibérément brouillés et ils travaillent avec des informations sur une échelle qui est difficile à appréhender (du moins sans outils algorithmiques).” Peut-être que cela nous dispense de l’obligation d’être sceptique quant à une information que nous ne pourrons jamais nous assurer comme certaine. Ces mécanismes par lesquels nous réglons (à défaut de résoudre) ce problème sont des solutions sur lesquels nous ne pouvons pas nous fier, mais que nous devons croire. Cette foi rend difficile de reconnaître sobrement leurs défauts et leurs fragilités.

“A bien des égards, les algorithmes demeurent en dehors de notre portée et sont conçus pour cela”, conclut le sociologue. Cela ne veut pas dire que nous ne devrions pas aspirer à éclairer leur fonctionnement et leur impact. Nous devrions ! Mais nous devons également nous préparer à des rencontres avec l’imprévu et aux associations ineffables qu’ils tirent de nous”… à l’incertitude fondamentale de ne plus savoir à qui nous parlons ou qui nous écoute…

Hubert Guillaud

, , , , ,
Catégories
Charlotte Maday

La dématérialisation et la gouvernance de l’information

La généralisation des technologies de l’information et de la communication et en particulier le développement d’Internet a conduit à la mise en place de politiques publiques pour encourager la dématérialisation des échanges et des procédures. Il s’agissait dans la plupart des cas d’une volonté de "moderniser l’administration". Il faut vivre avec son époque me diriez-vous. […]
Catégories
Damien Hamard

Le Rhône accorde une licence gratuite pour ses archives à NotreFamille.com – Lagazette.fr

?log=out
Catégories
Archiviste_Rmer

Les données big data et le secteur public, Pascal Laik, Informatica – Le blog de Décideur Public – Systèmes d’Information

Catégories
Archiviste_Rmer

etude-cada-daj.pdf (Objet application/pdf)

Catégories
Damien Richard Pauline Moirez

Blogging et réseaux sociaux pour la publication et la valorisation d’archives et de fonds de bibliothèque | ImageSon

Tags:

Catégories
Alexandre Garcia

Response to the Open Letter on obsolete Microsoft file formats

Tags: