Visualiser les données de la recherche en SHS : un nouvel horizon pour les humanités numériques ?

, par Véronique Salaün

Action Nationale de Formation Fréjus, 23-26 septembre 2013

La formation permettra aux participants d’avoir une vue générale de l’état de l’art dans le domaine de la visualisation de corpus de données.
Et également de favoriser les échanges et l’émergence de collaboration entre les participants et d’encourager des demandes de formations approfondies sur les différents sujets présentés.

Le programme de la formation sera organisé autour de conférences, de présentations, et d’ateliers de manipulation, y compris sur les propres données des stagiaires si cela est possible.


La production de corpus en SHS


Est soutenue ces dernières années par différentes actions (telles que l’Ecole thématique sur la préservation et la diffusion numériques des sources de la recherche en SHS, Fréjus 2008, et la formation Gestion numérique des sources de la recherche en SHS, 2010, 2011) est parvenue à une phase de maturité. De nombreux corpus numériques sont désormais disponibles et respectent les bonnes pratiques du domaine : ils sont exprimés dans des formats standards et interopérables. Parallèlement à la constitution de ces ressources numériques, des outils innovants pour leur exploitation se sont développés, en particulier dans le domaine de la visualisation.
Les techniques de visualisation permettent d’éclairer d’un jour nouveau des données même anciennes et ainsi de mettre en évidence des aspects jusque-là indécelables. On peut parler véritablement de l’apparition d’une nouvelle science : la « science des données ». Cependant, comme pour toute nouvelle technique, il est nécessaire de garder un oeil critique sur les résultats obtenus par la visualisation, en ce qu’ils peuvent conduire à des erreurs d’interprétation.

Objectif principal de la formation


C’est de susciter auprès des participants une utilisation novatrice des données qu’ils manipulent habituellement. Il s’agit d’exposer des outils ou méthodes qui trouveront une application pratique dans leurs projets de recherche.
L’idée n’est donc pas d’imposer une méthode mais bien de montrer quel est l’éventail des techniques existantes, et ce en fonction des types de données manipulées. Pour cela, plusieurs axes ont été choisis : la visualisation de matrices, la cartographie de données, la visualisation de graphes et le cas particulier des données tridimensionnelles.
Pour compléter ces présentations, une intervention traitera, d’un point de vue critique, la question de la confiance que l’on peut avoir en ces représentations.

Programme

  • Lundi 23 septembre 2013
  • A partir de 15h30 - Accueil des participants
  • 16h30 – 17h - Présentation et mise en perspective de la formation. Bertrand Jouve (INSHS)
  • 17h – 18h30 - Conférence inaugurale : La carte, le territoire et l’explorateur : où est la visualisation ? Jean-Daniel Fekete (INRIA)
  • 20h - Dîner
  • Mardi 24 septembre 2013 - Matinée
  • 10h – 11h - Entre données 3D et connaissances scientifiques : une nouvelle dimension pour les SHS. Robert Vergnieux (CNRS), Florent Laroche (École Centrale Nantes), Jean-Louis Kérouanton (Université de Nantes)
  • 11h – 11h30 - Échanges autour d’un café
  • 11h30 – 12h30 - La visualisation de données : retour à la pratique de terrain. Nicolas Thély (Université de Rennes 2)
  • 12h30 – 14h - Déjeuner
  • Mardi 24 septembre 2013 – Après-midi
  • 14h – 15h - Des SIG à la cartographie : apports et mise en oeuvre de la spatialisation de données. Hélène Noizet (Université Paris 1)
  • 15h – 15h30 - Échanges autour d’un café
  • 15h30 – 16h30 - Analyse graphique d’une matrice de données. Denis Menjot (Université Lyon 2)
  • 18h – 19h - Régimes de production des données et crédibilité des visualisations : un regard critique. Antonio A. Casilli (Telecom-ParisTech/EHESS)
  • 20h - Dîner
  • Mercredi 25 septembre 2013 – Matinée
  • 10h – 12h30 - Vous pourrez suivre l’une des 4 sessions suivantes, menées en parallèle :
  • Traitement de matrice de données (e.g. Matrice de Bertin). Animée par Denis Menjot (Université Lyon 2), Jean-Luc Pinol (ENS Lyon), Jean-Hugues Chauchat (Université Lyon2)
  • Représentation cartographique. Animée par Laurent Costa (CNRS)
  • Traitement des graphes. Animée par Simon Le Bayon (Ets MYCHEFCOM)
  • Préparation des données pour la 3D. Animée par Robert Vergnieux (CNRS), Florent Laroche (École Centrale Nantes), Jean-Louis Kérouanton (Université de Nantes)
  • La pause café aura lieu de 11h à 11h30
  • 12h30 – 14h - Déjeuner
  • Mercredi 25 septembre 2013 – Après-midi
  • 14h – 16h30 - Vous pourrez suivre l’une des 4 sessions suivantes, menées en parallèle :
  • Traitement de matrice de données (e.g. Matrice de Bertin). Animée par Denis Menjot (Université Lyon 2), Jean-Luc Pinol (ENS Lyon), Jean-Hugues Chauchat (Université Lyon2)
  • Représentation cartographique. Animée par Laurent Costa (CNRS)
  • Traitement des graphes. Animée par Simon Le Bayon (Ets MYCHEFCOM)
  • Préparation des données pour la 3D. Animée par Robert Vergnieux (CNRS), Florent Laroche (École Centrale Nantes), Jean-Louis Kérouanton (Université de Nantes)
  • La pause café aura lieu de 15h à 15h30
  • 20h - Dîner
  • Jeudi 26 septembre 2013 - Matin
  • 9h30 – 12h - Bilan et perspectives ouvertes par cette formation
  • Les outils et les services proposés par la grille de services Huma-Num : quelles priorités dans les années à venir ?
  • Pour un développement des communautés : quels soutiens ? quelles actions, quelles formations ?
  • 12h - Déjeuner puis transfert des participants vers la gare SNCF

Glossaire

Il est extrait de Paul Rouet, « Dictionnaire des termes techniques », dans H. Noizet, B. Bove, L. Costa (dir.), Paris de parcelles en pixels. Analyse géomatique de l’espace parisien médiéval et moderne, éd. PUV-Comité d’histoire de la ville de Paris, Paris, p. 305-308.

Les mots signalés par un astérisque* font aussi l’objet d’une définition dans le dictionnaire.

  • Administration de données : activité de l’administrateur de données. Celui-ci gère la documentation des données (métadonnées), qualifie les données et les contrôle, et enfin gère leur diffusion et en particulier les droits d’accès au système d’information : droit de consultation, de modification, de mise à jour, de création ou destruction de classes d’objets, de modification de règles d’intégrité, etc. L’administrateur de données joue également un rôle de liaison entre concepteurs et producteurs du système d’information, et utilisateurs. En général, on confie à un ou plusieurs administrateurs de données, la charge d’imaginer, de concevoir et de mettre en œuvre dans la durée, tout moyen visant à faciliter et optimiser l’usage du système d’information (mode de diffusion, interfaces, structure des données, etc.), dans la limite, bien entendu, des ressources mises à leur disposition.
  • Ajustement spatial : action consistant à géoréférencer des vecteurs*, issus de la vectorisation d’un raster* déjà géoréférencé* par ailleurs, en leur appliquant les mêmes paramètres de géoréférencement* que ceux utilisés pour le raster. Ce procédé, qui a été automatisé dans le cadre d’ALPAGE, permet de superposer le raster géoréférencé et les vecteurs de ce raster.
  • Analyse spatiale : démarche visant à mettre en évidence les structures et les formes d’organisation du territoire, ainsi que les processus qui sont à leur origine. Elle apporte une meilleure compréhension du mode de fonctionnement et de développement du territoire, et peut conduire à une véritable modélisation de l’espace au moyen d’outils statistiques et mathématiques. Les logiciels SIG* apportent des outils déterminants à cette analyse : par exemple en précisant la nature des relations spatiales entre les objets géographiques appartenant à une ou plusieurs couches graphiques (inclusion, intersection, exclusion, distance tampon, juxtaposition, etc.). On distingue l’analyse des relations spatiales entre polygones, entre lignes, entre points, entre points et polygones, entre lignes et polygones, etc.
  • Carte  : représentation thématique d’un espace, à un moment du temps, dans un rapport d’échelle explicite. Une carte est elle-même issue du traitement d’une ou plusieurs couches d’information* : par exemple, une carte des censives au xviiie siècle peut comporter non seulement les limites de censives, mais également l’hydrographie, le réseau viaire, les contours d’îlots ou des édifices importants facilitant le repérage, toutes informations stockées dans des couches différentes.
  • Coordonnées géographiques : position à la surface de la Terre exprimée par une latitude (angle formé par le croisement entre le plan équatorial et la droite passant par ce point et par le centre de la Terre) et une longitude (angle formé entre le plan du méridien passant par ce point et le plan du méridien de Greenwich). Les coordonnées géographiques* exprimées en valeurs angulaires (degré ou grade) se distinguent des coordonnées dans un système de projection*, exprimées quant à elles dans une unité de mesure de longueur.
  • Couche d’information : les objets géographiques sont organisés en couches d’information généralement représentatives d’une classe d’objets. Par exemple : les censives, les édifices religieux, le réseau viaire de 1300, les îlots Vasserot, constituent autant de couches différentes. Une couche comporte un ou plusieurs objets de la même classe et du même type graphique (point, ligne ou surface). Dans un système d’information géographique*, les objets d’une couche possèdent non seulement leurs caractéristiques géométriques, mais également des données attributaires descriptives. Par exemple, dans la couche des censives, le nom du seigneur constitue un attribut de chaque censive. Dans la couche des édifices religieux, leur fonction ecclésiastique est aussi un attribut.
  • Géocodage : action visant à positionner dans un espace géoréférencé* des données comportant une localisation analogique d’usage courant, par exemple une adresse postale, ou un ordre régulier le long d’un itinéraire. Le principe consiste à interpréter la localisation analogique pour la transformer en coordonnées géographiques* ou dans un système de projection*, par l’utilisation de données géographiques de référence déjà géoréférencées* (couche ponctuelle des adresses postales, réseau filaire des voies d’un itinéraire…).
  • Géométrie de référence : si l’on veut pouvoir superposer de façon assez détaillée des plans anciens entre eux, ou avec des plans actuels, le meilleur moyen est de les géoréférencer* dans la même géométrie de référence. Celle qui sera adoptée sera la plus homogène et la plus précise possible. Ayant elle-même son histoire et ses défauts, cette géométrie de référence s’apparentera à la notion de « terrain virtuel », sans prétendre se substituer au terrain réel. Dans le cas du projet ALPAGE, la géométrie de référence adoptée est le plan parcellaire numérique géré par l’APUR (version 2006), qui s’appuie principalement sur l’ancien cadastre numérique de la Direction Générale des Impôts (DGI), tenu à jour par l’APUR. La méthode utilisée dans le cadre d’ALPAGE consiste à mettre à profit la présence des mêmes objets géographiques sur les plans successifs, ce qui permet de disposer de points homologues*, soit directement (par exemple le même bâtiment est représenté sur le plan Vasserot et sur le plan géométrique de référence), soit indirectement, par exemple lorsqu’un plan Vasserot ne comporte plus aucun objet en commun avec le plan de référence. On va alors rechercher un plan intermédiaire, par exemple un plan d’expropriation sous le second Empire, qui, lui, comportera des points homologues avec le plan de référence et avec le plan Vasserot.
  • Géoréférencement : action conduisant à localiser au moyen de coordonnées dans un système de projection* des objets, aussi bien de type raster* que vecteur*, en s’appuyant sur une géométrie de référence*. Le géoréférencement d’un raster peut conduire à des déformations de l’image initiale. Le géoréférencement d’objets vectoriels est direct ou indirect : direct quand l’objet dispose de ses propres coordonnées, indirect quand ces coordonnées sont récupérées de celles d’un objet de référence auquel il est associé. Par exemple, un édifice religieux peut récupérer les coordonnées d’une parcelle de propriété foncière à laquelle on l’a identifié.
  • Isotopie, isoclinie, isoaxialité  : modalités de transmission dans le temps et l’espace d’un linéament, due à la présence d’un élément directeur ou morphogène*. L’isotopie est la transmission de l’orientation sans changement de lieu. L’isoclinie est la transmission de l’orientation mais avec déplacement de la limite. L’isoaxialité est la transmission de l’information dans le prolongement du morphogène.
  • MCD (modèle conceptuel de données)  : représentation abstraite d’un champ du monde réel que l’on veut connaître, au moyen d’un système d’information. Le MCD organise, selon des normes établies, les propriétés descriptives des objets de ce monde réel en classes d’objets homogènes (par exemple les censives), qui sont dotées d’attributs (par exemple le nom du seigneur). Le MCD précise également les relations entre ces classes. Chaque objet est individualisé par une « clé », formée des valeurs d’un ou plusieurs attributs. Le MCD explicite les règles d’intégrité que doivent respecter les valeurs de chaque attribut de chaque objet et de chaque relation entre objets. Le MCD est une des composantes essentielles de la phase de conception d’un système d’information, en particulier les SIG*.
  • MNT, MNE : modèle numérique de terrain ou d’élévation. Un MNT est formé d’une trame régulière donnant l’altitude du terrain pour chaque nœud de la trame au niveau du sol. Un MNE est formé pareillement, mais donne l’altitude de chaque nœud au niveau de l’élévation (toits des bâtiments, faîtes des arbres, ouvrages d’art…). Ce mode de représentation du relief se substitue à la représentation classique par courbes de niveau. Il existe des procédés permettant de passer de l’une à l’autre, avec toutefois une perte d’information lors du transfert.
  • Morphogène : en analyse morphologique des documents planimétriques, élément directeur ou pérenne d’un paysage, susceptible de provoquer l’orientation de nouvelles formes, plus ou moins longtemps après son implantation.
  • Pixel : unité élémentaire d’une image raster*. Chaque pixel est doté d’une valeur qui exprime en chaque point ce que représente l’image. Cette valeur est exprimée en bits informatiques, susceptibles d’être stockés sur un support numérique, et qui peuvent à leur tour être retransformés en image. Le codage sur un bit permet de représenter un simple contraste apparaissant en noir et blanc (code 0 ou 1). Le codage sur 8, 16 ou 24 bits permet d’élargir la gamme chromatique.
  • Point homologue (autrement appelé « point de calage ») : dans un logiciel SIG*, il s’agit d’un point repérable sans ambiguïté à la fois sur une donnée source (toute couche d’information* déjà géoréférencée* dans le SIG) et sur une donnée cible, par exemple un plan raster* à géoréférencer dans le SIG.
  • Raster  : image techniquement constituée d’une matrice de pixels* ordonnée en lignes et colonnes. La résolution* de l’image raster est exprimée en nombre de pixels par centimètre linéaire ou par pouce (dpi ou « dots per inch »). Par exemple, une photographie numérique est typiquement une image raster*. Le scan* d’un plan ancien forme également une image raster. Une carte* en format raster peut être positionnée dans un système de projection*. Un raster étant composé de pixels ayant leur propre superficie, le changement d’échelle (zoom) induit une modification de la résolution* de son affichage.
  • Résolution  : nombre de pixels* d’une image raster* pour une unité de longueur. Une autre façon d’exprimer la résolution, souvent utilisée pour caractériser des plans scannés ou des orthophotoplans indépendamment de leur échelle, est d’indiquer la taille terrain d’un pixel. Nota : l’œil humain perçoit, sur papier, la résolution jusqu’à environ 300 points par pouce (dpi), soit 12 points par millimètre. Un écran d’ordinateur offre une résolution maximale de l’ordre de 75 à 120 points par pouce.
  • RMS  : « Root mean square » ou écart moyen quadratique. Cet indicateur est utilisé en SIG* lorsque l’on géoréférence*, par exemple, un plan scanné* (image raster*), par rapport à une ou plusieurs couches de données SIG déjà géoréférencées. L’opération consiste à identifier simultanément sur l’image à géoréférencer, et sur la couche SIG déjà référencée, des points précis (repères, angles de bâtiment, intersections de voies…) appelés points homologues*. Mathématiquement, deux points homologues suffisent pour géoréférencer une image raster. Toutefois, les déformations de cette image dues à l’étirement ou à la contraction du support initial de la planche, ou tout simplement la difficulté à positionner de façon certaine chaque point homologue*, conduisent à choisir, autant que possible, un plus grand nombre de points bien répartis sur l’image (3 à 8 ou 10 points, au-delà les gains en précision sont généralement infimes). Il faut donc recourir à un algorithme, qui va minimiser la distance entre la position de chaque point homologue* sur l’image raster d’origine remise en coordonnées, et sa position sur la couche SIG déjà géoréférencée. Cet indicateur de distance est la racine de la somme de chaque distance au carré ou RMS.
  • SGBD  : système de gestion de base de données. Un SGBD est un logiciel (par exemple Oracle, DB2, Microsoft SQL server, MySQL, PostgreSQL, 4D…) qui organise physiquement le stockage des données d’un système d’information, optimise et sécurise les accès à ces données. Un SGBD est doté à cet effet d’un ensemble d’opérateurs (détruire, modifier, remplacer…) généralement structurés dans un « langage », permettant la manipulation des données : mise à jour, correction, consultation, requêtes, extractions, etc. La plupart des SIG* peuvent être couplés à un SGBD.
  • Scannage  : procédé de balayage électronique comportant une source lumineuse et un capteur. L’émission lumineuse est réfléchie par le document, et cette réflectance est enregistrée par le capteur sous forme de raster*, appelé dans ce cas scan.
  • SIG  : système d’information géographique. Que ce soit sur un poste de travail individuel ou dans un cadre institutionnel, le SIG est un ensemble de moyens informatiques et de données, permettant de gérer des objets comportant une dimension spatiale. Un logiciel SIG se distingue d’un logiciel de dessin (DAO ou dessin assisté par ordinateur) tout d’abord par le fait que les objets géographiques sont définis par leurs coordonnées à la surface de la terre, et non par leurs coordonnées sur la feuille de papier. De plus, dans un SIG, chaque objet dispose de propriétés attributaires le décrivant et permettant de le relier à d’autres objets. Dans un logiciel de dessin, on ne travaille que la représentation ; dans un logiciel SIG, les objets sont des supports d’information, susceptibles d’être interrogés, analysés et représentés à volonté. Les fonctionnalités des SIG s’articulent autour des fameux 5A : Acquisition, Archivage, Accès, Affichage et Analyse.
  • Système de projection : la forme de la terre (géoïde) est projetée sur une figure mathématique dénommée ellipsoïde, aussi proche que possible du géoïde. Un système de projection consiste à transformer les coordonnées géographiques* établies sur l’ellipsoïde (latitude-longitude) en coordonnées sur une surface planaire. Cette transformation déforme inévitablement la réalité pour passer d’un espace sphérique à un plan. C’est pourquoi il existe plusieurs systèmes de projection répondant à des besoins différents : par exemple, selon que l’on souhaite représenter l’ensemble de la terre ou au contraire une partie restreinte de l’espace terrestre, ou selon que l’on souhaite préserver les angles ou les distances. Pour Paris, nous utilisons dans le projet ALPAGE une projection conique conforme, dite Lambert-I.
  • Topologie  : propriété des objets de type vecteur*. On distingue la topologie de réseau de la topologie de surface. La topologie de réseau consiste, pour un ensemble de lignes, à former un graphe, planaire ou non planaire, constitué d’arcs et de nœuds. La topologie de surface est associée aux propriétés de juxtaposition, superposition, inclusion, exclusion des objets de type surfacique entre eux. Le respect de la topologie donne lieu à des contrôles de chaque couche d’information*, voire entre couches, selon l’expression des règles d’intégrité propres à chacune d’entre elles.
  • Transformation linéaire (affine) : formule mathématique transformant les coordonnées respectivement en X et en Y de tout point d’un plan en coordonnées dans un système de projection*, au moyen d’une équation linéaire ou du premier degré.
  • Vecteur  : dans le domaine des SIG*, on appelle « couche vecteur » une représentation mathématique d’objets situés dans l’espace et portant donc leurs coordonnées dans un système de géoréférencement* géographique. Il s’agit de l’un des deux principaux types de représentation de l’information géographique, l’autre étant le raster*. Dans un système d’information géographique, les objets peuvent être représentés selon les cas par des points, des lignes ou des surfaces. Il s’agit de conventions : par exemple, un édifice religieux pourra n’être représenté que par un point, visible sous forme de symbole, pour indiquer de façon simple sa localisation approximative dans l’espace. Mais si l’on connaît son emprise exacte au sol, on pourra également le dessiner sous forme de surface (polygone). Le vecteur permet un changement d’échelle sans changement de résolution*, car tout objet vecteur se ramène mathématiquement à des ensembles de points sans superficie. Cette apparence est cependant trompeuse, car une couche vecteur est limitée par sa propre précision topographique, ce qui invite à ne pas confondre résolution et précision.
  • Vectorisation  : procédé permettant de passer d’une image raster* à un objet vecteur*. On distingue la vectorisation manuelle, qui fait appel à un opérateur interprétant lui-même l’image source, et la vectorisation automatique, mettant en œuvre des algorithmes de reconnaissance de formes, préalablement conçus et étalonnés en fonction des documents sources et des objectifs recherchés.
  • Webmapping  : mise en ligne du système d’information géographique et plus largement de cartes*, permettant leur diffusion à travers le web (réseau internet). En général, les fonctions de manipulation de ces données géographiques accessibles par le web sont un sous-ensemble, plus ou moins étendu, des fonctions d’accès gérées par l’administrateur de données*. Les droits d’accès aux fonctions accessibles par le web sont également gérés par l’administrateur de données, assisté par un webmaster, qui prendra spécifiquement en charge les interfaces et, plus largement, les services web du site à partir duquel se fait l’accès au système d’information.