jeudi 27 avril 2017

Visualisation de données : de la théorie à la pratique

La beauté de l’information

J’ai eu la chance il y a 5 ans de visiter le Tate Modern de Londres, temple merveilleux de l’art contemporain. Dans la librairie du musée, parmi tous les livres d’histoire de l’art, de graphisme et de photographie disponibles, j’ai déniché Information is Beautiful, de David McCandless. Ce bouquin regroupe des dizaines d’infographies ébouriffantes que vous pouvez admirer sur le site éponyme, certains étant interactifs en prime. C’est donc en tant que fan finie que j’ai assisté à la présentation de ce journaliste, designer et graphiste, qui marquait l’ouverture du congrès. 
« Je vois ce que tu veux dire ». Selon McCandless, la visualisation des données (ou #dataviz) consiste à combiner les deux langages propres à la vision et au raisonnement, afin de donner de la profondeur et de la dimension aux données. Il y a bien sûr des lunes que la représentation des données repose sur un graphisme attrayant, mais on porte depuis quelques années une attention particulière à l’esthétisme du produit final afin d’attirer l’attention des lecteurs, d’établir des relations entre les données et de distinguer des tendances parmi des milliers de points d’information, le tout sans compromettre l’intégrité des données. La visualisation de données a pris son envol grâce à de nombreux outils, dont voici une compilation non exhaustive. Le designer décrit son objectif ultime comme étant de fournir du soutien cognitif aux décisions basées sur des données probantes.
David McCandless se distingue par le point de vue original des questions qu’il se pose; il admet d’ailleurs avoir un intérêt pour les sujets bizarres. Les films basés sur une histoire vraie reflètent-ils vraiment la réalité? Quel sont les liens entre l’état matrimonial des utilisateurs Facebook et le moment de l’année? Est-ce que les horoscopes prédisent tous la même chose? La réalisation de chaque visualisation peut prendre plusieurs mois de travail. Ultimement, une bonne représentation visuelle s’appuiera sur quatre éléments : 1) de bonnes données; 2) un design approprié; 3) une histoire ou un concept accrocheur; 4) un objectif clair.

The Data ‘Shop: Gangway for a Crash Course in Data Visualization! 

Je me suis inscrite à cet atelier avec pour objectif de faire une ninja de la visualisation de données de moi-même, espérant aller au-delà des graphiques en pointe de tarte. Comme je viens tout juste d’analyser les citations des publications de 2015 et 2016 des chercheurs de la Faculté de médecine dentaire (FMD), je voulais aussi découvrir des façons de rendre mon rapport plus agréable à lire. La présentation, les fichiers de données et les étapes à suivre de cet atelier sont disponibles ici. Il faut installer les logiciels libres OpenRefine et Tableau Public au préalable.
Une courte présentation nous a d’abord proposé des trucs pour optimiser des graphiques de base. C’est fou comment de simples principes de design peuvent rendre un graphique plus attrayant : trier les données en ordre croissant, utiliser une seule couleur pour focaliser sur un point de données en particulier, varier l’intensité de la couleur… Dans le graphique suivant, à l’origine, j’avais utilisé une couleur vive différente pour chaque série et mes pointes de tarte étaient triées selon le nombre de citations plutôt qu’en ordre croissant de nombre de périodiques cités. Je pense que le message est plus clair maintenant!


Distribution des citations de périodiques dans les publications de la FMD (2015-2016) et arrimage avec les collections UdeM pour les titres cités 5 fois ou plus.
Malheureusement, un problème avec le sans-fil du Centre des congrès nous a empêchés de nettoyer un ensemble de données avec OpenRefine. Cependant, j’ai pu refaire les étapes ici et constater que j’aurais pu économiser pas mal de temps en exportant ma base de données EndNote de citations dans Excel, puis utiliser OpenRefine afin d’uniformiser les titres de périodiques cités. On le saura la prochaine fois!
Ensuite, nous avons exploré quelques fonctionnalités de Tableau Public. (Important : la sauvegarde se fait sur un serveur en accès libre, donc ne pas y déposer des données à diffusion restreinte!) Tout en étant assez facile d’utilisation, Tableau a un potentiel fantastique pour faire parler un ensemble complexe de données (voir une vidéo); je pense par exemple aux statistiques du BCI, qui se résument à de longs tableaux sans saveur. J’avais justement un tableau insipide sur les facultés de médecine dentaire canadiennes à insérer dans un article collaboratif en préparation... Voyez comment il prend vie ici! Chaque point de données est cliquable.
J’ai aussi essayé de faire une représentation de type treemap avec Tableau pour présenter le regroupement en 6 catégories des 85 périodiques cités 10 fois ou plus dans les publications 2015-2016 de la FMD, mais il me faudra explorer davantage les options d’affichage pour obtenir un résultat satisfaisant. Voici ce que j’avais obtenu en bidouillant d’abord avec Excel 2016. La grosseur des blocs est proportionnelle au nombre de citations. Les différents axes de recherche de la Faculté y sont bien mis en évidence.

Périodiques cités 10 fois ou plus dans les articles de la FMD, 2015-2016.
Enfin, nous avons brièvement exploré l’outil d’analyse de textes numériques Voyant. Ceux qui connaissent déjà les nuages de tags créés par Wordle seront heureux de pouvoir analyser des textes plus longs au moyen de fonctionnalités plus variées. Je vais d’ailleurs illustrer la page couverture de mon rapport avec un Wordle des mots courants dans les titres d’articles publiés par les chercheurs de la FMD!

Engaging Faculty in Collection Strategies with Data Visualizations

Vous arrive-t-il parfois de ressentir un *tilt* dans votre cerveau?! Voici mon moment de grâce du congrès. Une idée toute simple de Beth Bohstedt, mais il fallait y penser : diffuser les statistiques des collections auprès des enseignants au moyen d’une infographie, où les données sont mises en valeur grâce à la visualisation.


Photo : @MissReadings sur Twitter
Je pourrais faire de même avec mes données de citation, au lieu de produire seulement un rapport détaillé! Outre Tableau, la présentatrice a utilisé Canva, Piktochart et Venngage. On va regarder ça plus attentivement! Vous comprendrez que je suis revenue ravie de mes expériences en visualisation de données à l’ACRL.

Aucun commentaire: