Méthodologie appliquée pour réaliser la synthèse des revendications

Les Gilets Jaunes Les Gilets Jaunes, le 26 novembre 2018 | 2 commentaires

 

Cette publication a pour objectif de vous expliquer la méthodologie que nous appliquons pour traiter, qualifier, dédoublonner et catégoriser toutes les revendications publiées sur la plateforme depuis le 27 novembre, afin d’en extraire une synthèse claire et lisible par tous qui sera publiée le 7 décembre.

Publication des données brutes

Tout d’abord, nous allons mettre à disposition un fichier contenant toutes les données brutes récoltées (sauf les adresses email des inscrits) pour que chacun puisse vérifier et contrôler l’authenticité et la cohérence des données.

Regroupement des revendications similaires

La première étape consistera à regrouper toutes les revendications parlant des mêmes sujets. Pour cela, nous allons affecter une ou plusieurs “étiquettes” à chaque revendication.
Un étiquette équivaut à un sujet de revendication unique.

Chaque étiquette cumulera les votes de toutes les revendications rattachées.
Cela signifie que si plusieurs revendications différentes portent sur le même sujet, celui-ci cumulera les votes de toutes les revendications.

Par exemple, si un sujet est cité dans les 3 revendications suivantes :
R1 : 10 votes
R2 : 78 votes
R3 : 2 votes

Alors ce sujet (étiquette) obtiendra la somme des votes des 3 contributions, soit 90 votes.

 

De plus, si une même contribution porte sur plusieurs sujets différents, alors nous reportons le nombre de votes qu’a receuilli cette contribution sur tous les sujets.

Par exemple, si une contribution qui a récolté 20 votes porte sur 4 sujets distincts, alors les 4 sujets (étiquettes) verront leur nombre total de votes augmenter de 20 votes chacun.

Catégorisation des revendications

La deuxième étape de notre travail consistera à vérifier que chaque étiquette est classée dans la bonne catégorie (ex: Vie chère, Taxes, Santé, Logement, etc.).

Publication des données qualifiées

Nous mettrons à disposition deux fichiers contenant les données qualifiées suite aux précédentes étapes.

Le premier fichier contiendra l’ensemble des contributions avec une colonne « nb_vote » indiquant le nombre de votes récoltés, ainsi qu’un champ « tag_title » indiquant le sujet attaché.

Nom du champ

Description du champ

proposal_id

Identifiant unique de la contribution

proposal_title

Titre de la contribution

proposal_description

Description de la contribution

proposal_link

Lien vers la contribution sur la plateforme

nb_vote

Nombre de votes reçus par la contribution

tag_title Titre de l’étiquette attachée (sujet de revendication)

 

Le deuxième contiendra la liste des sujets de revendication (étiquettes) avec la catégorie attachée et le nombre de votes cumulés.

Nom du champ

Description du champ

tag_title

Titre de l’étiquette (unique)

tag_category_name

Catégorie de l’étiquette

nb_vote

Nombre de votes de l’étiquette

Publication de la synthèse

Nous publierons la synthèse des revendications sous plusieurs formes comme par exemple :

  • Une cartographie complète intégrant l’ensemble des revendications groupées par catégories et étiquettes
  • Des classements de type “Top 10 des revendications”, au niveau global et par catégories, pour identifier rapidement les revendications les plus exprimées par les contributeurs
  • Nuage de mots, pondéré selon les votes, pour visualiser rapidement les sujets les plus importants selon les contributeurs