Comment analyser vos données de sondage ?

Vos réponses sont arrivées, votre plan pour exploiter vos données est prêt, place maintenant à l’analyse proprement dite !

Quand l'analyse devient un jeu d'enfant...

Votre sondage en ligne est enfin terminé : vous avez recueilli vos résultats statistiques et défini votre plan d’analyse des données, il est maintenant temps de s'y mettre ! Analyse des réponses, hiérarchisation des questions et objectifs de sondage ou encore conversion des nombres bruts en statistiques parlantes et formulation de conclusions, découvrez comment nos spécialistes interprètent les données quantitatives.

L'analyse des résultats devient un jeu d'enfant avec SurveyMonkey

Envie de vous lancer ?

Commencez à analyser vos résultats en 4 étapes simples :

  1. Concentrez-vous sur les questions les plus importantes de votre sondage
  2. Recoupez et filtrez vos résultats
  3. Calculez vos statistiques
  4. Formulez vos conclusions

Identification de vos questions principales

Avant toute chose, découvrons comment calculer les résultats d’un sondage à partir de vos questions principales. Avez-vous posé des questions empiriques ? Avez-vous envisagé un échantillonnage aléatoire ? Vos questions principales sont généralement celles qui font surface lorsque vous définissez l’objectif de votre sondage.

Imaginons, vous avez organisé une conférence sur l’éducation et soumis aux participants un sondage d’évaluation post-événement. L’une de vos questions principales pourrait ressembler à : « D’une manière générale, comment avez-vous trouvé la conférence ? » Vous pouvez ensuite vous intéresser aux réponses aux questions plus spécifiques, liées à cette question principale, par exemple :

Comptez-vous participer à cette conférence l’an prochain ?

Choix de réponse
Oui71 %852
Non18 %216
Je ne sais pas11 %132
Total1 200

Notez que les réponses apparaissent sous forme de pourcentages (71 %, 18 %) et de chiffres bruts (852, 216).

Chaque pourcentage exprime simplement le ratio entre le nombre de participants ayant donné cette réponse et le nombre de participants ayant répondu à la question. Ainsi, 71 % des participants au sondage (soit 852 personnes sur les 1 200 interrogées) envisagent de revenir l’année prochaine.

Ce tableau indique également que 18 % des participants n’envisagent pas de revenir et que 11 % ne savent pas.

Recoupement et filtrage des résultats

Au moment de définir l’objectif de votre sondage et votre plan d’analyse des données, vous avez peut-être déjà réfléchi aux sous-groupes que vous vouliez analyser et comparer. Et vous avez bien fait ! Reprenons notre exemple de conférence sur l'éducation : vous souhaitez comparer les réponses des enseignants, des étudiants et des administrateurs à la question sur la conférence de l’année prochaine ? Il vous suffit d'utiliser un tableau à double entrée et d'y représenter les réponses par sous-groupe :

OuiNonJe ne sais pasTotal
Enseignants80 %
320
7 %
28
13 %
52
400
Administrateurs46 %
184
40 %
160
14 %
56
400
Étudiants86 %
344
8 %
32
6 %
24
400
Total des participants8522161321 200

Ce tableau montre qu’une grande majorité des étudiants (86 %) et des enseignants (80 %) ont prévu d’assister à la prochaine conférence mais que la donne est différente pour les administrateurs, qui ne sont que 46 % à souhaiter revenir ! Les réponses à vos autres questions vous aideront certainement à comprendre les raisons de cette différence et à identifier les points à améliorer pour que plus d’administrateurs aient envie de revenir chaque année.

Les filtres sont également très utiles pour modéliser les données. En effet, ils vous permettent de vous concentrer sur un sous-groupe et de faire abstraction des autres pour être dans l'analyse d'une population spécifique plutôt que dans la comparaison. Vous pouvez par exemple vous concentrer sur les femmes, puis effectuer une nouvelle analyse croisée par catégorie de participantes pour comparer les réponses des administratrices, des enseignantes et des étudiantes. Gardez cependant à l'esprit que chaque fois que vous appliquez un filtre ou effectuez une analyse croisée, la taille de votre échantillon diminue. Pour vous assurer que vos résultats restent statistiquement significatifs, pensez à notre calculatrice de taille d’échantillon !

Étalonnages, tendances et comparaisons

Ne nous arrêtons pas en si bon chemin avec notre exemple de conférence. À la question : « D’une manière générale, êtes-vous satisfait de la conférence ? », vous obtenez 75 % de participants satisfaits. Félicitations, parfait, mais n'aimeriez-vous pas avoir un peu de contexte ? Des points de comparaison ? Savoir si c’est mieux ou moins bien que l’année dernière ? Mieux ou moins bien que d’autres conférences ?

Supposons que vous ayez posé cette question lors de votre sondage d’évaluation après la conférence de l’an dernier, vous pourriez alors comparer des tendances, toujours plus parlantes qu'une statistique brute.

Par exemple, le taux de satisfaction pour la conférence de l’an dernier était de 60 % ; félicitations, vous avez donc 15 % de conférenciers heureux de plus cette année ! À quoi attribuer cette progression ? Jetez un œil aux réponses obtenues aux autres questions du sondage !

Si vous ne disposez pas de données sur les conférences précédentes, faites de cette année le point de référence à partir duquel vous évaluerez chacun des prochains événements. C’est ce que l’on appelle le benchmarking. Vous fixez un point de référence qui vous permet de comparer vos résultats et d'en mesurer l'évolution. Ne vous limitez pas à la satisfaction des participants ; ce suivi à intervalles réguliers, également appelé étude longitudinale, peut être effectué avec de nombreuses questions.

Vous pouvez même mener une étude longitudinale pour vos différents sous-groupes. Supposons que le taux de satisfaction des étudiants et des enseignants augmente d’année en année, mais pas celui des administrateurs. Il peut être intéressant d’étudier les réponses des administrateurs à vos différentes questions pour avoir une idée plus précise des raisons de leur relative insatisfaction.

Calcul des statistiques

Vous savez combien de participants ont l'intention de revenir, mais comment vous assurer que les réponses à votre sondage sont suffisamment fiables et exploitables pour éclairer vos futures décisions ? C'est là toute l'importance de la signification statistique et de ses composantes pour la qualité des données.

Dans l’usage courant, le mot « significatif » est synonyme d’important ou sérieux. En statistiques et dans les analyses de sondage, il est synonyme de « représentatif » (avec un sens de précision). Et c’est là qu’intervient l’inévitable « plus ou moins ». Cela signifie plus particulièrement que les résultats du sondage sont exacts à un certain niveau de confiance et qu’ils ne sont pas dus au hasard. Évitez de tirer des conclusions à partir de résultats imprécis (c’est-à-dire qui ne sont pas statistiquement significatifs). Le premier facteur à prendre en compte pour évaluer la signification statistique est la représentativité de votre échantillon, c’est-à-dire dans quelle mesure le groupe de personnes interrogées « ressemble » à la population totale que vous étudiez.

Par exemple, vous avez un problème de représentativité si 90 % des participants à votre sondage sont des hommes, mais que seulement 15 % de l’ensemble de votre auditoire était de sexe masculin. Plus vous en savez sur la population que vous sondez, plus vous pourrez être confiant(e) quant à la fiabilité des résultats statistiques obtenus. Dans cet exemple, un échantillon représentatif inclurait seulement 15 % de répondants pour 85 % de répondantes.

Si votre échantillon de sondage est sélectionné de manière aléatoire à partir d'une population connue, le calcul de la signification statistique est simple. Le facteur important ici est la taille de l’échantillon. Si 50 personnes sur les 1 000 ayant assisté à votre conférence ont répondu au sondage, votre échantillon est limité, ce qui se traduit par une marge d’erreur élevée. En d’autres termes, vos résultats ne seront pas très fiables.

Imaginons, vous avez demandé à vos participants le nombre de sessions auxquelles ils ont assisté sur les 10 proposées pendant la conférence, et avez obtenu les résultats suivants :

12345678910TotalNombre moyen
Nbre de sessions suivies 10 %
100
0 %
0
0 %
0
5 %
50
10 %
100
26 %
280
24 %
240
19 %
190
5 %
50
1 %
10
1 0006,1

Il est tentant de calculer la moyenne de sessions par participant, mais laquelle ? Il existe en effet 3 types de moyennes : la moyenne arithmétique, la médiane et le mode.

Le tableau ci-dessus présente le nombre moyen de sessions auxquelles les participants ont assisté : 6,1. Il s’agit de la moyenne arithmétique, sans doute la plus connue. Pour la calculer, vous additionnez le nombre total de sessions fréquentées par tous les participants cumulés et divisez le total par le nombre de participants. Dans cet exemple faites le calcul [100 personnes x 1 session + 50 personnes x 4 sessions + 100 personnes x cinq sessions, etc.] et divisez le tout par le nombre total de participants.

La médiane correspond quant à elle à la valeur du milieu, celle de la barre des 50 %. Pour la déterminer dans le tableau ci-dessus, il faudrait additionner les nombres de participants en partant de la gauche et s'arrêter sur le nombre de sessions avec lequel on franchit les 500 personnes, ici six sessions. Cette statistique peut être utile pour éliminer l’influence des valeurs aberrantes, susceptibles de compromettre les données.

Le dernier type de moyenne est le mode. Il correspond simplement à la réponse la plus fréquente. Ici le mode est 6 car 260 participants au sondage ont assisté à six sessions. C'est plus de participants que pour n'importe quel autre nombre de sessions.

Vous pouvez également utiliser les moyennes arithmétiques et autres types de moyennes lorsque vous analysez des résultats d'échelles de Likert.

Formulation de conclusions

Vous devez présenter les résultats de votre sondage ? Demandez-vous quelle histoire racontent vos données.

Imaginons que votre conférence ait obtenu une note générale médiocre. Vous voulez savoir pourquoi. Vos données montrent que les participants ont attribué de très bonnes notes à presque tous les aspects de votre conférence (le contenu des sessions, les activités sociales et l’hôtel), mais qu'ils n'ont pas aimé la ville retenue. Ils ont par exemple mentionné qu'il faisait trop froid pour sortir ! Moralité : excellente conférence dans l’ensemble, mais erreur sur Strasbourg. Pour une conférence en plein mois de janvier, Biarritz ou Marseille serait sans doute un choix plus judicieux.

L'un des éléments à garder à l'esprit lorsque vous analysez et présentez vos données est la différence entre causalité et corrélation.

Analysez votre prochain sondage avec SurveyMonkey

Annexe

Qu’est-ce que la collecte de données par sondage ?

La collecte de données par sondage consiste à utiliser des sondages pour recueillir des informations fournies par un groupe de personnes spécifique. Elle peut avantageusement remplacer d'autres moyens de collecter des données tels que les entretiens ou les groupes de discussion pour par exemple booster l’engagement des employés, mieux comprendre le comportement des consommateurs ou encore améliorer l’expérience client.

Qu'est-ce qu'une étude longitudinale ?

L’étude longitudinale (ou « analyse de tendances ») consiste essentiellement à suivre la façon dont les réponses à des questions particulières évoluent au fil du temps. Après avoir défini un point de référence, vous pouvez déterminer si les valeurs évoluent et dans quelle mesure. Par exemple, le taux de satisfaction pour votre conférence était de 50 % il y a trois ans, de 55 % il y a deux ans, de 65 % l’an dernier et de 75 % cette année. Félicitations pour cette belle progression ! L’étude longitudinale de vos résultats montre une solide tendance à la hausse.

Quelle est la différence entre corrélation et causalité ?

La causalité signifie qu’un facteur en entraîne un autre. La corrélation implique que deux variables évoluent ensemble, mais sans que l’une influence ou induise l’autre. Par exemple, boire un chocolat chaud et porter des mitaines sont deux variables corrélées. Elles tendent à monter ou descendre ensemble. Cependant, l’une ne provoque pas l’autre. En fait, elles sont toutes deux causées par un troisième facteur, le froid. Le froid influe à la fois sur la consommation de chocolat chaud et sur la probabilité de porter des mitaines. Le froid est la variable indépendante, tandis que la consommation de chocolat chaud et la probabilité de porter des mitaines sont les variables dépendantes. Dans le cas de notre sondage d’évaluation de la conférence, le froid a probablement influencé le fait que les participants n’ont pas apprécié la ville choisie et la conférence en général. Enfin, pour examiner de plus près la relation entre les variables dans votre sondage, vous aurez peut-être besoin d’effectuer une analyse de régression.

Qu’est-ce qu’une analyse de régression ?

L’analyse de régression est une méthode avancée de visualisation et d’analyse des données qui permet d’étudier la relation entre deux variables ou plus. Il existe plusieurs types d’analyse de régression et le type choisi par un expert en sondage dépendra des variables qu’il étudie. Mais tous ont en commun d’étudier l’influence d’une ou plusieurs variables indépendantes sur une variable dépendante. Au cours de l’analyse de nos données de sondage, nous aurons peut-être envie de connaître les facteurs qui ont eu le plus d’impact sur la satisfaction des participants à la conférence. S’agit-il du nombre de sessions ? Du conférencier principal ? Des activités sociales proposées ? Du lieu choisi ? L'analyse de régression permet de déterminer si, et dans quelle mesure, la satisfaction liée à ces différents aspects de la conférence contribue à la satisfaction générale.

Cela offre alors une idée plus précise des aspects de la conférence à modifier pour la prochaine fois. Imaginons que vous ayez grassement rémunéré un conférencier de renom pour qu’il assure l’ouverture de votre conférence et que les participants aient attribué de bonnes notes à ce conférencier et à la conférence dans son ensemble. Vous pouvez être tenté(e) d'en déduire qu'un conférencier de qualité (et gourmand) est la clé pour une conférence réussie. Une analyse de régression vous aidera à vérifier cette hypothèse. Si elle confirme que la popularité de l’orateur a été déterminante dans la satisfaction des participants, vous pourriez être amené(e) à renouveler l'expérience l'année prochaine. En revanche, si l’analyse de régression montre que, même si les participants ont apprécié le conférencier, ça n'a pas été un facteur prépondérant au moment d'évaluer la conférence dans son ensemble, songez à répartir votre budget différemment pour votre prochaine conférence. C'est l'analyse poussée des données de sondage et de leur pertinence qui vous aidera à prendre des décisions éclairées.