L'échantillionnage

Introduction

Ce guide présente différentes techniques d’échantillonnage en exposant les manières de procéder au choix des répondants et en insistant sur les forces et les faiblesses de chacune des deux grandes familles des méthodes d’échantillonnage : les méthodes probabilistes et non probabilistes. Nous verrons aussi les facteurs à considérer pour choisir la technique d’échantillonnage qui convient le mieux à une recherche donnée. Cela se fera en s’inspirant des expériences vécues au sein des grands organismes.

Avant d’aborder les diverses techniques permettant de sélectionner un échantillon de la population que l’on veut étudier, il importe de se familiariser avec certains concepts fondamentaux relatifs à l’échantillonnage.  

Qu’est-ce que l'échantillonnage?  

L’échantillonnage est une étape de l’enquête par sondage. Dans la plupart des cas, au sein des grands organismes, l’utilisation de l’échantillonnage a pour but de dégager des conclusions sur une population étudiée (par exemple, les citoyens du Québec), et ce, en analysant une partie seulement de cette population, soit l’échantillon. Ainsi, l’échantillon lui-même n’est pas l’objet essentiel de l’enquête par sondage puisque les chercheurs vont plutôt s’intéresser « à ce qu’il est possible d’apprendre à partir de l’enquête et à la façon dont on peut appliquer cette information à l’ensemble de la populationCe lien ouvre un site externe dans une nouvelle fenêtre. [1] ». Parfois, cependant, étant donné des contraintes logistiques ou encore de coût, les méthodes d’échantillonnage retenues ne permettront pas une telle extrapolation des résultats, mais elles fourniront quand même de l’information sur la partie de la population qui aura participé à l’enquête.  

Principales méthodes d'échantillonnage  

Les méthodes d’échantillonnage se divisent en deux groupes : les méthodes probabilistes (ou aléatoires) et non probabilistes.  

Méthodes probabilistes  

Les méthodes probabilistes font appel au hasard afin que chaque élément de la population ait une probabilité connue et non nulle de faire partie de l’échantillon. La sélection des individus se fait de façon aléatoire et c’est ce qui permet d’utiliser les résultats pour inférer (ou généraliser) sur l’ensemble de la population. Les résultats sont alors accompagnés d’une mesure de variabilité, le plus souvent une marge d’erreur, aussi appelée erreur d’échantillonnage, qui reflète le risque d’erreur lié au fait que la mesure n’a été prise que sur une partie de la population. Pour pouvoir procéder à un échantillonnage probabiliste, il faut généralement disposer d’une base de sondage présentant la liste des individus dans la population visée.

L’utilisation d’une méthode probabiliste est souvent plus coûteuse que la méthode non probabiliste. En effet, elle est plus longue et plus complexe à planifier, exige généralement un plus grand nombre de participants, et le traitement des données visant à estimer les valeurs de la population à partir de l’échantillon nécessite le travail de spécialistes dans ce domaine. Par contre, elle constitue la seule méthode permettant d’étendre les résultats obtenus à l’ensemble de la population visée.

Voici quelques exemples d’échantillonnages probabilistes.  

Échantillonnage aléatoire simple  

Toutes les unités ont la même probabilité de faire partie de l’échantillon. Cette méthode est simple d’utilisation, mais n’est pas toujours la plus efficace, particulièrement si la population peut être divisée en groupes homogènes par rapport à la caractéristique étudiée.              

Échantillonnage stratifié  

Lorsque la population peut être séparée en groupes indépendants, mutuellement exclusifs (strates), qui présentent des caractéristiques communes, il peut être préférable d’utiliser un échantillonnage stratifié. Le sexe, l’âge, la région de résidence, le type de service utilisé sont des exemples de strates qui peuvent être étudiées. Ainsi, un échantillon sera tiré dans chacune des strates, par exemple un pour les femmes et un pour les hommes, en utilisant l’une ou l’autre des méthodes d’échantillonnage existantes.

Cette méthode est entre autres employée au sein des grands organismes pour garantir un nombre minimal de répondants à un sondage pour chacune des strates et pour éviter d’utiliser un mauvais échantillon qui exclurait une ou plusieurs strates. Cette méthode permet d’effectuer des analyses distinctes selon les différentes strates et de faire des comparaisons entre les sous-groupes de la population.  

Échantillonnage à plusieurs degrés  

Les firmes de sondage qui réalisent des enquêtes auprès de la population en général utilisent très souvent cette méthode. Celle-ci consiste à échantillonner d’abord une première unité de sondage (par exemple, un ménage correspondant à un numéro de téléphone fixe), puis une deuxième unité à l’intérieur de la première (un individu au sein du ménage).  

Méthodes non probabilistes  

L’échantillonnage non probabiliste consiste à prélever un échantillon de manière arbitraire, sans recourir à une base de sondage. Les techniques d’échantillonnage non probabilistes sont généralement peu coûteuses, rapides et faciles à appliquer. Cependant, elles ne permettent pas de faire de l’inférence (généralisation) sur l’ensemble de la population, car on ne peut pas déterminer la probabilité de sélection d’un individu, ce qui rend impossible le calcul d’estimations fiables et de l’erreur d’échantillonnage (ou la marge d’erreur).

Malgré tout, l’échantillonnage non probabiliste peut parfois être le seul type d’échantillonnage possible, entre autres lorsqu’il n’existe aucune base de sondage pour la population visée. Il peut aussi être très utile dans les cas où il n’est pas souhaité de faire de l’inférence sur l’ensemble de la population. C’est le cas, par exemple, lorsque l’on veut vérifier la compréhension d’un formulaire ou d’une lettre. L’objectif sera alors de détecter des problèmes et non d’évaluer le pourcentage de clients qui comprennent ou non le document.

Voici quelques exemples d’échantillonnages non probabilistes.  

Échantillonnage par quotas  

Cette méthode consiste à continuer de chercher de nouveaux répondants jusqu’à ce qu’un nombre déterminé (quotas) soit sélectionné dans diverses sous-populations. L’échantillonnage par quotas est un moyen d’atteindre des objectifs fixés pour ce qui est de la taille d’échantillon.  

Échantillonnage à participation volontaire  

Cette technique consiste à faire appel à des volontaires pour constituer l’échantillon. Dans les grands organismes, de tels sondages sont surtout utilisés pour connaître la satisfaction des internautes à l’égard d’un site Web, par exemple lorsqu’un questionnaire est mis à la disposition des gens visitant le site et que seuls ceux qui le veulent choisissent d’y répondre.  

Échantillonnage à l'aveuglette  

Les individus sont interrogés de façon arbitraire, sans aucune planification. Cette technique est couramment utilisée pour obtenir l’opinion de monsieur et madame Tout-le-monde. Bien que très populaire dans les médias, cette technique est rarement utilisée dans les grands organismes, car elle comporte de nombreuses lacunes quant à la qualité de l’information recueillie relativement aux objectifs habituellement poursuivis.

Échantillonnage probabiliste modifié  

Cette méthode, appelée ainsi par Statistique Canada, est régulièrement utilisée par les grands organismes. Elle consiste en fait en une combinaison d’échantillonnage probabiliste et d’échantillonnage par quotas. L’échantillon initial, qu’il soit constitué de clients ou d’individus dans la population en général, est sélectionné aléatoirement, selon une méthode d’échantillonnage probabiliste. Toutefois, afin de respecter des contraintes de coût, le nombre de répondants souhaité sera fixé par quotas, généralement au sein de strates prédéfinies.  

À surveiller :

Il existe des façons de faire qui permettent, dans l’échantillonnage probabiliste modifié, de minimiser l’effet du quota et de tendre le plus possible vers un échantillonnage purement probabiliste. Celle qui est souvent utilisée au sein des grands organismes consiste à exiger de la firme de sondage qu’elle emploie tout l’échantillon initial avant de terminer la collecte de données, et ce, même si le quota d’une ou de plusieurs strates a été atteint. Ainsi, tous les individus échantillonnés auront une chance semblable de répondre au sondage.

Le risque de cette méthode est que le nombre de répondants excède de beaucoup celui évalué en début de projet, ce qui se traduira par des coûts d’enquête supérieurs aux prévisions. Afin d’éviter cette situation, il est nécessaire de porter une attention toute particulière au calcul de la taille d’échantillon initial de façon à transmettre à la firme de sondage un échantillon le plus près possible de ce qui sera nécessaire pour atteindre les quotas visés. Il est important pour cela d’avoir une bonne estimation du taux de réponse et du taux d’admissibilité attendus.

Il est également possible de diviser l’échantillon initial en deux lots ou plus lors de l’envoi à la firme. Les consignes sont alors d’utiliser au départ seulement le premier lot. Le lot suivant ne sera utilisé que lorsque tous les efforts auront été faits pour obtenir des réponses des individus du lot précédent et que le nombre souhaité de répondants n’aura toujours pas été atteint.

HAUT

Applications

Cette section décrit les étapes requises pour établir un plan d’échantillonnage.  

Déterminer les besoins  

Cette étape est fondamentale puisqu’elle permet d’orienter adéquatement le sondage et, par conséquent, de choisir la technique d’échantillonnage la plus appropriée.

La nature de ce que l’on cherche à apprendre sur la population cible de même que l’utilisation qui sera faite de cette information sont des facteurs cruciaux dans le choix de la technique d’échantillonnage. Veut-on faire de l’inférence sur l’ensemble de la population? Certaines caractéristiques comme l’âge, le sexe ou la région ont-elles une influence sur la variable mesurée? Existe-t-il une liste exhaustive des personnes avec qui communiquer? Quels sont les budgets disponibles? Toutes ces questions et bien d’autres sont essentielles pour bien évaluer la meilleure méthode à utiliser.  

Définir précisément la population visée  

Avant de penser à une méthode d’échantillonnage, il est important de bien définir les unités qui feront l’objet de l’étude. Dans un contexte de mesure de satisfaction de la clientèle, il semble facile de déterminer que l’unité sera le client. Mais comment définit-on un client? Est-ce une personne qui a reçu un service en particulier, une personne étant entrée en contact avec l’organisme ou ayant eu un contact, que ce soit elle ou l’organisme qui ait entamé la démarche? Veut-on limiter la notion de client à celui qui a reçu le service dans une période de deux semaines, d’un mois, de six mois avant le sondage? Inclut-on ceux dont la demande a été reçue, traitée, acceptée, refusée?

Il est important que dans un projet tous les intervenants soient à l’aise avec la définition retenue et que celle-ci permette d’atteindre les objectifs du sondage.

Il faut également s’interroger sur les caractéristiques de la population visée pour déterminer l’intérêt ou non, par exemple, de mettre en place une stratification. Ainsi, il est important de s’informer sur l’influence possible de certaines variables, comme le sexe, l’âge, le type de service reçu ou autres, et sur la donnée d’intérêt du sondage, comme la satisfaction de la clientèle.  

Déterminer la précision voulue des estimations  

L’utilisation qui sera faite des données conditionne généralement les choix quant à la précision des estimations. Les données devront-elles être comparées entre elles selon les caractéristiques de la population? Veut-on suivre l’évolution de la mesure dans le temps? Quelle serait la conséquence d’une erreur dans l’estimation obtenue? Répondre à ces questions est crucial, car la précision souhaitée aura une grande importance sur la taille d’échantillon à retenir et donc sur les coûts du sondage.

La décision quant à la précision viendra aussi influencer le choix de la méthode d’échantillonnage puisque le calcul de la variance, et donc de la marge d’erreur, dépend du plan d’échantillonnage choisi. L’effet de plan est une mesure qui permet de comparer l’efficience d’un plan par rapport à un échantillonnage aléatoire simple. Idéalement, on vise à choisir un plan d’échantillonnage qui permettra de réduire la variance, ce qui correspond à un effet de plan inférieur à 1. Si le plan choisi produit plutôt une variance plus grande que ce qui aurait été observé avec un échantillon aléatoire simple, alors la taille d’échantillon devra être augmentée pour obtenir la précision souhaitée.  

Choisir la méthode d'échantillonnage  

La section Introduction présente quelques-unes des méthodes d’échantillonnage existantes et leur domaine d’application. Cette liste est toutefois loin d’être exhaustive. De nombreux ouvrages font des présentations complètes des méthodes; certains sont donnés en référence dans la bibliographie de ce guide. Le Ce lien ouvre un site externe dans une nouvelle fenêtre. document de Statistique Canada est particulièrement recommandé.  

Constituer une base de sondage  

Si les besoins exprimés mènent à la conclusion qu’un échantillonnage probabiliste est le meilleur choix, il importe de constituer une base de sondage, puisque c’est à partir de celle-ci que les unités de l’échantillon seront sélectionnées.

La base de sondage sera composée de la population de sondage, qui pourrait être différente de la population visée bien qu’il faille toujours viser à ce qu’elle en soit la plus près possible. Les écarts entre la population de sondage et la population visée s’expliquent principalement par l’impossibilité de lister l’ensemble de la population visée ou encore par les coûts trop élevés pour le faire.

Voici quelques moyens qui peuvent être utilisés pour constituer une base de sondage :

  • Sélectionner les unités d’échantillonnage dans les fichiers administratifs de l’organisme à partir des critères qui définissent la population visée.
  • Recueillir les coordonnées des clients qui ont utilisé le service faisant l’objet de l’étude à la suite de la prestation de services.
  •  Procéder à une génération aléatoire de numéros de téléphone. Dans ce cas-ci, on ne crée pas vraiment une base de sondage, puisque tous les numéros de téléphone ne sont pas générés afin d’en extraire un échantillon. On parle alors plutôt d’une base de sondage conceptuelle dans le sens où, sans avoir jamais été produite dans les faits, on sait qu’une telle liste pourrait exister et que la génération aléatoire est équivalente au fait de piger des numéros dans une base de données concrète.

HAUT

Exemples

Plan d'échantillonnage simple  

Mesure annuelle de satisfaction de la clientèle de la Régie des rentes du Québec  

L’objectif du sondage est d’évaluer la satisfaction de la clientèle du Régime de rentes du Québec et du Soutien aux enfants à l’égard de la prestation de services offerte par la Régie. Tous les types de services et de contacts avec la clientèle sont visés par cet exercice.  

La population de sondage a été définie comme étant les personnes qui avaient eu un contact « intense » avec la Régie au cours des deux mois précédant le sondage. Même si cette définition n’est pas aussi large que celle de la population visée, elle a été retenue pour deux raisons :  

  • Le sondage étant un événement ponctuel, il fallait limiter dans le temps la population de sondage de façon à ce que les gens puissent se souvenir du service qu’ils avaient reçu. Il est tenu pour acquis que la période en question devait être représentative du reste de l’année.      
  • Certains types de contacts, par exemple la réception d’un avis, sont des événements peu marquants pour le client. D’une part, plusieurs ne s’en souviennent pas et, d’autre part, certains n’ont pas vraiment l’impression d’avoir, par ce contact, reçu un service. Ils sont donc incapables de participer adéquatement au sondage. La notion de contact « intense » fait référence, entre autres, au fait de demander une rente, événement dont le client se souvient presque à tout coup. De plus, une telle action a la plupart du temps amené le client à utiliser plusieurs volets du service (consultation du site Web, appel téléphonique à la Régie, utilisation d’un formulaire, réception d’une lettre, etc.), ce qui le rend apte à évaluer différentes facettes de la prestation de services.                

La population a été stratifiée selon le type de clientèle (Régime de rentes et Soutien aux enfants) et, pour chaque strate, un échantillon aléatoire simple a été tiré. La méthode d’échantillonnage utilisée est l’échantillonnage probabiliste modifié, puisque le tirage de l’échantillon initial s’est fait par une méthode probabiliste (échantillonnage stratifié), mais qu’un quota était visé pour contrôler la taille d’échantillon finale. Le tableau suivant présente les résultats de la collecte de données.

Population de sondage, échantillon et répondants, selon les clientèles – 2011

 

 

 

Échantillon

Répondants

 Clientèle

Population de sondage

Transmis

à la firme

Utilisé par la firme

Accepte de répondre

Se souvient du contact

 RRQ

25 435

900

709

447

400

 SAE

22 201

900

710

437

400

 Total*

47 636

1 800

1 419

884

800

 

Source : Bernier, Francis, Ce lien ouvre un site externe dans une nouvelle fenêtre. Mesure annuelle de la satisfaction de la clientèle, Rapport 2011, Régie des rentes du Québec, p. 26.

Comme on peut le constater dans le tableau, la firme de sondage n’a pas utilisé tous les numéros transmis et a quand même réussi à atteindre le quota fixé à 400 répondants, ce qui atténue l’effet non probabiliste du quota.    

Plan d'échantillonnage complexe  

Satisfaction des bénéficiaires de la rente d'invalidité du Régime de rentes du Québec à l'égard du processus d'accompagnement lors d'un retour au travail  

L’objectif du sondage est d’évaluer la compréhension du nouveau document d’information envoyé annuellement, depuis mars 2010, aux bénéficiaires de la rente d'invalidité qui ont touché un certain revenu de travail (au moins 1 126 $ en 2010) au cours de l’année précédente. Il vise également à mesurer la satisfaction des clients à l’égard de la prestation de services des employés de la Régie des rentes du Québec dans le contexte de l’accompagnement offert aux personnes qui tentent un retour au travail après avoir été déclarées admissibles à la rente d’invalidité.  

La population ciblée par cette enquête est constituée des bénéficiaires de la rente d'invalidité qui ont reçu en 2011 le document d'information sur le retour au travail. La population de sondage correspondait à la population cible, à l’exception des personnes suivantes : celles avec des revenus de travail exclusivement autonomes et les bénéficiaires invalides qui sont administrés par un tiers. La liste des personnes qui ont reçu un document d'information en 2011 selon le fichier des bénéficiaires de la rente d'invalidité de la Régie des rentes du Québec, en date du 15 novembre 2011, a été retenue comme base de sondage. La population cible a ensuite été séparée en trois groupes :  

Groupe 1 :

Les bénéficiaires de la rente d'invalidité qui ont travaillé en 2010 et qui ne reçoivent plus la rente d'invalidité (pour cause d'un retour au travail).  

Groupe 2 :

Les bénéficiaires de la rente d'invalidité pour qui la rente est toujours en paiement, mais qui ont avisé la Régie d'un retour au travail.  

Groupe 3 :

Les bénéficiaires de la rente d'invalidité pour qui la rente est toujours en paiement et qui n'ont pas avisé la Régie d'un retour au travail. Les deux premiers groupes ont fait l’objet d’un recensement à cause de leur petite taille. Pour le troisième groupe, un échantillonnage stratifié proportionnel a été utilisé. Les 12 strates considérées ont été construites en fonction de l’âge (moins de 35 ans, de 35 à 44 ans, de 45 à 54 ans, 55 ans ou plus) et le sexe.

HAUT

Références

  • Amyotte, Luc (2002), Méthodes quantitatives, Applications à la recherche en sciences humaines, 2e édition, ERPI, 469 pages
  • Gauthier, Benoit (2009), Recherche sociale, de la problématique à la collecte de données, Presses de l’Université du Québec, 753 pages.
  • Grenon, Gilles et Viau, Suzanne (2012), Méthodes quantitatives en sciences humaines, De         l’échantillon vers la population, 4e édition, Chenelière Éducation inc., 406 pages.
  • Statistique Canada (2003), Méthodes et pratiques d'enquête, Ottawa, ISBN 978-1-100-95206-2,        434 pages[En ligne]. [http://www5.statcan.gc.ca/bsolc/olc-cel/olc-cel?catno=12-587-         x&lang=fra#olcinfopanel]        
    Ce lien ouvre un site externe dans une nouvelle fenêtre. Lire la suite
  • Statistique Canada (2011), [En ligne]. [http://recensement2011.gc.ca/ccr_r007-fra.htm#q1]       
    Ce lien ouvre un site externe dans une nouvelle fenêtre. Lire la suite   [1]Statistique Canada (2011), [En ligne].

HAUT