metadata.study_desc.method.data_collection.weight
Des coefficients de pondération ont étré calculés et ajoutés à chaque fichier de données.
Les coefficients de pondération pour les données sur les ménages ont été calculés comme étant l'inverse de la probabilité de sélection du ménage, calculée au niveau du domaine d'échantillonage (urbain/rural au sein de chaque région). Les pondérations des ménages ont été ajustés pour tenir compte des non-réponses au niveau de chaque domaine, et ont été normalisés par un facteur constant de façon à ce que le nombre total extrapolé de ménages égale le nombre total de ménages non-pondéré. La variable contenant le coefficient de pondération du ménage est nommée HHWEIGHT et utilisée avec les données des fichiers HH et HL.
Poids de sondage et estimateur de Horvitz et Thompson
Les notations présentées ci-après sont utilisées dans les formules qui donnent les probabilités de sélection et les poids de sondage des unités.
§ h désigne la strate dans un domaine d'étude ;
§ H est l'effectif total des strates du domaine d'étude ;
§ mh est l'effectif des UP (unités primaires) tirées dans la strate h ;
§ la strate h est composée de Mh unités primaires (UP) d'étiquettes 1, 2, …, Mh ;
§ l'unité primaire i de la strate h sera notée UPhi ;
§ Xhi désigne la taille de l'unité primaire UPhi ;
§ la taille Xhi est pour la base de sondage utilisée, l'effectif de la population de l'unité primaire UPhi ;
§ Xh désigne la somme des tailles Xhi des unités primaires UPhi et est défini par la relation
§ nh est le nombre constant de ménages à tirer au 2e degré de sondage dans la strate h.
Au premier degré, mh unités primaires (ou sections d'énumération) sont tirées de la strate h selon le mode de tirage systématique avec probabilités proportionnelles aux tailles des unités.
Au 2e degré, un segment est tiré de chaque unité primaire échantillonnée soumise à segmentation, par tirage systématique avec probabilités proportionnelles aux tailles des segments
Au 3e degré, un nombre constant n de ménages est tiré du segment échantillonné dans chaque unité primaire ou directement de l'unité primaire en cas de non segmentation. Le nombre nh est donc le même pour chaque unité primaire dans l'ensemble de la strate h. Il est fait appel à un sondage aléatoire simple sans remise.
Les notations ci-après seront observées :
§ Khir désigne l'effectif des ménages dans l'unité secondaire ou segment r échantillonné dans l'unité primaire UPhi , effectif obtenu après les opérations de mise à jour de la liste des ménages dans l'unité secondaire ou segment r ;
§ Phi désigne la probabilité d'inclusion de l'unité primaire UPhi (ou section d'énumération hi) dans l'échantillon du 1er degré ;
§ Pr.hi désigne la probabilité de sélection du segment r de l'unité primaire UPhi (ou section d'énumération hi) ;
§ Pj.hir désigne la probabilité de sélection du ménage j du segment r de l'unité primaire UPhi ;
§ Phirj désigne la probabilité d'inclusion du ménage j du segment r de l'unité primaire i de la strate h dans l'échantillon de l'enquête.
Probabilités d'inclusion et poids de sondage
Probabilité d'inclusion Phi
On montre que la probabilité Phi a pour expression
Probabilité de sélection d'un segment dans l'unité primaire
D'après le manuel de cartographie utilisé dans le cadre de l'enquête, un exemple de segmentation et de tirage aléatoire d'un segment est présenté aux pages 12 et 13. La méthode de tirage utilisé est celle du tirage systématique avec probabilités proportionnelles aux tailles des segments. On retrouve donc le même mode de tirage qu'au premier degré de sondage.
On désigne par qhi le nombre de segments à tirer parmi les segments définis dans l'unité primaire UPhi soumise à la segmentation.
La taille du segment r en terme de nombre de ménages sera notée Yhir tandis que Yhi désignera la taille de l'unité primaire segmentée en nombre de ménages.
Selon la relation précédente (2), la probabilité de sélection du segment r de l'unité primaire UPhi est définie par la relation
Mais, un seul segment est sélectionné dans l'unité primaire UPhi et on a qhi = 1. Il s'ensuit la relation suivante
En définitive, la probabilité Pr.hi n'est autre que la taille relative du segment r, soit Yhir/Yhi .
Probabilité de sélection du ménage j du segment r de l'unité primaire hi
La probabilité de sélection du ménage j du segment r de l'unité primaire UPhi a pour expression
2.4 Probabilité d'inclusion et poids de sondage d'un ménage j
La probabilité d'inclusion Phirj du ménage j du segment r de l'unité primaire i de la strate h dans l'échantillon de l'enquête a pour expression
D'où finalement
On en déduit le poids de sondage Whirj du ménage j du segment r de l'UP i de la strate h, soit
Estimation du total d'une variable y
On considère un échantillon e = {1, 2, ……, k, …, n} de taille n tiré d'une population U de N individus selon une méthode de tirage quelconque. Le total d'une variable d'étude y pour la population est la grandeur Y définie par la relation
(4)
où Yi est la valeur de la variable y pour l'individu i de la population, avec i = 1, 2, …….., N.
On cherche à estimer le total Y de la variable y à partir de e(y) = {y1, y2, ……, yk, ….., yn}, l'échantillon des observations de la variable d'étude y, yk étant l'observation relative à l'unité échantillonnée d'étiquette k. Horvitz et Thompson ont présenté en 1952 un estimateur linéaire sans biaisdu total Y valable pour tout plan de sondage. Il a pour expression
(5)
la somme étant étendue aux n individus k de l'échantillon e = {1, 2, ……, k, …, n}, désignant la probabilité d'inclusion de l'unité k de l'échantillon et yk , la valeur de la variable y pour l'unité k.
Cet estimateur est appelé p-estimateur ou estimateur de Horvitz-Thompson, ou encore estimateur par les valeurs dilatées.
La variable définie par l'inverse de la probabilité d'inclusion, soit par la relation , est le poids de sondage de l'individu d'étiquette k. L'estimateur de Horvitz-Thompson s'exprime en fonction du poids de sondage par la relation
Il apparaît comme un produit scalaire de l'observation yk et du poids de sondageassocié. On montre que si > 0, , estime sans biais le total Y.
Estimation d'un total dans l'enquête nationale MICS-ELIM 2010
Dans le cas où le poids de sondage respecte la formule (3), l'estimateur de Horvitz et Thompson pour le total Y d'une variable d'étude y a pour expression
(6)
L'estimation du total d'une variable d'étude est réalisée grâce à la formule (6). On déduit de l'estimateur du total, l'estimateur de la moyenne et partant, l'estimateur d'un effectif et celui d'une proportion.