Blog

Combinación de Encuestas

  • ¿En qué contextos conviene combinar varias encuestas en una sola?
  • ¿Cómo reducir costos cuando se tienen que realizar varias encuestas?

Existen varias razones por las que la combinación o articulación de encuestas podría presentarse como una solución. Vale la pena hacer una exploración de aquellas situaciones en las que esta medida puede funcionar. Asimismo, es útil dar cuenta de aquellas limitaciones o riesgos de tal combinación.

Las siguientes son algunas de las situaciones en donde la combinación de encuestas podría presentarse como una opción:

  • Se tienen varias encuestas programadas, en las que la población objetivo es la misma, si no es la misma, al menos las unidades muestrales pueden ser las mismas. Por ejemplo, pueden tenerse dos poblaciones objetivo: escuelas y alumnos, y como unidades muestrales comunes a las escuelas. En este ejemplo se podrían levantar ambas encuestas utilizando una misma muestra de escuelas, compartiendo parte del operativo de levantamiento de información en campo, y aplicando de manera simultánea los instrumentos de medición tanto de escuelas cómo de alumnos.
  • Se tienen varios cuestionarios o conjuntos de preguntas a realizar, de diferente temática relacionada, y la población objetivo es la misma. Por ejemplo, interesa conocer información de consumo de productos, y al mismo tiempo, interesa conocer la incidencia de consumo de piratería. En este ejemplo sería posible utilizar la misma muestra y el mismo campo, con un cuestionario ampliado.
  • Se tienen distintas poblaciones objetivo, a las que se les quiere medir atributos distintos, pero que tienen cierta conexión, e. g. unidades muestrales o geografía. Por ejemplo, interesan las poblaciones objetivo de madres, padres e hijos. A cada población se le preguntan diferentes cuestionarios pero se comparten unidades muestrales: los hogares. En este caso se puede utilizar la misma muestra y el mismo operativo de campo, con detalles específicos de procedimiento para aquellos casos donde en muestra sólo esté alguna de las poblaciones objetivo.
  • Alguna de las situaciones anteriores junto con la presencia de nuevas restricciones presupuestales, o restricciones de tiempo.
  • Alguna de las situaciones anteriores, adicionando la necesidad de información más integral, o inter-conectada, de las diversas poblaciones objetivo.

… usar el siguiente archivo PDF para continuar leyendo, ya que el texto contiene expresiones matemáticas que tuvieron que ser escritas en LaTeX …

2019_01_05_ed_1_0_Blog005_CombinacionDeEncuestas

Podado de Pesos Muestrales

  • Se tienen algunos elementos en la base de datos con mucho peso muestral ¿Cómo realizar un podado de pesos muestrales?
  • ¿Qué problemas pueden surgir con factores de expansión muy grandes para algunos elementos de la muestra?
  • ¿Qué alternativa se sugiere en lugar de recortar los factores de expansión cuando estos son muy grandes en algunos elementos?

Se tiene una base de datos muestral con un conjunto de factores de expansión o pesos muestrales w_k, que ya fueron ajustados mediante “raking”, post-estratificación, o algún método de calibración en general, e. g. Deming & Stephan (1940); Deville & Särndal (1992). Como resultado se observa que hay algunos elementos cuyos pesos muestrales son muy grandes.

Una muestra con algunos elementos muy pesados puede presentar los siguientes problemas (que se exacerban si se tienen tamaños de muestra no muy grandes):

  • Pueden aparecer inestabilidades al desagregar estimaciones, por ejemplo, cuando es necesario arrojar estimaciones para ciertos cruces, o para ciertas subpoblaciones.
  • Pueden generarse estimaciones con gran volatilidad en el tiempo, presentando brincos inexplicables en encuestas repetidas en el tiempo, o en encuestas tipo panel. Por ejemplo, si en un panel cierto individuo pesado cambia de opinión o no responde en cierta ola. De manera coloquial, es dar excesivo peso a los cambios que estén experimentando tales individuos pesados en el tiempo, o a su mera respuesta/presencia en las mediciones repetidas.
  • Pueden producirse conclusiones erróneas si se emplean técnicas estadísticas estándar, aquellas que parten del supuesto de que los datos muestrales provienen de una sucesión de variables aleatorias independientes idénticamente distribuidas (el supuesto v.a.i.i.d. de textos de Estadística). En general tales técnicas no contemplan pesos muestrales asimétricos.

Existen varios procedimientos ad hoc para tratar con individuos muy pesados, algunos de estos procedimientos podrían, de plano, percibirse muy subjetivos. El podado de pesos aparece en textos de Estadística como técnicas de “Winsorización”, para el manejo de observaciones atípicas, o para el robustecimiento de estimaciones. En literatura especializada de muestreo para el podado de pesos se remite a Potter (1988, 1990, 1993). Algunos métodos de podado buscan minimizar el error cuadrático medio, otros observan sólo la distribución de los pesos muestrales y a partir de esta se decide dónde podar; esto último, como el procedimiento que se describirá a continuación. También hay otras propuestas, como el colapsamiento de estratos, o el uso de modelos para suavizar la post-estratificación, al respecto algunos autores sugieren evitar llegar al punto de necesitar podar los pesos muestrales, y mejor implementar alternativas o ajustes en la propia construcción de los pesos. En Kalton & Flores-Cervantes (2003) es posible encontrar más información y más referencias al respecto de otras opciones metodológicas antes del podado de pesos. 

En el presente documento se propone el colapsamiento de estratos antes de editar los pesos muestrales. Si el colapsamiento no mitiga el problema, entonces se sugiere lo siguiente (e.g. Valliant et al., 2013):

  1. Definir cotas inferiores y superiores para los pesos w_k, i. e. un intervalo de admisibilidad de pesos. Estas cotas son generalmente arbitrarias y dependen de la agencia estadística y/o de precedentes históricos, e. g. 3.5 veces la mediana de los pesos.
  2. Cualquier peso por arriba o por debajo de las cotas se sustituye por la cota correspondiente.
  3. Determinar la suma K=\sum_{k\in s} |w_k - w_{k}^{podado}|, es decir, la suma del peso que fue recortado.
  4. Distribuir K de manera uniforme sobre aquellos elementos en muestra que no les fue podado el peso.
  5. Repetir los pasos 2 a 4 hasta que ningún peso salga del intervalo admisible definido por las cotas.

Posteriormente, si los pesos originalmente sumaban cierto total predefinido (alguna condición benchmark o de calibración), se tendrá que los recien podados pesos ya no. Algunos recomiendan re-calibrar; y, de ser necesario, podar y re-calibran de manera iterada. Otros sólo calibran una vez, pero de manera condicionada, usando medidas de distancia que restringen a los pesos, e. g. Tinajero & Eslava (2000); Kalton & Flores-Cervantes (2003).

En R la función trimWeights del paquete survey hace el podado de pesos descrito. Si se usa el argumento strict=TRUE, se implementa de manera recursiva hasta cumplir las cotas. Es importante mencionar que es mejor hacer esta parte iterativa que sólo truncar, sin cuidar qué pasa con la masa muestral recortada. Esto es similar al algoritmo de Chao (1982), pero con probabilidades de inclusión.

… usar el siguiente archivo PDF para continuar leyendo, ya que el texto contiene expresiones matemáticas que tuvieron que ser escritas en LaTeX …

2018_12_08_ed_1_0_Blog004_PodadoDePesosMuestrales

Ajuste de estimaciones sin modificar explícitamente los factores de expansión en una base de datos

  • ¿Cómo ajustar las estimaciones para cierta variable, sin crear nuevos factores de expansión que afecten las estimaciones con otras variables de la misma base de datos muestral?
  • ¿Es posible ajustar estimaciones sin ajustar explícitamente los pesos muestrales?
  • ¿Qué es mejor, tener varios factores de expansión ajustados ad hoc para la estimación de distintos parámetros o un solo conjunto de factores de expansión con un ajuste genérico?

Es común que las bases de datos muestrales contengan varias variables de interés. También, puede darse el caso que una base de datos contenga más de un conjunto de factores de expansión. Se pueden tener factores de expansión para diferentes tipos de unidad de análisis, o varios factores de expansión que están calibrados para diversas sub-poblaciones específicas.

Por ejemplo, puede darse el caso que la base de datos muestral contemple la medición de atributos de personas, y de viviendas. En este caso específico es deseable contar con al menos dos conjuntos de factores de expansión: uno para variables con información sobre individuos, y otro conjunto de factores de expansión aplicable a aquellas variables sobre viviendas. Así, es posible la generación de cifras en términos de individuos y en términos de viviendas.

Tener varios conjuntos de factores de expansión puede complicar el análisis de los datos, por lo que es recomendable tener pocas opciones de pesos muestrales, especialmente si la base de datos muestral se hará pública. En este sentido, es natural hacerse las preguntas con las que se inicia el presente documento.

A continuación se aborda la estimación de un total ajustando explícitamente los pesos muestrales y posteriormente se propone el ajuste no explícito de pesos, logrando con esto último evitar la creación de nuevos pesos muestrales.

 

… usar el siguiente archivo PDF para continuar leyendo, ya que el texto contiene expresiones matemáticas que tuvieron que ser escritas en LaTeX …

 

 

2018_12_04_ed_1_0_Blog003_AjusteDeEstimacionesSinModificarExplicitamenteLosFactoresDeExpansionEnUnaBaseDeDatos

Sobre los Factores de Expansión (¿Tienen que ser números enteros?)

  • En la base de datos de una encuesta, ¿los factores de expansión o pesos muestrales tienen que ser números enteros?

En algunas bases de datos de encuestas públicas, por ejemplo, aquellas realizadas por agencias de estadística oficial los factores de expansión o pesos muestrales suelen ser números enteros. Es natural preguntarse si esto último tiene que ser así cuando somos nosotros quienes estamos por publicar una base de datos muestral.

Sabemos que los factores de expansión contienen información importante sobre el diseño de muestreo que se empleó para la extracción de la muestra. Esta información determina cómo deben ser utilizados los datos recabados, es decir, nos señala el peso que debe tener cada observación.

También sabemos que los factores de expansión publicados, adicional a la información del diseño de muestreo, han experimentado ajustes o correcciones para mejorar las estimaciones que se generarán. Esta mejora tiene que ver, por ejemplo, con ajustar la cobertura de la encuesta, actualizar la información de la expansión, actualizar la información del marco muestral (la realidad contra lo que se tenía en el marco muestral al momento de extraer la muestra), o simplemente post-ajustes (calibración, post-estratificación, raking, e. g. Deming & Stephan (1940); Deville & Särndal (1992)) que se realizan para reducir el sesgo de la distribución muestral de los estimadores.

Es posible identificar los siguientes aspectos positivos que tiene el uso de factores de expansión enteros:

  • Facilita la comunicación de resultados. Es decir, permite simplificar la comunicación de cifras que suelen expresarse en números enteros, e. g. totales de personas, número de individuos con cierta característica, etcétera.
  • Hace consistentes las comprobaciones cruzadas de cifras estimadas, por ejemplo, al momento de generar estimaciones de mucha desagregación. Si se utilizaran datos fraccionales puede suceder que los agregados en una tabla de contingencia terminen redondeándose hacia arriba o hacia abajo, lo que podría generar inconsistencias en la publicación de varios tabulados, y simplemente las cuentas no sumen igual partiendo de diferentes desagregaciones.
  • Usando técnicas de estimación de cómputo intensivo el uso de cifras no enteras puede arrojar resultados distintos dependiendo del equipo de cómputo utilizado. En otras palabras, se podrían tener errores o discrepancias de cálculo computacional si se utilizan pesos sin redondeo. Estas discrepancias pueden afectar la consistencia de las cifras publicadas dependiendo de las precisiones de los procesadores. Por otro lado, si se utilizan pesos muestrales redondeados estos errores computacionales estarían acotados.

… usar el siguiente archivo PDF para continuar leyendo, ya que el texto contiene expresiones matemáticas que tuvieron que ser escritas en LaTeX …

2018_11_16_ed_1_2_Blog002_SobreLosFactoresExpansionTienenQueSerEnteros

Ajuste de Factores de Expansión (Tamaño de la Población)

  • En la base de datos de una encuesta, ¿la suma de los factores de expansión debe sumar el tamaño de la población?
  • ¿Cómo corregir los factores de expansión en la base de datos de una encuesta para que sumen el tamaño de la población?

Una forma de estimar el tamaño de la población, N, es sumando los pesos muestrales o factores de expansión, w_k, en la muestra s, por lo que ajustar los factores de expansión para que sumen cierto valor específico sería equivalente a utilizar pesos muestrales en presencia de post-estratificación o calibración, e. g. Deming & Stephan (1940); Deville & Särndal (1992); Särndal et al. (1992, p. 264).

Por ejemplo, bajo un enfoque de muestreo basado en diseño, considere una población finita U de tamaño N, denotada por las etiquetas de sus elementos como: U=\{1,\ldots,k,l,\ldots,N\}. Sea s una muestra probabilística de U de tamaño n, s=\{1,\ldots,k,l,\ldots,n\}\subseteq U, donde s es obtenida mediante un esquema de selección aleatorio descrito por la función diseño de muestreo p(\cdot). Supóngase que interesa la estimación del total poblacional,

t_y ~=~ \sum_{U} y_k,

y se busca que los pesos muestrales sumen exactamente N sería como estar utilizando el estimador de Hájek (1971) para un total, o bien, sería como estar utilizando un estimador de razón de un total donde la variable auxiliar es específicamente tamaño de la población, e. g. Särndal et al. (1992, p. 180). Es decir,

\hat{t}_{y[Hajek]} ~=~ \frac{N}{\widehat{N}}~\hat{t}_y,

donde

\hat{t}_y ~=~ \sum_{k\in s} w_k~y_k,

es el estimador de Narain (1951); Horvitz & Thompson (1952) del total t_y, y

\hat{N} ~=~ \sum_{k\in s} w_k,

es un estimador del tamaño de la población N, donde los pesos muestrales,

w_k ~=~ \frac{1}{\pi_k},

son el inverso de las probabilidades de inclusión \pi_k de que el elemento k-ésimo esté en muestra, y que son inducidas por la mencionada función diseño de muestreo p(\cdot).

Notar que todo lo anterior podría verse también como la creación de un “nuevo” conjunto de pesos muestrales \tilde{w}_k, que están normalizados y que suman exactamente N, definidos como:

\tilde{w}_k~=~N~\frac{w_k}{\hat{N}}~=~\frac{N~w_k}{\sum_{k\in s} w_k}.

De tal suerte que es posible estimar a t_y utilizando el estimador \hat{t}_{y[Hajek]} re-escrito como:

\hat{t}_{y[Hajek]} ~=~  \sum_{k\in s}\tilde{w}_k~y_k,

que tiene la misma forma que el estimador \hat{t}_y de Narain-Horvitz-Thompson pero utilizando el “nuevo” conjunto de pesos muestrales \tilde{w}_k.

Es relevante mencionar que el estimador \hat{t}_{y[Hajek]} es no lineal, ya que involucra al cociente de dos estimadores, \hat{t}_y y \hat{N}, por lo que la estimación de su varianza no puede hacerse de manera directa, para ello tendría que utilizarse alguna aproximación lineal o algún método de remuestreo. Esto se nota también observando que el conjunto de pesos muestrales \tilde{w}_k dependen de s, la muestra que se obtenga.

… usar el siguiente archivo PDF para continuar leyendo, ya que el texto contiene expresiones matemáticas que tuvieron que ser escritas en LaTeX …

2018_10_23_ed_1_3_Blog001_AjusteFactoresExpansionAlTamañoDeLaPoblacion