martes, julio 03, 2012

Centésimo quicuagésimo sexto - Conteo Rápido -

Como ya todos saben, el mundo se va a acabar en el 2012 porque Peña Nieto ganó y en diciembre que tome posesión va a presionar el botón rojo de autodestrucción que todos los presidentes tienen y que nadie debe presionar, pero a él le dará curiosidad.

El punto de aquí es que ayer que el IFE anunció los resultados muchos twitteros se levantaron como si tuvieran un cohete en el culo a reclamarle al IFE, a Calderón y a Peña que no mamaran, que cómo es posible que con apenas unas cuantas casillas contadas ya se declararan un ganador.

Eso, mis queridos y teóricos lectores se llama inferencia estadística. Y en resumen significa que los que estudian matemáticas (teoría de la probabilidad, estadística descriptiva y estadística inferencial) son tan cabrones que con unos cuantos datos pueden predecir con un nivel de confianza tan alto que te cagas, cómo se comportará toda la población evaluada.

Y esto no tiene nada que ver con Madame Zazú, ni con Walter Mercado, ni con que el IFE está del lado de Peña. Tiene que ver con ciencia. Pura, dura y larga ciencia.

A continuación, trataré de explicar cómo funciona el mecanismo de conteo rápido, que fue el que usó el IFE para dar el resultado ayer.

Advertencia: Este post está lleno de matemáticas y ecuaciones.

Según la página del IFE, el conteo rápido es

procedimiento estadístico diseñado con la finalidad de estimar con oportunidad las tendencias de los resultados finales de una elección, a partir de una muestra probabilística de casillas, cuyo tamaño y composición se determina previamente de acuerdo a un esquema de selección específico.

Esto es posible utilizando dos teoremas muy conocidos en la teoría probabilística:

1.- La ley de los "números grandes" y
2.- Teorema del Límite Central.

Estos dos teoremas aplicados al mismo tiempo, tienen implicaciones importantes que precisamente ayudan a esta onda del conteo rápido.
1.- Debido a que $$P\left( \lim_{n \rightarrow \infty} \bar{X}_n = \mu \right) = 1$$ es menos probable que un resultado individual exepcional afecte el promedio y
2.- Mientras mayor sea el número de observaciones, es más probable que el conjunto de datos produzca una distribución que corresponda a una curva conocida (que para este caso particular, NO es precisamente una curva normal).

Ahora bien. Para que el teorema del límite central sea válido, es necesario algunas cosas. La más importantes de ellas son las siguientes:

a) Debe tener varianza finita.
b) Deben ser idénticamente distribuídas.

Debido a esto, los puntos a considerar para el estudio deben ser seleccionados completamente al AZAR y únicamente al AZAR, para que el resultado de la muestra sea representativo del total de la población. Es por esto que el IFE hizo tanto grito cuando dijo que había elegido 7500 casillas al azar (más adelante veremos por qué 7500). En la práctica, el que una muestra se tome al azar (random) significa que la probabilidad de que una muestra sea seleccionada de la población sea EXACTAMENTE la misma que la de cualquier otra muestra sea seleccionada.

Un parámetro adicional que es importante para los estadistas es el nivel de confianza.  El nivel de confianza tiene que ver en cómo una muestra se relaciona con la población. Mientras más confianza se requiera para que una muestra refleje la distribución de la población, más grande tiene que ser esta muestra (debido al teorema de los números grandes).
Para los que saben de esta onda, casi siempre se escoje 95% de nivel de confianza (y el IFE no fue la excepción). Técnicamente el nivel de confianza expresa, en forma de porcentaje, la probabilidad de que una cierta muestra provea un estimado acertado de la media de la población. Esto es, un nivel de confianza del 95% indica que el 95% de las muestras corresponderán a la media de la población.
Finalmente, necesitamos proponer un parámetro estadístico llamado "margen de error". Expresado como porcentaje, el margen de error se refiere al rango de valores en los que puede quedar una muestra. Esto es, si un candidato tiene 50% de votos a favor y se tiene un margen de error de 5%, entonces el porcentaje real de votos a favor de ese candidato estará en algún lugar entre 45% y 55%. El IFE, muy considerado con nosotros, puso un margen de error de 0.5%.

Ahora, el IFE en sus resultados pone que EPN tiene entre el 36% y el 38% de votos a favor ¿No que nada más el 0.5%, pinche Dib? Esto se debe a los resultados que obtuvieron de tres simulaciones distintas usando tres modelos de inferencia distintos (hablaremos de ellos más adelante).


Ahí no'más para que se den un quemón y aprendan algo, la fórmula para calcular el margen de error es:


$$ ME = \frac{\sigma}{\sqrt{n}}z $$


Donde:
ME = Margen de error.
sigma=Desviación Estándar
n = Tamaño de Muestra
z = Valor de nivel de confianza deseada (para 95% es 1.96 y para 99% es 2.58).


Es importante notar, que mientras menor margen de error y mayor nivel de confianza se requiera, mayor será el número de muestras.


Ok... Entonces ¿Qué pedo? ¿Cómo se hace un conteo rápido?

Lo primero que necesitamos hacer es determinar cuántas muestras son suficientes. ¿Por qué se escogieron 7500 casillas?

Según el National Democratic Institution (NDI) una fórmula para calcular un tamaño de muestra adecuado para elecciones, está dada por:

$$n =\frac{P\left(1-P\right)}{\frac{\Sigma^2}{z_{99}^2}+\frac{P\left(1-P\right)}{N}}$$

 Donde:

n = tamaño de la muestra.
P =  Nivel de homogeneidad de la población (más o menos 0.5).
Sigma = Margen de error.
z = nivel de confianza en forma de puntaje Z
N = Total de la población.

Noten algunas cosas:

$$\lim_{z \rightarrow \infty} = N$$ Esto es, si queremos un nivel de confianza muy grande, nuestra muestra tiende al tamaño de la población.
$$\lim_{S \rightarrow 0} = N$$ Si queremos un margen de error de cero, el tamaño de la muestra sería el tamaño de la población.

Según la página de Animal Político 77 millones 827 mil 946 mexicanos pudieron haber votado. Entonces N = 77827946. Según el IFE, ellos requieren al menos un nivel de confianza del 95% y un margen de error del 0.5%, por lo que Sigma = 0.005, z = 1.96.

Sustituyendo valores, obtenemos 38397 muestras necesarias. Sin embargo, debido a que las muestras vienen de poblaciones estratificadas (o sea, divididas en estratos - en este caso, distritos - ) hay que multiplicar el número obtenido por el número de estratos. Existen 300 distritos electorales en el país + las casillas extraordinarias y no sé qué tantas madres más, pero el IFE dice que hay 483 estratos, por lo que el número de muestras mínimas necesarias serán de 1.85x10⁷. Si consideramos que en teoría, unas dos mil quinientas personas por estrato (que habrá lugares como SLP que es en realidad una cifra exagerada y otros como el DF en el que quedará muy corta), nos da un resultado de 7418 casillas, que se acerca mucho a las 7500 casillas que muestreó el IFE.
La discrepancia seguramente radica en que ellos tuvieron que usar algún factor de corrección debido a la diferencia de los estratos o tal vez consideraron que el nivel de homogeneidad de la población no era de 0.5.


 Sale, ya sacaste la muestra representativa. ¿Cómo se hace la inferencia?

Cada uno de los cinco equipos de trabajo, formado por un miembro titular del Comité Técnico y un asistente, realizó estimaciones con un método de estimación estadístico específico. Estos métodos se describen en los apartados siguientes: Clásico, Bayesiano, y Robusto. Los cinco intervalos dados a conocer, uno para cada candidato contendiente y uno para la participación ciudadana, corresponden a los proporcionados por el Comité Técnico de forma colectiva.

Método Clásico


El método clásico es el que se usa con más frecuencia en el muestreo. El diseño a usarse en el Conteo Rápido es un muestreo estratificado con la selección aleatoria simple dentro de cada estrato. Siendo Nh el número de casillas en cada estrato y nh el número de casillas de la muestra.
Siendo Yhi el número de votos emitidos a favor de un candidato en la casilla i del estrato h, además sea Xhi el número de votos totales emitidos en la casilla i del estrato h. Siendo L el número de estratos.
Entonces el estimador de la proporción de votos para ese partido se estima como:
$$\hat{P} = \frac{\hat{Y}}{\hat{X}}=\frac{\sum_h ^L \hat{Y}_h}{\sum_h ^L \hat{X}_h} = \frac{\sum_h ^L \frac{N_h}{n_h}\sum_i ^{nh} Y_{hi}}{\sum_h ^L \frac{N_h}{n_h}\sum_i ^L X_{hi}}$$


La varianza está dada por: 


$$\sigma^2 = \sum_{h=1} ^L N_h^2 \left(\frac{1}{n_h}-\frac{1}{N_h}\right) \left(V_h G_{hi} \right)$$

Donde

$$V_h = \frac{1}{n_h-1}\sum_{i=1} ^n_i \left(G_{hi}-\bar{G}_h \right)^2$$ y $$G_{hi} = \frac{Y_{hi}-\hat{P}X_{hi}}{\hat{X}}$$

 Finalmente, la estimación con un nivel de confianza del 95% está dada por:


$$\delta = 1.96\sqrt{\sum_{h=1} ^L \left(N_h^2\right) \left(\frac{1}{n_h}-\frac{1}{N_h}\right) \left(V_h\right)}$$


Método Bayesiano



En palabras laicas, el método bayesiano dice que: todo lo que no sabes, lo puedes modelar como un modelo probabilístico. Lo comparas con el modelo probabilístico que sí sabes y usas un chingo de matemáticas para hacer inferencias con todo ese pedo.

Para el método Bayesiano, la forma de estimar el porcentaje de votos que cada candidato obtendrá, primero se produce la inferencia correspondiente a cada estrato y posteriormente esta inferencia se combina tomando en cuenta los distintos tamaños del estrato.
En cada estrato, la unidad de observación muestral es una casilla y los datos que se observan son los votos en esa casilla a favor de cada uno de los candidatos.

Los votos se disponen en un vector X, por lo que la muestra de casillas de un estrato particular forma una colección de vectores.

$$M = X_1,X_2,...,X_M$$

Que se consideran independientes. Realmente el considerarlos independientes es una acción importante para el modelo estadístico. Dejaré aquí que algún lector que no sea tan zafio como yo en esto de la estadística explique por qué se justifica que los vectores sean independientes.

La parte interesante de este asunto, es que si esos vectores se consideran independientes entre ellos, se puede asumir sin pérdida de generalidad que cada vector Xi se distribuye en un modelo normal multivariado con media ni y matriz de varianzas y covarianzas ni S.

Por suuesto, el vector que contiene las proporciones de votos a favor de cada candidato es una variable estratificada desconocida.

El IFE, en su anexo técnico dos, especifica que con algunos trucos matemáticos muy vergas, la distribución final conjunta de los datos provistos por las casillas del estrato resulta en un modelo Normal Multivariado Wishart Invertido.

Si he de ser sincero, no comprendo cómo es que logran hacer esa demostración, principalmente porque no ponen la demostración. No tengo razones para creer que esté incorrecta tal suposición, pero al menos envié un mail al IFE para preguntar cómo es que llegaron a esa conclusión. Espero recibir alguna respuesta satisfactoria.

Ahora bien, como ya sabemos que es una distribución Wishart Invertida, es posible utilizar algunas fórmulas para encontrar los parámetros básicos de tendencia central y de dispersión.

Es posible demostrar (pero es muy difícil) que una matriz

$$ \Omega \in \Re^{n \times n}$$ que sigue una distribución Wishart Invertida con parámetro Sigma y eta grados de libertad tiene una función de densidad de probabilidad dada por:

$$p\left(\Omega | \Sigma, \eta \right) \propto |\Omega|^{-\left(\eta+n+1\right)/2}exp\left(-\frac{1}{2}tr\Sigma \Omega^-1\right) $$



Debido a que la matriz Omega sigue la distribución Wishart, tiene algunas propiedades interesantes, tal vez la más interesante es que podemos encontrar una matriz A definida positiva y multiplicarla por ambos lados de la matriz Omega para transformarla a una Wishart Invertida y viceversa.

Este proceso se lleva a efecto para que cada uno de los estratos y, con las simulaciones disponibles, se obtiene una descripción de las proporciones de votos en el nivel nacional en donde cada valor simulado en este nivel se obtiene como una combinación lineal convexa de las correspondientes simulaciones en los estratos.  El resultado es una descripción, vía simulación, de la distribución conjunta de las proporciones de interés, P( | D), en donde D representa la información disponible de todos los estratos. A partir de este modelo conjunto final, es posible obtener, para el candidato r-ésimo, el modelo marginal P(r | D) que describe el conocimiento acumulado sobre su proporción de votos en el nivel nacional.

Método Robusto

En este caso se considera que la muestra ha sido seleccionada de acuerdo a un esquema de Muestreo Aleatorio Simple (MAS). Bajo este supuesto, las ecuaciones que permiten estimar tanto los parámetros de interés como sus respectivos errores estándar son las más simples y, por tanto, las que más rápidamente se pueden calcular. De esta manera, con la llegada de cada remesa con nuevos reportes de resultados en las casillas de la muestra, se irán actualizando las estimaciones. A partir de estas estimaciones se irán produciendo una serie de gráficos e índices en diferentes niveles de agregación.

El MAS considera que cada elemento de la población tiene la misma probabilidad de selección. Los estimadores de los parámetros de interés son relativamente simples y esta característica ha servido para que el MAS sirva como referencia de comparación cuando se proponen esquemas más complicados que tienen como principal objetivo reducir el error estándar de las estimaciones. De esta manera, se espera que el uso de esta propuesta permita tener intervalos de confianza cuya longitud pueda ser una cota superior de los calculados en los otros dos métodos. Como en prácticamente todos los métodos de estimación estadística, es de esperar que cuando el tamaño de una muestra es grande, los estimadores tengan características similares. De esta manera, si se logra tener una gran parte de la muestra prevista, los intervalos producidos deberán ser muy parecidos a los obtenidos con los métodos Bayesiano y clásico.

El IFE no menciona en su anexo técnico cómo formularán los estimadores. Lo que sí menciona es que los intervalos de confianza tienen la forma

$$p_j\pm 2\left(\left( p_j \left( 1-p_j \right) \right) n \right)^{1/2}$$

 Y por lo tanto, el proceso de incorporación de nuevas remesas permite que los intervalos de confianza vayan teniendo longitud monótonamente no creciente. Esta característica implica que conforme transcurra el arribo de información se tendrán mejores estimaciones y, en el límite del 100% de la muestra, tener calidades comparables a los otros dos procesos que se estarán realizando simultáneamente.

 -------------------------------------