La percepción de la probabilidad es algo en lo que el ser humano no es tan diestro como podríamos presuponer.
“Al describir cómo pensamos y decidimos, los psicólogos modernos a menudo implementan un modelo de sistema dual que divide nuestro universo mental en dos dominios. El Sistema 2 es el ámbito familiar del pensamiento consciente. Consiste en todo en lo que elegimos enfocarnos. Por el contrario, el Sistema 1 es en gran medida desconocido para nosotros. Es el ámbito de las operaciones perceptivas y cognitivas automáticas, como las que está ejecutando en este momento para transformar la impresión de esta página en una oración significativa o para sostener el libro mientras toma un vaso y toma un sorbo. No tenemos conciencia de estos procesos rápidos, pero no podríamos funcionar sin ellos.”.
– Philip Tetlock “Superforecasting: The Art and Science of Prediction”
Muchos de nosotros usamos el Sistema 1 para tomar decisiones rápidas. Por ejemplo, supongamos un sorteo de lotería en la que hay cien personas y cada una tiene un billete. Ahora supongamos otro sorteo en el que hay solo dos participantes, uno que tiene solo un billete y otro que tiene los 99 restantes. La persona que en ambos casos tiene solo un billete suele preferir el primer sorteo al segundo, pero ¡la probabilidad de ganar es exactamente la misma!
En los sorteos de la Lotería de Navidad, todos los números se cargan en un bombo y cada uno de ellos debería tener la misma probabilidad de salir. Es decir, la serie de números premiados en todos los sorteos debería ser una serie de números aleatorios.
Esto se tomaba tan en serio que en el pasado, antes de la aparición de los ordenadores, la serie de números premiados en el sorteo de la Lotería de Navidad se usaba como fuente de números aleatorios para generar valores de otras variables. Ahora ya no se hace así, sino con algoritmos recurrentes que generan números pseudoaleatorios. “Pseudo” porque están generados “sintéticamente” en el ordenador pero “aleatorios” porque, si el generador es eficaz, los números resultantes soportan los test estadísticos correspondientes y tienen perfecta validez.
Pero, ¿es la serie de números premiados en la Lotería de Navidad una buena serie de números aleatorios? Es decir, ¿se puede admitir que la probabilidad de extracción de todos los números del bombo es la misma, tal y como dice la teoría?
Veamos qué ha ocurrido históricamente con la lotería en España.
Los tests de bondad de ajuste
Existen maneras de comprobar si una serie se ajusta a una distribución estadística determinada o no. Los tests estadísticos de “bondad de ajuste” permiten inferir si los datos de una muestra siguen una determinada distribución o si hay indicios suficientes como para afirmar que no. Uno de los más utilizados es el de la Chi-cuadrado, que básicamente compara el número de observaciones obtenidas con el número de observaciones teóricas. Le pedimos a Eduardo Caro, Profesor de Estadística en la Universidad Politécnica de Madrid, que nos ilustrase su fundamento:
“Imaginemos que tengo una bolsa opaca con una gran cantidad de bolas. Yo te digo que la mitad de las bolas son blancas y la mitad son negras. Tú, sin embargo, sospechas que no es así.
Para demostrarte que hay tantas bolas blancas como negras, te dejo que extraigas cinco bolas. Extraes cinco bolas,… ¡y las cinco son negras!
¿Podrías concluir que no hay tantas bolas blancas como negras?
Si esa fuera tu conclusión, existe la posibilidad de que te equivoques en tu veredicto, ya que podría ser que la bolsa realmente contenga tantas bolas blancas como negras, y (por puro azar) tú hayas obtenido solamente bolas negras.
La probabilidad de equivocarte es (1/2)^5= 3%. Es decir, la probabilidad de obtener cinco bolas negras seguidas en una bolsa que tuviera la misma cantidad de bolas blancas y negras, es de un 3%.
Por tanto, ante el resultado de ese experimento, la afirmación «no hay tantas bolas blancas como negras» puede hacerse con un 97% de confianza.
Sin embargo, si seguimos el experimento y obtienes diez bolas negras seguidas, seguramente concluirás “la bolsa no tiene tantas bolas blancas como negras”, ya que entonces la probabilidad de equivocarte en esa afirmación es menor al 0.1%.
Por eso, siempre que hacemos un test de estadístico, las conclusiones obtenidas están sujetas a un nivel de confianza o a un «nivel de error».”
El concepto de nivel de confianza no es intuitivo. Un nivel de confianza alto indica que se exige más a la muestra para poder rechazar la hipótesis. En el ejemplo anterior, si exigimos un 99% de confianza, sacar 5 bolas negras consecutivas no es suficiente para concluir que no es probable que haya tantas bolas blancas como negras. Si exigimos un 95%, sí que lo consideraríamos improbable.
La Lotería
Para aproximarnos al caso de la lotería, supongamos que hay 10 000 números premiados y los agrupamos por sus tres últimas cifras. Así, tendremos los premiados acabados en 000, 001… y así hasta 999. Como hay 1000 de estas terminaciones, esperamos que haya 10 acabados en 000, 10 acabados en 001 y así sucesivamente.
Nuestro test comparará si en realidad los números que se han encontrado se parecen o no a esos 10 teóricos. Para cada terminación tenemos en gris el valor teórico y en naranja el real. El test calcula en qué medida las dos gráficas se parecen o no. Si se parecen, no podremos rechazar la hipótesis de que los números son aleatorios y si no se parecen sí podremos rechazarla.
En el caso de la Lotería de Navidad podríamos comprobar si los números de la serie siguen una distribución aleatoria equiprobable, pero por desgracia no hemos encontrado un listado completo de dichos números.
Alternativamente, en la web www.loteria.es se ofrecen los datos de los últimos 1273 sorteos de la Lotería Nacional de los últimos doce años. Aunque el método de extracción no es con un único bombo, sino varios, por el mismo motivo los números se deberían comportar como números aleatorios.
A partir del análisis de los dos últimos dígitos de los 1273 sorteos, tras realizar el test de la Chi-cuadrado, el resultado obtenido con un 99% de nivel de confianza, nos indica que no tenemos evidencia matemática de que los datos no sigan una distribución aleatoria equiprobable; sin embargo, si solo exigimos un 95% de confianza, la secuencia no resulta aleatoria.
Es decir: de todas las posibles secuencias de, 1273 valores, solo el 5% se parecerían menos a una secuencia aleatoria. Este margen se encuentra en el límite de lo que tradicionalmente se acepta.
Imagen por: @CaraboSpain Pixabay