Hablar de probabilidad estadística, hoy, es hacerlo de una magnitud clave en todos los procesos de toma de decisiones. La eclosión del Big Data no ha hecho, si no, que en Data Science se le dé una importancia decisiva. Aquí te lo explicamos mejor.
La definición simple de la probabilidad estadística se limitaría a señalar que es la representación de las posibilidades de que se dé una determinada situación.
Esta cuestión es muy relevante porque, cuando no existe una certeza al 100 %, nos convendrá saber cuáles son los riesgos y las posibilidades de éxito de una toma de decisiones. Para ello, evidentemente, procederá analizar los datos disponibles y, de ahí, inferir una determinada probabilidad.
En ocasiones, no es posible determinar con exactitud el desarrollo de una situación. Y, cuando pasa esto, se hace necesario tener un cálculo probabilístico para, de esta forma, poder tomar decisiones acertadas. En tiempos de Inteligencia Artificial, la probabilidad ha ganado más importancia, si cabe.
Aunque el análisis de las probabilidades es relativamente antiguo (siglo XVII, Pierre Fermat), es cierto que, con el Big Data, su uso ha pasado a ser habitual en cualquier investigación o negocio.
La fórmula para el cálculo de probabilidades estadísticas es muy simple. Básicamente, lo que se tiene que hacer es tomar el número de casos o situaciones favorables, dividirlo entre el número de casos o situaciones totales y multiplicar el resultado por cien. De esta forma, dispondrás de la probabilidad porcentual de que una determinada situación se dé.
Una de las ventajas de hacer este cálculo es que es muy sencillo y que lo que necesitas, básicamente, son datos. Si los datos de que dispones son abundantes y veraces, calcular con exactitud será muy fácil, de manera que también aumentarán las probabilidades de acertar. El problema suele estar, más bien, en los datos, más que en la manera de interpretarlos correctamente.
Ahora bien, los procedimientos pueden variar. En primer lugar, por la muestra que se tome y, en segundo lugar, porque existen otras fórmulas estadísticas. Sea como fuere, la forma estándar de hacer los cálculos es la que indicamos.
Los ejemplos para aplicar la probabilidad estadística en la vida real son numerosos. Eso sí, en este caso vamos a suponer que no hay ningún evento excepcional colectivo o de estructura que varíe la base. Esta lista puede ejemplificar los casos más habituales:
La esperanza de vida es un cálculo probabilístico que se hace tomando en base la edad media que las personas van a vivir cuando nacen. En este caso, se puede calcular cuál es la edad media que se va a alcanzar. No hay que olvidar que este es un aspecto fundamental, tanto para las administraciones públicas como para las empresas privadas.
La probabilidad juega un papel fundamental en el mercado de los seguros. Por ejemplo, en función del riesgo que tengas por tus hábitos precedentes. Otro motivo es el de los seguros de vida, donde, por lo general, pagarán más las personas con más edad por el mayor riesgo de fallecimiento. En los últimos años, la probabilidad de padecer determinadas enfermedades se ha introducido como factor.
El caso de los juegos de azar es paradigmático de cómo calcular una probabilidad pura. Esto sucede, por ejemplo, con los dados, la ruleta de un casino o con el blackjack. Igualmente, sería posible hacer estos cálculos con las loterías convencionales o las quinielas. Por supuesto, estas hipótesis valdrán siempre que el juego funcione de forma limpia.
Las previsiones del estado meteorológico son otra de las opciones reales del día a día. En base a un previsible comportamiento de las isobaras, se puede concluir si hará buen tiempo, si lloverá o si habrá viento. Este es uno de los casos de cálculo de probabilidades más utilizado, puesto que sirve para planificar ingentes recursos.
El Data Science utiliza la probabilidad estadística de varias maneras que conviene conocer. Hay que pensar que esta disciplina se puede aplicar de diversas maneras útiles. Y no está de más señalar que hay cambios según la evolución. Las fórmulas más recurrentes son las siguientes:
Una de las posibilidades del Data Science es la práctica de probabilidades aleatorias. De esta manera, lo que se buscará es hacer experimentos que den una variable numérica determinada. Esto nos va a acercar a la probabilidad existente. Además, es una operativa interesante si lo que se quiere es eliminar sesgos, que siempre son inconvenientes.
La probabilidad también se utiliza en el ámbito de la estadística descriptiva. No en vano, no se trata solo de hacer un cálculo, sino, también, de representarlo correctamente para que se pueda interpretar bien. Al final, lo que se pretende es tener una idea real de una situación.
La estimación es una técnica que sirve para valorar un posible comportamiento tomando como referencia una colectividad. Está relacionada con los muestreos, por lo general, aunque se puede utilizar en varios ámbitos.
Los muestreos son una práctica recurrente que se utiliza en los estudios de mercado y en la demoscopia electoral. Como es materialmente imposible dirigirse al universo elegido, se toma como referencia una colectividad representativa, o subconjunto. Eso sí, es muy importante asegurarse de que no exista ningún sesgo.
El test estadístico es una opción interesante si lo que se busca es información sin desvíos. Por ese motivo, es recomendable conocerlo porque su objetivo, a la larga, es validar una hipótesis o comprobar cuánto se acerca a un valor determinado. Los tests estadísticos han ganado peso en el ámbito de la probabilidad en las últimas décadas.
La probabilidad estadística es muy útil para comprobar cuál es la mejor opción a tomar, para calcular costes y, por supuesto, para hacer comparativas. Además, es una técnica básica para cualquier persona que se introduzca en Data Science.