Introducción a la Probabilidad

INTRODUCCIÓN A LA PROBABILIDAD

Docente: Paolo Castillo Rubio

Cada vez que realizamos un cálculo matemático para resolver un problema físico, estamos aplicando un modelo matemático a un fenómeno de la realidad.

Este fenómeno puede ser, por ejemplo, la caída de un objeto desde cierta altura, y en este caso utilizamos un modelo que es la Ley de Gravedad.

¿Qué es un modelo? Al enfrentar un problema de física, química, ingeniería, etc., estamos analizando e investigando una parte o aspecto de la realidad material que nos rodea. Para resolver el problema, necesitamos modelar esa realidad, es decir, construir una representación en la mente de cómo ocurren los hechos, junto con ecuaciones matemáticas que permitan calcular los efectos de los mismos.

En ningún caso se debe confundir modelo con realidad. Un modelo es sólo una representación de la realidad, utilizado para estudiar y analizar dicha realidad.

Hay modelos matemáticos que nos permiten obtener un resultado numérico preciso, por ejemplo, que la velocidad de un automóvil es de 175,5 km/H. O que la corriente eléctrica que circula por un cable es de 5,7 A. Este tipo de modelos matemáticos se denominan Determinísticos.

Existen también fenómenos que necesitan otro tipo de modelos matemáticos, denominados no determinísticos, probabilísticos o estocásticos.

Por ejemplo, supongamos que se ha previsto la realización de unas pruebas balísticas para las que se necesita saber la cantidad de lluvia que va a caer en un próximo periodo de tiempo, antes de decidir la forma de llevar a cabo los ensayos. El Técnico responsable podrá informarse en el servicio meteorológico en relación con la presión barométrica, la temperatura, velocidad del viento y otros datos meteorológicos, sin embargo, no hay una ecuación que con todos esos datos le permita calcular de forma precisa los milímetros de lluvia que van a caer durante el periodo de tiempo que le interesa.

De la misma forma, ningún operador puede calcular cuánto va a subir la Bolsa, ni siquiera si va a subir o bajar, aún cuando tenga a su alcance todas las variables económicas disponibles.

Este tipo de fenómenos no admiten un modelo determinístico, sino un modelo probabilístico, que como resultado nos dice la probabilidad de que llueva una cierta cantidad, o la probabilidad de que la Bolsa suba un cierto porcentaje. El resultado no es un valor determinado, sino la probabilidad de un valor.

Veamos algunos ejemplos de fenómenos para los cuales es apropiado utilizar un modelo probabilístico:

• Experimento 1: Se lanza un dado y se anota el número que aparece en

la cara superior. • Experimento 2: Se arroja una moneda cuatro veces y se anota la

sucesión de caras y sellos obtenidos.

• Experimento 3: Se fabrican artículos en una línea de producción y se

cuenta el número de artículos defectuosos producidos en 24 horas.

En todos estos casos, el resultado del experimento no se puede predecir con absoluta certeza. Hay varios resultados posibles cada vez que se realiza la experiencia.

Para cada experimento del tipo que estamos considerando, se define el Espacio Muestral como el conjunto de todos los resultados posibles que pueden producirse al realizar el experimento.

Los espacios muestrales respectivos son :

S1 = {1,2,3,4,5,6}

S2 = {cccc, sccc, cscc, ccsc, cccs, sscc, scsc, sccs, cscs, ccss, sssc, sscs, csss, scss, ssss}

S3 = {1,2,3,…, N} ; N máximo de artículos producidos en 24 horas.

Un Suceso, respecto a un espacio muestral S asociado con determinado experimento, es un subconjunto de resultados del espacio muestral. El conjunto vacío, el formado por un solo elemento y el formado por todos los elementos del espacio muestral son también sucesos.

Vemos entonces que, dado un experimento aleatorio cualquiera, hay un espacio muestral asociado cuyos elementos son todos los resultados que se pueden obtener de la experiencia. Un subgrupo o subconjunto de resultados es un suceso. Ahora, ¿cómo podemos saber si la posibilidad de que ocurra un suceso es grande o pequeña? Por ejemplo, si arrojamos un dado, ¿cómo podemos calcular la probabilidad de que salga un 2 ? Para esto necesitamos un número asociado con cada suceso, al cual se lo denomina probabilidad del suceso. Entonces, la probabilidad P de un suceso es un número entre 0 y 1, que nos dice en que medida es posible que ocurra el suceso. Si la probabilidad es 1 significa que el suceso ocurrirá con toda certeza. Si la probabilidad es 0,5 significa que un suceso puede ocurrir o puede no ocurrir con la misma probabilidad. Probabilidad 0 quiere decir que el suceso es imposible que ocurra. ¿Cómo podemos calcular la Probabilidad de un suceso?

La respuesta a esta pregunta no siempre es sencilla y depende del experimento y de su espacio muestral asociado. Hay casos simples en los que el cálculo es relativamente sencillo. En primer término, supondremos que se trata de un experimento cuyo espacio muestral es finito y tiene un número pequeño de resultados posibles.

En segundo término, supondremos que todos los resultados que integran el espacio muestral (sucesos elementales) tienen la misma probabilidad de ocurrir.

Con estas dos hipótesis, la fórmula para calcular la probabilidad es muy sencilla. Supongamos que se trata de un experimento cualquiera cuyo espacio muestral S tiene N elementos (N resultados posibles). Deseamos calcular la probabilidad de un suceso H (Un subconjunto H del espacio muestral S) que tiene m elementos. De acuerdo a lo dicho previamente, el número N tiene que ser pequeño y la probabilidad de cada suceso elemental tiene que ser la misma.

Entonces la probabilidad P de que ocurra el suceso H es: P = m/N

Veamos algunos ejemplos:

Supongamos que se arroja un dado sobre una mesa y apostamos a que salga un número igual o menor que 4. Sabemos que son igualmente posibles los números: {1, 2, 3, 4, 5 y 6} (Espacio muestral con 6 elementos).

Pero los números favorables a nuestra apuesta son: {1, 2, 3 y 4} (Suceso con 4 elementos). Entonces, la probabilidad de que ganemos es P = 4/6 = 0,666…

Es decir que tenemos a nuestro favor una probabilidad de 0,666.. (o sea, aproximadamente del 67 %).

Si apostamos a un sólo número (sacar un As), la probabilidad de ganar sería P = 1/6 = 0,1666…

Resumiendo, la probabilidad es un número entre 0 y 1, que nos dice en que medida es posible que ocurra un suceso.

CONCEPTOS ESTADÍSTICOS FUNDAMENTALES

Población estadística Hasta ahora hemos visto el caso de fenómenos o

experimentos cuyo espacio muestral asociado tiene un número pequeño de elementos. Ello nos ha servido para introducir la noción de probabilidad, Pero en muchos casos es necesario trabajar con experiencias o procesos que generan un número muy grande de datos o resultados numéricos, es decir, espacios muestrales con un número infinito o muy grande de elementos. Cuando tenemos un conjunto muy grande de datos numéricos para analizar decimos que tenemos un Universo o Población de observaciones.

Cada dato numérico es un elemento de la población o universo. Una Muestra es un subconjunto pequeño de observaciones extraídas de un universo o población.

La Estadística trabaja con poblaciones de datos y con muestras extraídas de las mismas. Los conceptos de población y muestra a veces resultan ambiguos en su aplicación práctica.

Por ejemplo, supongamos que en una ciudad de 5000 habitantes se realiza un censo médico en el cual se mide el peso, la altura y se relevan otros datos de todos los habitantes de la ciudad.

Alguien podría referirse al universo o población censada teniendo en mente el conjunto de los habitantes de la ciudad. Pero cuando hablamos en términos estadísticos, nos referimos a poblaciones o universos de datos.

Por ejemplo, el conjunto de todas las mediciones de altura (de los habitantes de la ciudad) es un conjunto de datos y, por lo tanto, constituye un universo o población de datos desde el punto de vista estadístico. Otro universo o población de datos son los pesos medidos (de los habitantes de la ciudad). Pero la población de habitantes, es decir, las personas que habitan la ciudad no son la población a la que nos estamos refiriendo desde el punto de vista estadístico.

Supongamos que en una empresa se fabrica un lote de 10 toneladas de un producto químico, y un técnico debe controlar la calidad del mismo.

El técnico toma una pequeña porción, por ejemplo, 100 gramos y dirá que tomó una muestra del producto para analizar en el laboratorio. Hasta el momento, la muestra no fue analizada y, por lo tanto, no tenemos ningún dato

numérico.

Cuando el laboratorio efectúa algún ensayo en la muestra y obtiene un resultado numérico, dicho dato podría ser analizado desde el punto de vista estadístico.

Vamos a suponer hipotéticamente que el técnico continúa sacando otras muestras del producto, hasta agotar el lote y cada una es ensayada en el laboratorio, que nos da los resultados.

Como teníamos 10 toneladas de producto y las muestras son aproximadamente de 100 gramos, el técnico seguramente extraerá alrededor de 100000 muestras y el laboratorio nos entregará alrededor de 100000 resultados. Este conjunto de datos numéricos es nuestro universo o población de datos.

Si tomamos al azar 10 de esos resultados, podemos decir que tenemos una muestra de 10 elementos de ese universo o población. No debemos confundir esta muestra (Desde el punto de vista estadístico) con la muestra de material que extrajo el técnico para ser analizada en el laboratorio.

Ahora bien, nuestro universo o población de datos a veces no existe en la realidad, sino que es un concepto o abstracción que utilizamos para referirnos al universo o población que hipotéticamente podría existir.

Veamos el ejemplo anterior. Supongamos que el técnico toma solamente 5 muestras y las envía para analizar al laboratorio. El laboratorio nos enviará sólo 5 resultados, y nosotros diremos que tenemos una muestra de datos extraída del universo o población de datos total. Y estamos pensando en el universo o población que tendríamos si se hubieran extraído y analizado las 100000 muestras de material.

Muchas veces resulta difícil imaginarse cuál es el universo del cual extrajimos los datos. Supongamos que tenemos una máquina que produce piezas de plástico en serie y un técnico toma 5 piezas sucesivas y les mide la altura con un calibre. Tenemos, entonces, 5 resultados, es decir una muestra de 5 elementos. ¿Cuál es el universo al cual pertenece esa muestra de datos?

Debemos imaginar lo siguiente: Si la máquina continuara trabajando en las mismas condiciones (Es decir, a la misma velocidad, con las mismas materias primas, a la misma temperatura, manejada por el mismo operario, etc.) ...y a cada pieza que produce se le mide la altura tendríamos un conjunto muy grande de resultados numéricos. Ese conjunto muy grande de resultados numéricos que no existe, pero que podría obtenerse en esas condiciones es el universo o población del cual extrajimos la muestra de 5 observaciones.

Veamos otro ejemplo. Supongamos que el sindicato de la industria textil desea saber cuál es el sueldo medio de un operario en esa industria. Entonces, encarga una encuesta a una empresa especializada, que entrevista a 20 operarios de la industria textil y averigua sus salarios.

Estos datos son una muestra de 20 observaciones del universo o población formado por los salarios de todos los operarios de la industria textil del país. Aunque el encuestador no disponga de esos datos, sabemos que existen miles de operarios que ganan un salario determinado y, por lo tanto, podemos hablar de un universo o población cuyos elementos son los salarios de los operarios de la industria textil en el país. Además, esa población de datos es seguramente diferente de la población de salarios de los operarios de la industria textil inglesa o brasileña (Usando una misma moneda de referencia).

¿Qué representa una Población de datos? El análisis estadístico de una población o universo de datos tiene como objetivo final descubrir las características y propiedades de aquello que generó los datos. Por ejemplo, se tiene una población de escolares (Población física, población humana) y se les mide la altura. El conjunto de datos de altura constituye una población o universo estadístico.

El análisis de estos datos de altura (Universo estadístico) sirve para caracterizar y estudiar a la población de estudiantes (Que no es una Población estadística).

Supongamos que un instituto dedicado a estudios económicos ha realizado una encuesta de ingresos en el país. El universo de datos generados por la encuesta sirve a los fines de caracterizar a la población física, a la población real del país, desde un punto de vista económico.

Un ingeniero controla un proceso industrial, que genera a diario muchos lotes de un producto (Población de lotes). Para cada lote se mide una característica de calidad, obteniéndose una gran cantidad de resultados numéricos (Población de datos).

El ingeniero realiza esta tarea porque a través de los datos numéricos obtenidos se puede evaluar el comportamiento del proceso, que es lo que realmente le interesa.

Es importante destacar que detrás de un universo o población de datos se encuentra una población física subyacente, formada por elementos de la realidad que nos rodea, de la cual, a través de algún tipo de medición, se obtuvieron los datos numéricos. Es esa población física subyacente (Elementos de la realidad, seres humanos, lotes de material, etc.) es la que deseamos estudiar y caracterizar por medio del análisis estadístico de los datos obtenidos.

La población estadística está representando, entonces, una población física o natural formada por elementos de la realidad, con respecto a una característica o propiedad de esa población física.

Es muy importante, al utilizar métodos estadísticos, no confundir la población física, formada por elementos de la realidad que estamos estudiando, con la población o universo de datos generados a partir de la primera. De aquí en adelante, cuando utilicemos los términos población o universo sin otro adjetivo nos estaremos refiriendo a población o universo de datos numéricos (También llamados observaciones, mediciones o valores).

La Distribución de Frecuencias

Vimos que una Población o Universo de datos es un conjunto muy grande de números. Estos números pueden estar en un gran listado o puede ser un conjunto hipotético, es decir, podemos imaginar los números pero no los tenemos realmente. Una gran tabla de números ordenados al azar prácticamente no nos muestra información acerca de la población de datos. Suponiendo que disponemos de los datos del universo, ¿cómo podemos clasificar y ordenar los números para obtener más información acerca de ese universo de datos?

Una forma sería escribir los números desde el menor hasta el mayor y colocar encima de cada uno tantas cruces o cuadraditos como veces que figure repetido en la población.

El número de veces que aparece repetido cada dato es la frecuencia de dicho valor. La representación gráfica que hemos visto se denomina Distribución de Frecuencias de la población.

La representación gráfica nos permite ver información que antes no aparecía tan evidente. Por ejemplo, sin hacer ningún cálculo nos damos cuenta donde está aproximadamente el promedio de la población.

También nos muestra cuáles son los valores máximo y mínimo de la población, es decir, el rango o recorrido.

En el caso anterior, los datos de la población son números enteros. Cuando los números no son enteros o cuando tenemos un número muy grande de datos, se divide el rango total en subintervalos y se cuenta el número de valores que cae dentro de cada subintervalo.

Vamos a suponer, ahora, que tenemos una cierta población de N = 500 datos, por ejemplo el peso de varones adultos de 40 años. Una manera de caracterizar esta población es construir una distribución de frecuencias o gráfico de frecuencias. Para ello seguimos los pasos siguientes:

1) Tomamos nota del valor máximo y el valor mínimo de la serie de datos que estamos considerando.

2) Subdividimos el intervalo entre el máximo y el mínimo en algún número de intervalos (15 ó 20) más pequeños iguales entre sí.3) Contamos el número de datos que encontramos dentro de cada intervalo (Frecuencia). Por ejemplo, supongamos que en el intervalo “i” hay “ni” observaciones (S*ni = N).4) Para construir el gráfico, colocamos en el eje de abscisas (Horizontal) los intervalos y levantamos en cada intervalo un rectángulo de altura proporcional al número ni de datos dentro del mismo.

Si hacemos el área del rectángulo levantado sobre el intervalo i-ésimo igual a la frecuencia relativa ni/N, el área total bajo el histograma será igual a la unidad:

Obtenemos así un histograma que nos muestra la

distribución de frecuencias de la población:

Esta distribución de frecuencias nos muestra si hay resultados que son más frecuentes que otros; si los valores están ubicados alrededor de un valor central, si están muy dispersos o poco dispersos. Podemos observar que fracción de todas las mediciones cae por ejemplo, entre 70 y 80 kg.

Si elegimos una persona del grupo y la pesamos, el resultado es un dato que pertenece a la población de datos representada en el gráfico. Decimos, entonces, que estamos extrayendo un dato de la población de datos. Pero hay distintas maneras de elegir la persona, es decir, distintas maneras de realizar la extracción del dato.

Si nos paramos frente al grupo y elegimos una persona, estaremos seleccionando al más gordo, al más flaco o al más alto (y por lo tanto pesa más que otros), de acuerdo a criterios subjetivos que no podemos evitar. En cambio, si escribimos los nombres de todas las personas en una etiqueta, metemos todas las etiquetas en una caja y luego le pedimos a alguien que retire una etiqueta, la selección no estará influida por nuestra subjetividad. En este caso, decimos que la extracción es aleatoria.

Una extracción aleatoria es aquella en que cada miembro de la población tiene la misma posibilidad de ser elegido.

Technology

Introducción a la Probabilidad