Curso Moderno de Estadistica

Embed Size (px)

Citation preview

  • CURSO DE ESTADSTICA DESCRIPTIVA

  • La estadstica es la ciencia encargada de recolectar, analizar presentar e interpretar los datos.

    El principal objetivo es el procesamiento y anlisis de grandes volmenes de datos, resumindolos en tablas, grficos e indicadores (estadsticos), que permiten la fcil compresin de las caractersticas concernientes al fenmeno estudiado.

    ESTADISTICA DESCRIPTIVA Introduccin a la estadsticaLa estadstica es una rea de la matemtica aplicada que hace uso de la teora de la probabilidad para calcular parmetros de una poblacin.Muestra: Es un subconjunto de una poblacin. Una muestra es representativa cuando los elementos son seleccionados de tal forma que pongan de manifiesto las caractersticas de una poblacin. Su caracterstica ms importante es la representatividad.

  • La estadstica se puede clasificar en dos grandes ramas:

    Estadstica descriptiva o deductiva.- Simplemente se utiliza para resumir de forma numrica o grfica un conjunto de datos. Se restringe a describir los datos que se analizan. Si aplicamos las herramientas ofrecidas por la estadstica descriptiva a una muestra, solo nos limitaremos a describir los datos encontrados en dicha muestra, no se podr generalizar la informacin hacia la poblacin

    Estadstica inferencial o inductiva.- La estadstica inferencial permite realizar conclusiones o inferencias, basndose en los datos simplificados y analizados de una muestra hacia la poblacin o universo.

    ESTADISTICA DESCRIPTIVA Introduccin a la estadstica

  • Tablas estadsticas que agrupan diversos valores de una variable, simplificando los datos. Para esto se cuenta cuantas veces se repite un determinado valor.

    Frecuencia Absoluta (f): Numero de veces que se repite un valor dentro de un conjunto de datos.

    Podemos identificar dos tipos de tablas de frecuencias, las cuales denotaremos como tablas tipo A y B.

    Las Tablas Tipo A se caracterizan por manejar un conjunto pequeo de posibles resultados de una variable dentro de la muestra o poblacin. Por lo general, su uso tiende al manejo de datos cualitativos o variables cuantitativas discretas.

    ESTADISTICA DESCRIPTIVA Tablas de frecuencias

  • Ej:Una Empresa desea conocer el grado de satisfaccin que tienen 10 contribuyentes sobre el servicio brindado. Para tal fin, se les pide que valoren, empleando una escala del 1 al 5, su opinin frente al servicio. (1 = Muy Malo, 2 = Malo, 3 = Regular, 4 = Bueno y 5 = Excelente). Las respuestas tabuladas de los 10 clientes son:ESTADISTICA DESCRIPTIVA Tablas de frecuenciasSe pide que se simplifiquen y luego se interpreten los datos.

  • El nmero de resultados que puede alcanzar la variable grado de satisfaccin son relativamente pocos, por lo tanto esta tabla de frecuencias se identifica como tipo A.

    Otra forma de catalogar los datos es conociendo el Rango.

    Rango: Diferencia existente entre el valor Mximo (Xmax) y el valor Mnimo (Xmin) de un conjunto de datos. La frmula empleada es: En nuestro ejemplo R seria igual a 4.OJO: Si el rango manejado es pequeo, se utiliza una tabla Tipo A.

    ESTADISTICA DESCRIPTIVA Tablas de frecuencias

  • Pasos para creacin de tabla tipo A

    PASO 1: Contar las veces que se repite cada valor dentro de la muestra.

    PASO 2: Ubicar estas frecuencias en una tabla ordenada

    ESTADISTICA DESCRIPTIVA Tablas de frecuenciasNinguno de los clientes valor el servicio como muy malo, la mayora de las respuestas se centraron en valorar al producto como Excelente y Bueno.

    Se puede concluir que la mayora de las personas encuestadas tienen una visin favorable.

    Ntese que la sumatoria de las frecuencias es igual al nmero de personas encuestadas (10).

  • La estadstica considera otros tipos de frecuencias auxiliares que complementan el anlisis de las tablas de frecuencia.

    Frecuencia Absoluta Acumulada (F): Presenta un saldo acumulado de las frecuencias de los intervalos. Esta frecuencia se clcula sumando el acumulado de las frecuencias de los intervalos anteriores ms la frecuencia absoluta del intervalo actual.

    ESTADISTICA DESCRIPTIVA Tablas de frecuenciasLa Frecuencia Absoluta Acumulada del ltimo intervalo es igual al tamao de la muestra (o poblacin).

    Esta frecuencia no proporciona de inmediato el nmero de casos que queda por debajo de cada clase. La F4, por ejemplo, nos dice que seis personas opinaron que el producto se encontraba entre muy malo y bueno.

  • Frecuencia Relativa (h): Equivale a la razn de las frecuencias de cada intervalo sobre la totalidad de los datos. Se expresa como:

    Para el ejemplo, las frecuencias relativas son:

    ESTADISTICA DESCRIPTIVA Tablas de frecuenciasLa sumatoria de las frecuencias relativas debe ser igual a 1 (si se trabaja estos valores como porcentaje, equivaldra al 100% de los datos).

    El 40% de las personas encuestadas (h5), opinaron que el servicio es excelente.

  • Intervalo de Clase: Intervalos empleados en las tablas de Frecuencias Estadsticas, capaz de contener diversas medidas de una variable. Consta de un lmite inferior (Lm) y un lmite superior (Ls).

    Un valor representativo de los intervalos de clase son las conocidas Marcas de Clase, que se define como el punto medio de un intervalo de clase, es decir:

    La cantidad de intervalos de clase que se utilizar para elaborar la tabla de frecuencias no deberan ser muchos, debido a que no se cumplira con el objetivo de resumir la informacin, ni tan pocos, ya que se perdera mucha informacin.

    No existe una formula o principio nico para establecer el numero de intervalos. Sin embargo, varios autores han propuesto algunas frmulas que permiten ayudar en la tarea de conseguir este nmero. ESTADISTICA DESCRIPTIVA Tablas de frecuencias

  • EjemploPASO 1: Determinar el numero de intervalos (Nc).

    PASO 2: Determinar el ancho de cada intervalo

    Paso 3: Determinar el nuevo Rango (R).

    PASO 4 y PASO 5: Determinar los intervalos de clases iniciales y reales

    ESTADISTICA DESCRIPTIVA Tablas de frecuenciasRango que es convenido por el Ancho de los intervalos a los decimales que son manejados en los datos objeto del estudio. Su clculo se realiza multiplicando el Ancho ajustado por el nmero de Intervalos

  • Grficos estadsticos

    Son representaciones visuales que emplean smbolos, barras, polgonos, sectores de los datos contenidos en tablas de frecuencias

    Los ms conocidos son: Grfico de sectores Grficos de columnas Histograma Polgonos de frecuencias Curvas suavizadas o curvas de frecuencias Ojivas Pictogramas ESTADISTICA DESCRIPTIVA

  • Histograma

    Se puede considerar como un grfico de columnas especial. La diferencia radica en que el histograma se utiliza ms a menudo para representar tablas tipo B, donde el ancho de la columna equivale al ancho del intervalo de clase.

    Las frecuencias absolutas se colocan en el eje vertical y tambin puede emplearse las frecuencias relativas. Otra diferencia importante es que no existe espacio entre las barras. ESTADISTICA DESCRIPTIVA

  • Polgonos de frecuencias

    Este grfico se utiliza para el caso de variables cuantitativas. Su construccin parte de la unin de los puntos medios superiores de las barras de los diagramas de columnas e histograma, dependiendo del tipo de tabla de frecuencia manejada.

    ESTADISTICA DESCRIPTIVA

  • Ojivas En este grfico se emplea un polgono de frecuencias con una caracterstica muy particular: muestra las frecuencias absolutas o relativas acumuladas. Por ende su tendencia es siempre creciente

    ESTADISTICA DESCRIPTIVA

  • El lenguaje de las estadsticasVARIABLEEs una caracterstica o propiedad individual de la unidad en la poblacin

    Ejemplos:La edad de todos los empleados en EcuadorEl precio de todos los autos de una marca vendidos este aoEl monto total de todas las ventas hechas en Navidad por un almacnEl nmero de todos los accidentes ocurridos en un feriado

  • Los 4 elementos de un problema de estadstica descriptivaLa poblacin o muestra de intersUna o ms variables (caractersticas de inters) a ser investigadasTablas, grficos o herramientas sumarias similaresConclusiones sobre lo observado

  • Los 5 elementos de un problema de estadstica inferencialLa poblacin de intersUna o ms variables (caractersticas de inters) a ser investigadasLa muestra estadsticamente significativaLa inferencia que se hace sobre la poblacin basados en la muestraLa medida de confianza de la inferencia

  • Los Tipos de DatosCualitativosCuantitativosDatosNominalesOrdinalesDiscretosContinuosSaborOrden de llegadaNmero de hijosPeso* Variables Determinsticas y Aleatorias

  • MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE DISPERSIN MEDIDAS DE ASOCIACIN MEDIDAS DE POSICIN

  • Medidas de Tendencia CentralSon indicadores estadsticos que muestran hacia que valor (o valores se agrupan los datos.

    Medidas: MediaModaMediana

  • Tipos de MedidasMedia (promedio). Es la suma de todos los valores divido por el numero de ellos (promedio simple).

    MUESTRALVentajas * Es la medida de tendencia central ms usada. * Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en los datos). * Se emplea a menudo en clculos estadsticos posteriores. * En la grfica de frecuencia representa el centro de gravedad. Desventajas *Es sensible a los valores extremos. *No es recomendable emplearla en distribuciones muy asimtricas. *Si se emplean variables discretas o cuasi-cualitativas, la media aritmtica puede no pertenecer al conjunto de valores de la variable.

  • Tipos de MedidasMediana. Es un indicador que divide en dos partes iguales la base de datos.Para su calculo deben ordenarse primero los datos de menor a mayor.Luego dependiendo del nmero de datos se escoge la tendencia.

    Ventajas *Es estable a los valores extremos. *Es recomendable para distribuciones muy asimtricas Desventajas *No presenta todo el rigor matemtico. *Se emplea solo en variables cuantitativas

  • Tipos de MedidasModa. Es el dato que ms se repite en la base de datos.En el caso de que dos valores presenten la misma frecuencia, decimos que existe un conjunto de datos bimodal. Para ms de dos modas hablaremos de un conjunto de datos multimodalVentajas *Es estable a los valores extremos. *Es recomendable para el tratamiento de variables cualitativasDesventajas *Pueda que no se presente. *Puede existir ms de una moda. *En distribuciones muy asimtricas suele ser un dato muy poco representativo. *Carece de rigor matemtico.

  • Tipos de MedidasAsimetra.- Mide el grado de asimetra de la distribucin con respecto a la media. La distribucin se considera simtrica si el valor del coeficiente es cero.

  • Tipos de MedidasCurtosis.- Indica que tan apuntada o plana se encuentra una distribucin respecto a un comportamiento normal (distribucin normal). Si los datos estn muy concentrados hacia la media, la distribucin es leptocrtica (curtosis mayor a 0). Si los datos estn muy dispersos, la distribucin es platicrtica (curtosis menor a 0). El comportamiento normal exige que la curtosis sea igual a 0 (distribucin mesocrtica).

  • Medidas de DispersinMedias de dispersin: Son indicadores estadsticos que muestra la distancia promedio que existe entre los datos y la media aritmtica.

    Indicadores bsicos: Desviacin media Varianza Desviacin estndar Coeficiente de variacin

    El clculo de cada uno de ellos se toma basado en la media aritmtica.

  • Medidas de desviacinDesviacin Media.- Equivale a la divisin de la sumatoria del valor absoluto de las distancias existentes entre cada dato y su media aritmtica, y el nmero total de datos.

  • Medidas de desviacinVarianza : Es el resultado de la divisin de la sumatoria de las distancias existentes entre cada dato y su media aritmtica elevadas al cuadrado, y el nmero total de datos.

    Hay que tomar en cuenta que al elevar las distancias al cuadrado, automticamente se elevan las unidades. Por ejemplo, si unidad trabajada en los datos es centmetros, la varianza da como resultados centmetros al cuadradoMUESTRAL

  • Medidas de desviacinDesviacin estndar tpica : Es igual a la raz cuadrada de la varianza.

    Habamos visto que la varianza transforma todas las distancias a valores positivos elevndolas al cuadrado, con el inconveniente de elevar consigo las unidades de los datos originales.La desviacin estndar soluciona el problema obteniendo la raz cuadrada de la varianza, consiguiendo as, un valor similar a la desviacin media.MUESTRAL

  • Medidas de desviacinCoeficiente de variacin.- Permite comparar la dispersin entre dos poblaciones distintas e incluso, comparar la variacin producto de dos variables diferentes (que pueden provenir de una misma poblacin).

    El coeficiente de variacin elimina la dimensionalidad de las variables y tiene en cuenta la proporcin existente entre una medida de tendencia y la desviacin tpica o estndar.

    Equivale a la razn entre la media aritmtica y la desviacin tpica o estndar

    MUESTRAL

  • Medidas de desviacinCoeficiente de variacin

    Si envs de la media aritmtica se emplea la mediana, obtendremos el coeficiente de variacin mediano.

    Este ndice solo se debe calcular para variables con todo los valores positivos, para dar seguridad de uno mayores a cero (un coeficiente de variacin positivo).

    MUESTRAL

  • Medidas de AsociacinSe utilizan para medir la relacin existente entre 2 variables.

    CovarianzaCorrelacin

  • Medidas de asociacinCovarianza.- Es una medida de relacin entre 2 variables.

    Sin embargo, tiene un problema debido a que es el producto de la multiplicacin de 2 variables.

  • Medidas de asociacinCorrelacin.- Mide el grado de relacin lineal entre las variables

    Desaparece el problema de a-dimensionamiento.Es un valor que se encuentra entre -1 y 1.