Est Ad is 02

Embed Size (px)

Citation preview

2. Estadstica descriptiva.2.1 IntroduccinLos procesos tienen variables de salida o de respuesta que deben cumplir por lo general con ciertas especificaciones para as considerar que el proceso funciona de manera satisfactoria. Evaluar la capacidad o habilidad de un proceso es analizar qu tan bien sus variables de salida cumplen con las especificaciones. La estadstica descriptiva nos permite analizar los datos, tanto en el contexto de un estudio de la capacidad de proceso como el desarrollo de mejora de un proceso.Elobjetivo delaestadstica descriptiva es describir un conjunto de datos numricos, que hansidoel resultadodemediciones. Por reglageneral, los datos enbrutonosondepor s particularmente informativos; sin embargo, se puede extraer una gran cantidad de informacin til deunconjuntodedatos. Los mtodos puedenclasificarseen:mtodos grficosymtodos numricos.Suponga que posee un dato, y que desea interpretar este valor con respecto a los dems, por lo general debemos preguntarnos tres cosas: cul es el dato promedio? La informacin que aqu se busca es la localizacin del punto central del conjunto de todos los datos. Para describir tal concepto se utilizan las medidas de tendencias centrales. Ahora nos interesara tener una idea acerca de la dispersin de los datos, y por ltimo cmo estn distribuidos los datos?, l concepto de distribucin describe los datos informando si los valores estn distribuidos uniformemente, o si se agrupan (o aglomeran) alrededor de cierto valor.Los cuatro conceptos indispensables en la descripcin de conjuntos de datos univariados son: (1) medidas de tendencia central, (2) medidas de dispersin o variabilidad, (3) medidas de posicin, y (4) tipos de distribucin.Eje. En un proceso de inyeccin de plstico una caracterstica de calidad del producto (disco) es su grosor, que debe ser de 1.20 mm con una tolerancia de t 0.10 mm. As, el grosor del disco debe estar dentro de la especificacin inferior, EI = 1.10, y la superior, ES = 1.30, para considerar queel procesodeinyeccinfuesatisfactorio. Enunestudiodecapacidadparaesteprocesoes necesariocontestarlassiguientesinterrogantes: qutipodediscosencuantoagrosorseestn produciendo? El grosor medio es adecuado? La variabilidad del grosor es mucha o poca?En general, para evaluar qu tan bien cumple el proceso con especificaciones es necesario tomar muestras del productoyhacer lasmedicionescorrespondientes. El anlisisdelosdatos resultantes es hacer un estudio de capacidad.2.2 Datos sobre mediciones y errores.Errores en la medicin.Exactitud y precisin de las mediciones.Los diversos instrumentos y calibradores de medicin (como las bsculas y los voltmetros) tienen distintas caractersticas. Por ejemplo, se dice que un instrumento es exacto si las mediciones 12repetitivas del mismoobjetoproducenunpromedioigual asuvalor real. Uninstrumentoes inexactosi produce valores cuyo promedio es distinto al valor real. Por otro lado, la precisinse relaciona con la dispersin de las mediciones con base en su promedio. En particular, una dispersin pequeareflejaunagranprecisin, yunadispersingrande, bajaprecisin. Esposiblequeun instrumento sea inexacto, pero preciso, o exacto, pero impreciso. Por lo que hay que observar que hay que calibrar peridicamente los instrumentos contra un patrn externo.Laprecisindeun determinado valor medido siempre estar limitada por la precisin del instrumento de medicin empleado. Esta limitacin debe ser considerada cuando se registran o se reportan datos que son el resultado de mediciones. El nmero de cifras significativas en un valor medido deber normalmente ser escogido de tal forma que la imprecisin se d slo en la ltima cifra.Aun cuando se use en forma correcta, un instrumento de medicin puede no dar una lectura verdaderadelacaracterstica. Ladiferencia entre el valor verdadero yel valormedido se puede deber a problemas de: Precisin.La precisin de un instrumento es el grado en que el instrumento repite sus resultados cuando se hacen mediciones repetidas sobre la misma unidad o producto. La dispersin de estas medidas se puede denotar por E . Que es la desviacin estndar del errordemedicin.(Ladispersin, por lo general, se debe al error aleatorio). Mientras menor sea el valor mnimo de E el instrumento es ms preciso (figura 2.1). Sesgo. El sesgo de un instrumento es el grado en el que el promedio de una serie larga de mediciones repetidas hechaspor uninstrumentosobreunasolaunidaddeproducto difiere del valor verdadero. Esta diferencia casi siempre se debe a un error sistemtico en el proceso de medicin. En este caso se dice que el instrumento se encuentra fuera de calibracin.13Fig. 2.1 Distincin entre sesgo y precisin.Existe una gran confusin en cuanto a la terminologa. Esta confusin se extiende a los catlogos de instrumentos. La American Society for Testing and Materials (ASTM) ha estudiado desde hace mucho los aspectos de precisin y sesgo, en trminos generales y para las aplicaciones a materiales especficos. Se tomarn como gua sus ltimas definiciones de los trminos importantes y sus recomendaciones sobre cmo expresar la precisin y el sesgo:ASTM (1986) utiliza las siguientes definiciones: Exactitud.Esunconceptogenricodeexactitudrelacionadoconlacercanaentreel promediodeunoomsresultadosdepruebasyunvalor dereferenciaaceptado. La exactitud depende de la imprecisin y el sesgo del mtodo de prueba. Precisin.Es un concepto genrico relacionado con la cercana entre los propios resultados de las pruebas, obtenido bajo condiciones prescritas a partir del proceso que se est evaluando.Sesgo.Esunconceptogenricorelacionado conuna diferencia,consistente osistemtica, entre un conjunto de resultados de prueba de un proceso y un valor de referencia aceptado para la caracterstica que se est midiendo.Errores.14Los datos de mediciones incluyen algn elemento de error. A veces la fuente predominante de error es un instrumento insuficientemente ajustado, o bien, el uso de una frmula o un procedimiento inadecuado. Se denomina a tales errores como consistentes.Los datos cuidadosamenteobtenidos noincluyengeneralmenteerrores consistentes. Sin embargo, hay otro tipo de error que est presente en todos los datos de mediciones. Este es el error aleatorio, que suele provenir de fluctuaciones en el instrumento de medicin, o de variaciones en la percepcin del observador.Los errores nunca pueden ser eliminados completamente, su impacto puede ser reducido a un nivel aceptable por medio de una cuidadosa tcnica experimental.Eje. La resistencia de un resistor calibrado a 10 ha sido medida cuidadosamente seis veces, resultados 9.83, 10.05, 10.27, 9.91, 10.03, 9.86. Si calculamos el promedio de seis datos, obtenemos:Rprom = 1/6(9.83 + 10.08 + 10.27 + 9.91 + 10.03 + 9.86) = 10.00 En los errores aleatorios, es ms probable que ocurran errores pequeos que grandes errores; que los errores grandes son muy improbables; y que los errores positivos y negativos son igualmente probables y por consiguiente tienden a eliminarse mutuamente.Unavezquesehaestablecidounvalor promedioparaunaseriedemediciones, estil calcular lasdesviacionesdelosvaloresindividualesrespectodel promedio. Cadadesviacines aproximadamente igual al error aleatorio asociado con esa medida.di = xi - xpromEndonde di = desviacin de la medicin i respecto del promedio. xi = valor de la medicin i xprom = valor promedioSi se dispone de un valor aceptado como verdadero, o si no se conoce, entonces el promedio de los valores medidos se usa en su lugar, el error absoluto en un valor medido se define comoei = xi / xEn dondeei = error absoluto en la medicin de i xi = valor de la medicin i x = valor aceptado como verdaderoEl error relativo se define como la razn del error absoluto respecto del valor aceptado como verdadero.ri = ei / x = (xi / x) /xmultiplicado por 100, el valor relativo se convierte en el error porcentual.152.3 Diagrama de Pareto y diagrama de puntos.Paradarlainformacinvitalnecesariapararesolverproblemasdeingeniera, senecesita reunir datos. Una vez reunidos, esos datos se deben describir y analizar para producir informacin resumida. Con frecuencia, las representaciones grficas pueden ser el medio ms eficaz de comunicar esa informacin.Cuntas veces, al analizar algn problema especfico, nos vemos abrumados por una gran cantidadde informacin respecto a las posibles causas que pudieron darle origen, sinpoder identificar aquellas que tienen mayor relevancia? Es decir, no podemos distinguir lo bsico o vital de lo trivial.Eldiagramade Paretoesuna grfica en donde se organizan diversas clasificaciones de datos por orden descendente, de izquierda a derecha por medio de barras sencillas despus de haber reunido los datos para calificar las causas. De modo que se pueda asignar un orden de prioridades. Adicionalmente, permite observar en forma acumulada la incidencia total de las fallas o factores en estudio.El anlisis de Pareto se basa en determinar elpequeo nmero de causas que da lugar a un gran nmero de fallos. Para ello se representan en abscisas las causas y en ordenada el porcentaje de fallos. Este diagrama recibe el nombre de diagrama de Pareto. .- El diagrama de Anlisis de Pareto se basa en el principio de que toda situacin problemtica o resultado adverso, es consecuencia directa de muchas causas, la finalidad es determinar qu tipos de problemas son prioritarios a resolver y cual debera de ser su orden. Para dar solucin a estos problemas es necesariodeterminar cual ocualesdeestostienenmayor contribucinenelresultado final. Estaherramientadeanlisisesvaliosaporquesuanlisisdaprioridadesaciertasactividadesprincipales, evitando perder esfuerzos, recursos y tiempo, atacando causas que en muy poco contribuyen a mejorar un problema. El anlisis de Pareto permite identificar cual o cuales causas tienen mayor contribucin importante en el problema y actuar de manera acertada y con efectividad en su solucinMediante el diagrama de Pareto se pueden detectar los problemas que tienen ms relevancia mediantela aplicacin delprincipiode Pareto (pocos vitales, muchos triviales) que dice que hay muchos problemas sin importancia frente a solo unos graves. La ley emprica de Pareto dice que cualquier conjunto de eventos consiste de unos pocos elementos principales y muchos secundarios. Casi siempre, dos o tres elementos explicarn ms de la mitad de la frecuencia total. En el contexto del mejoramiento de la calidad, deseamos seleccionar las pocas oportunidades principales de mejoramiento apartndolas de las correspondientes oportunidades triviales o de menor importancia. Yaquepor logeneral, el 80%delos resultados totales seoriginanenel 20%delos elementos o pocosvitales,muchos triviales, el cual reconoce que unos pocos elementos (20%) generan la mayor parte del efecto (80%) y el resto de los elementos generan muy poco del efecto total.16La minora vital aparece a la izquierda de la grfica y la mayora til a la derecha. Hay veces que es necesario combinar elementos de la mayora til en una sola clasificacin denominada otros, la cual siempre deber ser colocada en el extremo derecho. La escala vertical es para el costo en unidades monetarias, frecuencia o porcentaje.La grfica es muy til al permitir identificar visualmente en una sola revisin tales minoras de caractersticas vitales a las que es importante prestar atencin y de esta manera utilizar todos los recursos necesarios para llevar a cabo una accin correctiva sin malgastar esfuerzos.Eje. Parauntornocontroladopor computadoracuyodesempeoestabapor debajodel promedio, los operarios registraron las siguientes causas y sus frecuencias:Fluctuaciones de corriente 6Controlador inestable 22Error del operador 13Herramienta gastada no cambiada 2Otros 5Esos datos se presentan en la Fig. 2.2 en un Diagrama de Pareto. Este diagrama Controlador inestable 22 0.45833333Error del operador 13 0.27083333Fluctuaciones de corriente 6 0.125Herramientas gastadas 2 0.04166667otros 5 0.1041666748 17Fig. 2.2Diagrama de ParetoEste diagrama enfatiza visualmente la importancia de reducir la frecuencia del comportamiento anmalo del controlador. Una meta inicial puede ser la de reducir a la mitad esa frecuencia.Como segundo pasohacia el mejoramiento del proceso, se recabaron datos sobre las desviaciones de la velocidad de corte con respecto al valor deseado y ajustado por el controlador. Los siete valores observados de (velocidad de corte) (velocidad deseada) fueron3, 6, -2, 4, 7, 4, 3ysepresentancomoundiagramadepuntosenlaFig. 2.3. El diagramadepuntos resume visualmente la informacin de que el torno, por lo general, trabaja ms rpido. -20 2 4 6 8 Fig. 2.2 Diagrama de puntosFig. 2.3 Diagrama de puntosCuando es pequeo el nmero de observaciones, resulta difcil identificar cualquier tendenciadevariacin. Sinembargo, esbuenaideagraficar los datos ybuscar caractersticas anormales.Para el caso de que un conjunto de datos conste de un gran nmero de observaciones. Las observaciones se resumen en una tabla.Algunos ejemplos de tales minoras vitales seran: La minora de clientes que representen la mayora de las ventas.18 Laminoradeproductos, procesos,ocaractersticasdelacalidadcausantes del grueso de desperdicio o de los costos de reelaboracin. La minora de rechazos que representa la mayora de quejas de la clientela. La minora de vendedores que esta vinculada a la mayora de partes rechazadas. La minora de problemas causantes del grueso del retraso de un proceso. La minora de productos que representan la mayora de las ganancias obtenidas. La minora de elementos que representan al grueso del costo de un inventario.Principales aplicaciones:- Separar problemas importantes de los menos importantes (C, F).- Indica por cual problema empezar (C).- Confirmar resultados de mejoras realizadas.Eje. De la tabla siguiente:PorcentajeCosto unitario de produccin, $Parcial, % Acumulado, %Energa 500 50 50Mat. Prima A 300 30 80Mat. Prima B 150 15 95Mano de obra 50 5 100Total: 1000 100Delatablaanterior permiteobservarqueel problemavital estlocalizadoenel usode energa, en tanto que la mano de obra tiene una importancia trivial, lo cual puede servir de base paraestablecer unaestrategiaorientadaareducir costos. Consideremos querealizamos una mejora y abatimos el consumo de energa en un 50%, y que logramos finalmente una reduccin en nuestro costo de produccin del 25 por ciento. La comparacin entre ambos casos se puede apreciarenlosdiagramasdeParetoquesemuestranabajoydondesesealaconclaridadel efecto de la mejora.19Representaciones tallo-hoja.La tcnica para compendiar datos numricos conocida como representacin tallo-hoja son idneasparaaplicarseenel usodelacomputadora. Dichatcnicaesunacombinacindedos procedimientos: uno grfico y otro de ordenacin. (Ordenar datos es formar una lista de ellos en un casodeacuerdoconsuvalor numrico.) Losvaloresdelosdatosseutilizanparaefectuar tal ordenacin. El tallo se forma con el (los) primeros dgito(s) del dato, mientras que la hoja se forma con los dems dgitos siguientes.Por ejemplo, el valor numrico 458 se dividir en 45-8 como se muestra a continuacinDgi tos ini cial esDgit os sucesivos45 8Ut ili zados en la ordena cin Mostrado en lar epreta -cinEje. Construir una representacin tallo-hoja para el siguiente conjunto de 20 calificaciones.82748866 58747884967662687292 867652768278En una inspeccin rpida se ve que hay valores en los grupos del 50, 60, 70, 80, y 90. El primerdgitodecadavalordebeutilizarse como tallo,y elsegundo como hoja.Casi siempre la representacinseconstruyeendisposicinvertical. Trceseunarectavertical ycolquenselos tallos a su izquierda, en columna98720Enseguidacolquesecadahojajuntoasutallo. Estosehaceescribiendoel dgitosucesivo correspondiente a la derecha de la recta vertical. El valor del primer dato es 82; 8 es el tallo y 2 es la hoja. Por lo tanto se ubica el 2 frente al 8.8|2El valor del datosiguientees 74, demaneraqueseescribelahoja4frente al tallo7, yas sucesivamente. La figura 2.4 muestra la representacin tallo-hoja que resulta.2 62 6 4 8 28 6 6 2 6 8 4 48 2 62 898765Fig. 2.4 Diagrama tallo-hoja.EnlaFig. 2.4sehanpuestoenlamismalneadehojasoramastodaslacalificaciones puntajes que tienen las mismas decenas. Suponga que se reconstruye la representacin y ahora en vez de agrupar cinco valoresposibles para cada tallo, se agrupan los valores de manera que slo puedan estar diez para cada tallo. Se nota alguna diferencia en el aspecto de la figura 2.5? Es muy semejantelaforma general, aproximadamentesimtricarespectoal 70. Es tpicoquemuchas variablesmuestrenunadistribucinqueseconcentra(formandounmontculo) alrededor deun valor central y se extiende luego a un lado y otro.(50-54)52(55-59)58(60-64)62(65-69)668(70-74)7444(75-79)786668(80-84)8242(85-89)886(90-94)92 (95-99)96 Fig. 2.5Fig. 2.5Unarepresentacingrficarevelafrecuentementealgoqueel analistapudoonohaber previsto.Eje. Se seleccion una muestra al azar de 50 estudiantes de una universidad. De sus registros mdicos se obtuvieron sus pesos (en libras). Los datos obtenidos se presentan en la siguiente tabla.Estudiante 1 2 3 4 5 6 7 8 9 1021Hombre/mujer M H M H H M M H H MPeso 98 150 108 158 162 112 118 167 170 120Estudiante 11 12 13 14 15 16 17 18 19 20Hombre/mujer H H H M M H M H H MPeso 177 186 191 128 135 195 137 205 190 120Estudiante 21 22 23 24 25 26 27 28 29 30Hombre/mujer H H M H M M H H H HPeso 188 176 118 168 115 115 162 157 154 148Estudiante 31 32 33 34 35 36 37 38 39 40Hombre/mujer M H H M H M H M H HPeso 101 143 145 108 155 110 154 116 161 165Estudiante 41 42 43 44 45 46 47 48 49 50Hombre/mujer M H M H H M M H H HPeso 142 184 120 170 195 132 129 215 176 183Se debe advertir que los pesos varan entre 98 y 215 libras. Los valores de peso se agrupan para tallos de 10 unidades utilizando los dgitos de las centenas y decenas como tallos, y los de las unidades como hojas.0 9 8 1 0 8 181 1 2 885 50 61 2 0 800 91 3 5 721 4 8 35 21 5 0 874 541 6 2 782 151 7 0 760 61 8 6 8431 9 1 5052 0 5 2 1 5 Fig.2.6Fig. 2.6Unainspeccinmsdetalladadelafigura2.6indicaquepuedehaberdosdistribuciones traslapadas. Eso es exactamente lo que se tiene. Una distribucin para los pesos de las alumnas y otra para los pesos de los alumnos. La figura 2.7, la cual muestra una representacin tallo-hoja de tipoadosadoparaeseconjuntodedatos, evidenciaqueenrealidadsetienendosdistribuciones distintas.22MujerHombre 8 09 8 1 8 10 6 0 5 5 8 8 211 9 0 0 8 012 2 7 513 214 158 3 5 160 8 7 4 5 4 170 7 6 0 6 186 8 4 3 191 5 0 5 205 215 Fig. 2.7 Fig. 2.72.4 Distribuciones de frecuencias.Con frecuencia es deseable presentar un conjunto de datos en trminos de los nmeros de eventos que ocurren en varios intervalos adyacentes. Estos nmeros especifican la distribucin de los datos. As consideramos alapoblacincomounadistribucindemediciones devalores especficos de las variables independientes. De manera que nuestro objetivo, consiste en establecer la relacin entre la variable dependiente, y un conjunto de variables independientes, se traduce en determinar cul es el efecto de las variables independientes en la distribucin terica de las medidas de la poblacin.Una poblacin individual (o cualquier conjunto de medidas) puede describirse mediante una distribucin de frecuencias relativas, tambin llamada histograma de frecuencias relativas.Construccin del histograma de frecuencias relativas.De un conjunto de datos:20.5 19.5 15.6 24.19.915.4 12.75.4 17.0 28.616.97.8 23.3 11.8 18.4 13.4 14.3 19.29.2 16.88.8 22.1 20.8 12.6 15.9En primer lugar se deben ordenar los datos ascendentemente:5.4 11.8 15.4 17 20.87.8 12.6 15.6 18.4 22.18.8 12.7 15.9 19.2 23.3239.2 13.4 16.8 19.5 24.19.9 14.3 16.9 20.5 28.6Se observa que el nmero mayor es 28.6 y el menor es 5.4. Surge la pregunta de cmo se distribuyenenesteintervalolos otros 23valores intermedios. Pararesponder aestapregunta, dividimos elintervalo en cuestinen subintervalos de igual longitud. La eleccin del nmero de subintervalos debe basarse en la cantidad de datos que se consideran. Es comn usar entre 5 y 20 subintervalos. Para determinar la longitud de cada intervalo de clase se divide la diferencia entre el nmero mayor y el menor entre el nmero de subintervalos. Para los datos de nuestro ejemplo se pueden usar los subintervalos de 5.00 a 8.99, de 9.00 a 12.99, de 13.00 a 16.99, ....... Ntese que los puntos que definen los subintervalos fueron escogidos de forma tal que ninguno de los datos quede enel puntodivisorio, paraeliminar laambigedadal asignarlasobservaciones. Enel lenguaje estadstico a estos subintervalos se les da el nombre de intervalos de clase o simplemente clases. A diferenciadelafrecuenciadedatosno agrupados los valores dex no se combinanparaformar grupos, sino que cada x es un grupo en si. En este caso la frecuencia f es el nmero de veces que ocurre el valor x en la muestra (no muy grande (15 o 20).)Tabla 2.1 Frecuencia relativa para los 25 valores.Clase Fronteras de claseMarca de claseFrecuencia de clase, fiFrec. Relativa de clase, friFrec. acumulada1 5.00-8.99 6.995 3 0.12 0.122 9.00-12.99 10.995 5 0.20 0.323 13.00-16.9914.995 7 0.28 0.604 17.00-20.9918.995 6 0.24 0.845 21.00-24.9922.995 3 0.12 0.966 25.00-28.9926.995 1 0.04 1.00Totales 25 1La marca de clase es el punto medio de cada clase (x1 = (5.0 +8.99)/2 =6.995)El nmero de observaciones que caen en una clase dada, por ejemplo la clase x, es llamada la frecuencia de clase (fi ) o frecuencia absoluta.Y a la fraccin total de observaciones que caen en la clase es la frecuencia relativa (medida proporcional de la frecuencia de un suceso).frecuencia relativa = fi / NEs fcil verfi0, yque fi= 1. De este modo, las frecuencias relativas pueden ser interpretadas como factores de ponderacin (para los intervalos, no para los datos individuales).24La tabulacin final puede representarse grficamente mediante unhistograma de frecuenciastambin conocido a menudo como distribucin de frecuencias, puesto que muestran comolos datos quetomalavariable consusrespectivas frecuencias sedistribuyenenel eje horizontal delagrfica. Asladistribucindefrecuenciasesunatabulacindedatosarreglada segn su tamao.00.20.41 2 3 4 5 6Serie1 Fig.2.8 Histograma de frecuencias Al inspeccionar el histograma podemos interpretar varias caractersticas como:Qu fraccindevaloresson17.0omayores?Observandoel histogramaesclaroqueestafraccin comprendelasclasesaladerechade17.0. Delatabla2.1setieneque10valorestienentasas mayores o iguales a 17.0, esto es, la fraccin de 10/25, o 40%, este es tambin el porcentaje del rea total del histograma que esta a la derecha de 17.0.Suponga que cada uno de los 25 datos se anota en un pedazo de papel y se colocan en un sombrero. Se sacaal azarunpapeldel sombrero. Cul es la probabilidad de que el papel tenga escrito un valor mayor o igual a 17.0? Puesto que 10 de las 25 papeletas tienen valores mayores o iguales a 17.0, se tienen 10 de 25 posibilidades. Se dice que la probabilidad en cuestin es de 10/25.Si setomaal azar unaobservacindelosdatos, lafrecuenciarelativadeunaclaseen particular representa la probabilidad de que la observacin caiga en esa clase. La caracterstica ms importantedel histograma defrecuencias muestral es queproporcionainformacinacercadel histograma de frecuencias de toda la poblacin, la simetra, la localizacinde las modas y el grado de dispersin. En lafigura 2.8, es claro que la distribucin es unimodal y asimtrica respecto de la moda, favoreciendo valores altos (asimetra positiva). La moda esta ubicada entre 13 y 16.99. Los datos se dispersan en una amplitud de 24 que va de 5 a 29.El polgono de frecuencias, es la poligonal que une los puntos medios de las bases superiores de los rectngulos.25 Fig. 2.9 Polgono de frecuenciasEl polgono de frecuencias acumulada, se utiliza para representar distribuciones de frecuencias acumuladas agrupadas en intervalos.Enel ejedeabscisasserepresentanlosdistintosintervalosdeclase. Sobreel extremo superiordecadaintervalodeclasese levanta una lnea perpendicular de altura proporcional a la frecuencia absoluta acumulada del intervalo. Partiendo del extremo inferior del primer intervalo y uniendo los extremos de las lneas anteriores, se obtiene el polgono de frecuencias acumuladas.26Fig. 2.10 Polgono de frecuencias acumuladas Entre menos clases se elijan, ms sencilla se vuelve la distribucin de la muestra agrupada pero se pierde ms informacin debido a que ya no aparecen explcitamente los valores originales de la muestra. Debe llevarse a cabo la agrupacin de modo que nicamente se eliminen los detalles noesenciales.Lascomplicaciones innecesarias en la aplicacin final de una muestra agrupada se evitan obedeciendo las reglas siguientes:1. Todos los intervalos de clase deben tener la misma longitud.2. Los intervalos de clase deben elegirse de manera que las marcas de clase correspondan a nmeros sencillos (nmeros con pocos dgitos diferentes de cero)3. Si un valor de xi de la muestra coincide con el punto extremo comn a dos intervalos de clase, se toma en ese intervalo de clase que se extiende de xi a la derecha.Los histogramas.Brevemente al describir histogramas se utilizan los trminos siguientes:Normal (simtrico): Los lados de esta distribucin son idnticos, respecto de una lnea eje.Uniforme: Cada valor aparece con la misma frecuencia.Sesgado (asimtrico):Una extremidad o cola esta ms extendida que la otra. El sesgo corresponde a la mayor extensin de la extremidad.En forma de J: No existe extremidad o cola en el lado de la clase con frecuencia mayor.Bimodal: Lasdosclasesconmayor frecuenciaestnseparadas por una o ms clases. A menudo esta situacin implica que han sido muestreados dos poblaciones.27Normal: Distribucin simtrica cuyas clase ms frecuente se localizan a uno y otro lado de la media, mientras que los menos frecuentes se encuentran en los extremos.Otros tipos de grficas sonlas grficas de lneas, los diagramas de barras y los diagramas circulares.Los diagramas de barras sirven principalmente para representar el total de una cierta cantidad para cada ao o para cada categora presentada. En contraste, los diagramas circulares se usan para mostrar como una cantidad total se reparte en un grupo de categoras.282.5 La funcin de probabilidad.Una distribucin de frecuencias representar con frecuencia algn tipo de proceso, compuesto por un nmero de eventos que ocurren al azar. Si el conjunto de datos es lo suficientemente grande para ser verdaderamente representativo, del proceso, entonces cada una de las frecuencias puede ser interpretada como la probabilidad de que un evento casual ocurra dentro del intervalo correspondiente. Y as, las poblaciones estudiables estadsticamente, son aquellas en lasquepodemosagrupar alosindividuosdelapoblacinenunaseriedeclasesenlasquela caracterstica estudiada tienen el mismo valor paratodos ellos.29Unavezestablecidalasclases, si hacemosel censodelapoblacinrespectoanuestra caracterstica, tendramos una tabla del tipo:ClaseNo. de individuosFrec.relativaAN1N1 / N BN2N2 / NCN3N3 / NDN4N4 / N NEn la cual sealamos con N1 el nmero de individuos que pertenecen a la clase A, etc.Si imaginamos un experimento en el que tomamos al azar, con reemplazamiento, un individuo de la poblacin y examinamos solamente si pertenece o no a la clase A, y repetimos N veceslaexperiencia, estclaroquelafrecuenciarelativadequepertenezcaalaclaseAser variable en cada nuevo experimento, pero al final ser indudablemente N1/N, puesto que en nuestra poblacinhabaN1individuos quepertenecanalaclaseA. Tendramos aqu unexperimento aleatorio, regidopor laleydel azar, oseadetal tipoquelas frecuencias relativas tendana estabilizarse. La probabilidad es el valor de estabilizacin, por ello a la probabilidad del suceso A en esapoblacinleasignaramoselvalor N1/N. Si hacemos el mismo razonamiento para B, C y D, tendramos:P(B) = N2/N,P(C) = N3/NP(D) = N4/NSe ve fcilmente queP(A)+P(B)+P(C)+ P(D)=1Si en nuestra poblacin slo existen las clases A, B, C y D y habamos dicho que todos los individuos pertenecan a una clase y slo a una, si por P(A + B + C + D) designamos la probabilidad de que pertenezcan o bien a la clase A, o a la B, o a la C, o a la D, esto es un hecho cierto y su probabilidad debe ser uno. Por ser mutuamente excluyentes los sucesos, podemos poner, a partir del segundo axioma,P(A + B + C + D) = P(A)+P(B)+P(C)+ P(D) =1Vemos, pues, que asignando a cada suceso la probabilidad tal como la hemos definido, como el cocienteentrelafrecuenciadeindividuosenlapoblacinyel nmerototal destos, estas probabilidades cumplen con los axiomas establecidos.A estos valores P(A), ......., P(D), ... se les llaman valores de la funcin de probabilidad de la poblacin.Cada suceso Atendr un valor P(A) que ser una funcin del suceso A, f(x) llamada funcin de frecuencia de la muestra: Indica como estn distribuidos los valores de la muestra. Por tanto, se dice que determina la distribucin de frecuencia de la muestra..302.6 La funcin de distribucin.Consideremoscomoantes, unapoblacindeNindividuosdivididaencuatroclases, de frecuencias N1,N2,N3yN4. Y vayamos acumulando las frecuencias de la forma indicada en el cuadro. Clase Frec. Frec. acum. Funcin de distribucinA N1N1 N1 / N = P(A) = F(A)B N2 N1 + N2 (N1 + N2)/N =P(A) + P(B) = F(B)C N3 N1 + N2 + N3 (N1 + N2 + N3 )/N = P(A) + P(B) + P(C) = F(C) DN4 N1+ N2+N3+N4(N1+N2+N3+N4)/N=P(A)+P(B)+P(C)+P(D)=F(D) Al dividir por el nmero N, obtendremos sumas de los valores de la funcin de probabilidad. Por ser las clases mutuamente excluyentes P(A) + P(B) ser la probabilidad de que un individuo pertenezca a la clase A o a la clase B, etc.Queda, pues, paracadaclasex, definidaunafuncinF(x) quesedenominafuncinde distribucin(ofuncindefrecuenciaacumulada) yquenosindicalaprobabilidaddequeun individuo pertenezca a la clase x o a alguna de las anteriores. Si en una poblacin tenemos definida la funcin de probabilidadcorrespondiente a unas clases, vemos que tambin quedar definida la funcindedistribucindeesasmismas clases y viceversa.Pues si conocemosF(A),F(B),F(C), F(D) obtendramos fcilmente f(x) sin ms que hacerP(A) = F(A),P(B) = F(B) - F(A),P(C) = F(C) - F(B),etc.Ya que, por la definicin de probabilidad, todos los P(x)0, deducimos que la funcin de distribucin ser no decreciente, valiendo 0 para toda clase inferior a A y valiendo 1 para la clase D y todas las siguientes.31Fig. 2.11 Funcin de distribucin de una variable discreta2.7 Funcin de densidad.Supongamos Fig. 2.12 el intervalo continuo de variacin dividido en un nmero suficiente de clases iguales, para cada una de las cuales tengamos una probabilidad finita, o sea, segn dijimos antes, conocemos la funcin de probabilidad de esa descomposicin en clases. 32Fig. 2.12 Funcin de densidad de una variable discretaTracemossobrecadaclase, cuyalongitudllamaremos dx, unrectngulodealtura P(I)/dx siendo P(I) la probabilidad correspondiente a la clase I. El rea de cada rectngulo ser ahora) () (I P dxdxI PLa suma de las reasde todos los rectngulos valdr evidentemente 1. En lo que sigue se considera, para facilitar la explicacin, que x slo toma valores mayores que A.Segn habamos definido anteriormente, la funcin de distribucin se verificar que F(j), por ejemplo, ser la suma de las reas de todos los rectngulos anteriores al J, ms el rectngulo J.Si las dimensiones dx de las clases van hacindose cada vez ms pequeas y en el supuesto de que conozcamos la probabilidad de las nuevas descomposiciones, la lnea poligonal superior de los rectngulos ir cada vez ms parecindose ms a una lnea continua.33Fig. 2.13 Funcin de densidad de una variable continaEl valor de cada altura seguir siendo P(x)/dx, en la que tanto P(x) como dx tienden a cero, lo que no impide que su cociente pueda tener un valor finito. La funcin de distribucin para A2, por ejemplo, seguir siendo, como antes, el rea comprendida entre A y A2. Si llamamos f(x) a la funcinanalticaquedelimitalasreas, se sabe que el rea anterior F(A2) viene definida por la integral de la funcin f(x) entre A y A2. La funcin representada por la curva f(x) se ha dicho que eraf(x) =P(x) / dx, de dondeP(x) = f(x). dxComo sabemos que:P(A < x A2) = P(A < x< A1) + P(A1 < x A2)Vemos, pues, que podemos determinar el valor de la funcin de probabilidad y la de distribucin de nuestra poblacin en cualquier intervalo cuando conozcamos f(x).Lanicacondicinquehabrdecumplir lafuncinf(x) tendrqueser por el axioma segundo que:1 ) ( BAdx x fSi esta condicin se cumple, f(x) definir una funcin de distribucin y, por tanto, una funcin de probabilidadenelintervaloA-B. Aestafuncinf(x)seladenominafuncindedensidadpor consideraciones mecnicas de asimilacin de los problemas de probabilidad a los de distribucin de unamasaunidadsobreuneje; perolaimagenintuitivaquetal asimilacinproporcionapuede conducir, quiz, ms a error que a comprender su significado.Si una variable tiene una funcin de densidad continua f(x) hemos visto que esto no significa que la probabilidad para un valor de la variable xi sea f(xi), sino que f(xi) es el 34dxx Pm i l x fidx i) () (0 Como hemos visto, esta probabilidad P(xi) tiende a cero a medida que disminuye dx y, por tanto, nunca estaremos interesados en ella. Nuestro inters ser siempre determinar la probabilidad de que x pertenezca a un intervalo, por ejemplo, b a y esta probabilidad hemos visto que puede obtenerse mediante la funcin de distribucin: < < < < badx x f a F b F b x a P b x a P b x a P b x a P ) ( ) ( ) ( ) ( ) ( ) ( ) (Se comprueba que la probabilidad de un punto es 0 ) ( ) ( aadx x f a X PNodebepreocupar el hechodequesedebaasignar probabilidadceroacualquier valor especfico, ya que hay un nmero infinito de valores posibles que puede asumir X. Por ejemplo, de todos los valores posibles que puede tener la vida til de un transistor, cul es la probabilidad de que el transistor que usted est usando dure exactamente 497.392 horas? La asignacin de probabilidad cero a este evento no elimina a 497.392 horas como vida posible, sino slo dice que la probabilidad de observar esta vida determinada es extremadamente pequea.Si la funcin f(x) tuviera una funcin integral explcita sera muy sencillo hallar los valores para cualquier intervalo, de la funcin de distribucin.2.8 Medidas descriptivas numricas.Las limitaciones de las grficas, en la descripcin y anlisis de conjunto de datos, as como enlarealizacindelainferenciaestadstica(similitudentrelamuestraylapoblacin), si no coinciden es necesario medir hasta quegrado difieren, o bien del grado de similitud.Las limitaciones de los mtodos grficos pueden salvarse con el uso de medidas descriptivas numricas. Conbaseenlos datos mustrales esposiblecalcular unconjuntodenmeros que 35proporciones al estadstico una buena imagen mental de la distribucin de frecuencias de la poblacin y que resulte til para hacer inferencias acerca de las caractersticas de la poblacin.Lasmedidasdescriptivasnumricascalculadasapartir del total deobservacionesdela poblacin se denominan parmetros;aquellos calculados de las observaciones de una muestra se denominan estadsticos.2.9 Medidas de tendencia central.Lasmedidasdetendenciacentral sonparmetrosestadsticosquetiendenalocalizar, en algn sentido la parte central de un conjunto de datos.Los parmetros ms frecuentementeutilizados seclasificanendos grandes grupos: los parmetros de posicin representativos alrededor de los cuales tienden a agruparse los datos y los de dispersin(odedeterminacin)delosdatos. Lasmedidasdeposicinsirvenparadescribirla localizacin de un dato especfico en relacin con el resto de la muestra. Mientras las medidas de dispersin describen el grado de dispersin o variabilidad de los datos.Entre los primeros tenemos la media, la moda, la medianay cuartilesprincipalmente, y entre los segundosseutiliza en estadstica con carcter casi exclusivo elrango, la varianzay la desviacin estndar.Media.Si tenemos la medida de una caracterstica en todos los individuos de la poblacin, el valor medio o media de esta caracterstica se obtiene dividiendo la suma de las medidas por el nmero total de ellas (promedio aritmtico simple.)La media aritmtica de un conjunto de N observaciones x1, x2, ...., xn es igual a la suma de las observaciones divididas entre NNxNii 1Cuando, y es el caso ms frecuente, hemos establecido una clasificacin previa tendremos agrupadas las medidas en clase con la frecuencia correspondiente (promedio ponderado.) kii ikiikii ikii ifr xff xNf xX111 1(xi en este caso se refiere a la marca de clase.)Para nuestro ejemplo la media es:361625400256 . 28 1 . 24 ... 8 . 8 8 . 7 4 . 5 + + + + + xo en forma frecuencial:6.995 0.120.839410.995 0.202.19914.995 0.284.198618.995 0.244.558822.995 0.122.759426.995 0.041.0798 x15.635Una propiedad aritmtica de la media es que la suma de las desviaciones, con su signo, de las medidas de cada individuo respecto a la media vale cero.( ) 01 niix xLamediacomomedidadescriptivatieneladesventajadeverseseriamenteafectadapor valores extremos. Por ejemplo, considere los siguientes datos que se refieren a la edad al momento de la muerte de cinco personas: 34, 64,68,70 y 74La media es de 62 aos. Note que cuatro de las cinco personas tenan una edad mayor a la edad promedio al momento de la muerte.La media, en este caso se vio seriamente afectada por la persona que muri a los 34 aos (este sera un valor extremo).Si los valores de la variable estadstica son grandes, se simplifican los clculos haciendoA x d d A xi i i i + siendo A una constante que se puede elegir arbitrariamentekk kn n nd n d n d nA x+ + ++ + ++ ......2 12 2 1 1Paradatos agrupados enquetodos los intervalos declasetienenigual amplituda, se simplifican los clculos haciendo:37a A xuiisiendo A una constante que se puede elegir arbitrariamente:kk kn n nu n u n u nA x+ + ++ + ++ ......2 12 2 1 1Media aritmtica ponderada.Si x1, x2, ..., xNestnafectadosdeloscoeficientesopesosp1, p2, ..., pN, queindicanla distinta importancia de x1, x2, ..., xN:NN Np p px p x p x px+ + ++ + +.......2 12 2 1 1Eje. Al principio de curso, un profesor dice a sus alumnos: Haremos tres exmenes parciales y un final. El segundo examen parcial tendr una importancia doble que el primero, el tercero doble que el tercero. Un alumno obtiene en el primer parcial un 10, en el segundo un 7, en el tercero un 5 y en el final un 4.25. Cul ser su nota de final de curso?Si p es el coeficiente o importancia que se le aplica a la nota del primer examen, el del segundo ser 2p, el del tercero 2(2p) = 4p, y el del examen final ser 3(4p) = 12p.5199512 4 2) 25 . 4 ( 12 ) 5 ( 4 ) 7 ( 2 ) 10 ( + + ++ + +ppp p p pp p pfinal NotaPromedios Especializados: La Media Geomtrica y la Media ArmnicaLa Media Geomtrica:La media geomtrica (G) de n valores no negativos es la ensima raz del producto de los n valores. Si algunos valores son muy grandes en magnitud y otros muy pequeos, la media geomtrica proporciona una mejor representacin de los datos que un simple promedio. En una serie geomtrica, el average mas significativo es la media geomtrica (G). La media aritmtica es muy favorecida por valores grandes de la serie. nn Gx x x x ...2 1Una aplicacin: Suponga que las ventas de un determinado producto incrementan en 110% en el primer ao y en 150% en el segundo. Por simplicidad, asuma que usted inicialmente vendi 100unidades. Entoncesel nmerodeunidadesvendidasenel primer aofueron110yenel segundofueron150%x110=165. Usandolamediaaritmticade110%y150%quees130%, 38estimaramos incorrectamente las unidades vendidas en el primer ao de 130 y las del segundo ao de 169.Mediantelamedia geomtrica de 110% y 150% obtendramos G = (1,65)1/2la cual es la estimacin correcta, por lo cual venderamos 100 (G)2 = 165 unidades en el segundo ao. LaMediaArmnica:Lamedia armnica otro average especializado, el cual es til para calcularpromediosdevariablesexpresadasenproporcionesdeunidadesportiempo, talescomo kilmetrospor hora, nmerodeunidadesdeproduccinpor da. Lamediaarmnica(G) den valores no cero x(i) es: niixnH11.Unaaplicacin:Supongaquecuatromaquinasenuntaller sonusadasparaproducir la misma pieza. Pero, cada una de las maquinas se toma 2.5, 2, 1.5 y 6 minutos para realizar dicha pieza. Cul es la velocidad promedio de produccin? La media armnica es: H = 4/[(1/2.5) + (1/2.0) + (1/1.5) + (1/6.0)] = 2,31 minutos. Si todas las maquinas trabajaran por una hora, cuntas unidades serian producidas? Porque cuatro maquinas trabajando por una hora representan 240 minutos de operacin, se obtiene que: 240 / 2,31 = 104 piezas sern producidas. MedianaLa mediana es otro de los parmetros de posicin, es aquel valor de la variable para el cual la mitaddelosindividuosdelapoblacin tienen un valor de la variable menor que l, y la otra mitad mayor que l. Cuando n (el nmero total de observaciones) es un nmero impar, la mediana es el valor central. Sin embargo, si n es un nmero par, la mediana ser el promedio de los dos valorescentrales. Envariablescontinuasla medianatieneun valorpreciso ydeterminado, aquel punto del eje x cuya ordenada divide al rea en dos partes iguales. En variables discretas la mediana puede ser cualquier valor de un intervalo.Para nuestro ejemplo, la mediana se encontrara en la posicin nmero 13, que equivale a Me = 15.9.Al contrarioaloqueocurreconlamediaaritmtica, lamediananoseveafectadapor valores extremos. Tomemos nuevamente el ejemplo de las edades de las cinco personas al momento de la muerte: 34, 64, 68, 70 y 74. La media aritmtica fue de 62 aos y la mediana, o sea el valor de la observacin central es de 68 aos. El valor de la mediana no se ve afectado por la edad extrema de 34 aos. Suponiendo queen lugar de 34 la edad de esa persona al morir fuera de 26 aos, la mediana continuara siendo 68 aos.Para decidir cual de estas dos medidas (la media o la mediana) es ms adecuada en un caso particular, habr que tomar en cuenta la naturaleza de la variable y los requisitos de la medida.Sisetratadeunadistribucinrazonablementesimtrica(conceptoqueexplicaremosms adelante), seprefiereusar lamediaenlugar delamediana, yaquelaprimerautilizatodala informacinyestalgebraicamentedefinida, loquepermitequepuedasersujetaaoperaciones matemticas.39En distribuciones con cierto grado de asimetra, O seadistribuciones con tendencia hacia los valores extremos, la mediana es la mejor medida descriptiva. Tiene la ventaja de no verse afectada por observaciones extremas.Para datos agrupados la mediana se calcula por:mmmmaNNNe Me12+ siendo:em = extremo inferior del intervalo mediano o clase mediana (intervalo donde se encuentra el valor del dato de orden N/2)Nm-1 = suma de las frecuencias absolutas anteriores a la clase medianaNm = frecuencia de la clase medianaam = amplitud de la clase medianaParaaplicarlafrmulaanteriorse empiezaporhallarel intervaloenquese encuentrala mediana, que es aqul a cuyo extremo inferior corresponde una frecuencia acumulada inferior a la mitad de los datos y a cuyo extremo superior corresponde una frecuencia acumulada superior a la mitad de los datos.Para nuestro ejemplo la mediana es:5 . 122252 NEl dato en la posicin 12.5 se encuentra en la tercera clase, cuyo intervalo de clase es 13-16.9, y57 . 15 ) 4 (78 5 . 121321+ + mmmmaNNNe MeEje. Calcular la mediana de la siguiente distribucin:Intervalos ei ei+1Frecuencias niNi50 56 8 856 64 15 234064 89 22 4589 93 16 6193 99 5 66N/2 = 66/2 = 33. De la ltima columna se deduce que el dato de orden igual a 33 est en el tercer intervalo, o sea que el intervalo mediano es el 64 89:27 . 66 52223 3364 + MeLa mediana suele usarse como medida central de las distribuciones simtricas. En stas es ms representativa que la media.La existencia de valores exageradamente grandes o pequeos en los extremos de la distribucin no afecta a la mediana, pues el mismo nmero de observaciones hay por debajo que por encima de la mediana.Moda.La moda de un conjunto dedatos es el valor que ocurre con mayor frecuencia.Si tenemos clasificada nuestra poblacin y sabemos las frecuencias de cada clase, se llama moda al valor de la clase que tenga la frecuencia ms alta. En este caso, como en la mediana, la moda puede ser cualquier valor de intervalo de esa clase.Algunos conjuntos de datos tendrn ms de una moda (multimodal.)Todos estos parmetros de posicin que hemos definidos son funciones de los valores de la variable y vienen expresados en lamisma unidad que sta, aunque, en casi todos, intervienen las frecuencias para su determinacin, el valor del parmetro no es una frecuencia, sino un valor de la variable y expresado en las mismas unidades que sta.Paradatosagrupadosenintervalosdeigual amplitud, lamodaesunvalorsituadoenle intervaloal que correspondelamayor frecuencia, este intervalo se llama intervalo modal o clase modal.Silosintervalostienendistinta amplitud,el intervalo modal es el quetiene mayor altura, iiianh, en el histograma.En ambos casos la moda se calcula por:mm mmman nne Mo1 11+ +++ 41siendo:em = extremo inferior del intervalo modalnm+1 = frecuencia del intervalo posterior al modalnm-1 = frecuencia del intervalo anterior al modalam = amplitud del intervalo modalPara nuestro ejemplo, la moda es:El intervalo modal es la clase 3;182 . 15 ) 4 (6 56131 11++ ++ + +mm mmman nne MoEje. Calcular la moda de las distribuciones:Intervalosni40 50 750 60 1260 70 1570 80 1380 - 90 8Los intervalos tienen todos la misma amplitud. El intervalo modal es el tercero, que es el que tiene mayor frecuencia2 . 65 1013 121360 ++ oMEje. Calcular la moda de la distribucin siguiente:Intervalosniaihi = ni/ai20 25 2 5 0.425 35 7 10 0.735 42 6 7 0.8642 50 10 8 1.2550 54 8 4 254 - 60 3 6 0.5Por tener los intervalos distinta amplitud, se calculan las alturas del histograma. De la ltima columna se deduce que el intervalo modal es el penltimo: 50 54,2 . 59 43 10350 ++ Mo42CuartilesCuartil de es un valor tal que una proporcin de la poblacin son menores que l, y una proporcin 1 - son mayores.Primer cuartil Q1es aquel valor de la variable para el cual el 25% de los individuos de la poblacin tienen un valor menor que l y el 75% un valor superior a l. Tercer cuartil Q3 es aquel valorquedejaun75%deindividuosmenorquelyun25%mayorquel. Lamedianapuede considerarse como el segundo cuartil.Losdecilesd1,....,d9,queson cuartiles de rdenes 1/10, ....,9/10, respectivamente, y los percentiles, P1, ......., P99, que son cuartiles de rdenes 1/100, ....., 99/100. Su clculo es anlogo al de la mediana.En datos sin agrupar se hallan los nmeros naturales iguales o inmediatamente superiores a N/4, 2N/4, 3N/4. Los valores de las observaciones correspondientes a estos nmeros naturales son los cuartiles.Eje. Sea la distribucin que nos da el nmero de veces que aparece cada cara de un dado al lanzarlo 42 veces:xiniNi1 4 4432 11 153 7 224 5 275 8 356 7 425 32 5 . 31433 21422 11 5 . 104424321 QNQNQNPara datos agrupados los cuartiles se calculan por:3 , 2 , 141+ ranN rNe Qiiii rsiendo:ei = extremo inferior del intervalo que contiene el cuartil.N = n1 + n2 +....+ nkNi-1 = suma de las frecuencias anteriores al intervalo que contiene el cuartilni = frecuencia del intervalo que contiene el cuartilai = amplitud del intervalo que contiene el cuartil.Para nuestro ejemplo:Eje. Sea la distribucin adjunta que nos da las notas de un tribunal de selectividad. Se desea hallar la nota mxima del 25% de los que han obtenido la peor puntuacin, y la nota mnima del 25% de los que han obtenido la mejor calificacin.Notas niNi0 12 21 2 5 72 3 7 143 4 10 244 5 18 425 6 22 646 7 16 807 8 8 888 9 3 919 - 10 11 92Tenemos que hallar el primer y tercer cuartil.4423492Q1 es la nota del lugar 23, que observando la columna tercera, est en el cuarto intervalo 3 4:9 . 3 ) 1 (1014 ) 1 ( 2331+ Q69 3492Q3 est en el sptimo intervalo, 6 - 7:31 . 6 ) 1 (1664 ) 3 ( 2363+ QEl tribunal de selectividad decide aprobar al 60% de los estudiantes que se han presentado. Cul ser la nota mnima con la que se aprobar?Hay que hallar el decir d4:8 . 36 41092d4 es la nota del lugar 36.8 37, que observando la columna Ni est en el intervalo 4- 5.Para datos agrupados los deciles se calculan por:9 ,..., 3 , 2 , 1101+ ranN rNe Qiiii rsiendo:ei = extremo inferior del intervalo que contiene el decil.N = n1 + n2 +....+ nkNi-1 = suma de las frecuencias anteriores al intervalo que contiene el decilni = frecuencia del intervalo que contiene el decilai = amplitud del intervalo que contiene el decil.Para datos agrupados los percentiles se calculan por:4599 ,... 2 , 11001+ ranN rNe Qiiii rsiendo:ei = extremo inferior del intervalo que contiene el percentil.N = n1 + n2 +....+ nkNi-1 = suma de las frecuencias anteriores al intervalo que contiene el percentilni = frecuencia del intervalo que contiene el percentilai = amplitud del intervalo que contiene el percentil.Eje. Obtngase el primer cuartil, el sptimo decil y el percentil 53 de la siguiente distribucin:ei ei+1niNi2 6 17 176 10 12 2910 15 11 4015 25 8 4825 32 5 5332 40 16 6940 - 45 29 9898/4 = 24.5, el primer cuartil est en el segundo intervalo, (6 10):5 . 8 ) 6 10 (1217 ) 1 (49861 + Q6 . 68 ) 7 (1098 , el sptimo decil est en el sexto intervalo, (32 40):8 . 39 ) 32 40 (1653 ) 7 (1098327 + d94 . 51 ) 53 (10098 , el percentil 53 est en el quinto intervalo, (25 32):516 . 30 ) 25 32 (548 ) 53 (100982553 + p46Si el tribunal decidesuspenderal 23%delospresentados, cul eslanotamnimapara aprobar?Hay que hallar el percentil p23:16 . 21 ) 23 (10092p23 est en el intervalo 3 4:72 . 3 ) 3 4 (1014 ) 23 (10098323 + pRepresentaciones de caja y bigotesLarepresentacindecajaybrazoses laformagrficadel resumencon5nmeros correspondientesaunconjuntodedatos. Enunaescalaquepuedeser horizontal overtical se localizan cinco valores numricos: el ms pequeo, el gozne inferior, la mediana, el gozne superior, el ms grande. La caja se utiliza para representar la mitad central de los datos, que est limitada por los dos goznes. Los brazos son segmentos de recta que sirven para representar la otra mitad de los datos; un segmento representa la cuarta parte de los datos con valor menor que el del gozne inferior; el otrosegmentorepresentaalacuartapartedelosdatoscuyovalor essuperior al del gozne superior. Los goznes y la mediana dividen al conjunto de los datos ordenados en cuatro subconjuntos, de manera semejante a la divisin en dos subconjuntos determinada por la mediana. Por lo general, los valores utilizados como goznes coinciden con los valores de los cuartiles primero Q1y tercero Q3; no obstante, pueden ser ligeramente distintos de acuerdo con el nmero de datos. Cuandosepresentaestadiferencia, resultanalgodiferentes los procedimientos utilizados para calcular los goznes y los cuartiles.Sinembargo, el siguiente mtodopara evaluar los goznes es similar al utilizadopara encontrar los centiles.1. Se ordenan los datos2. Laposicindel goznesecalculasumando1alaparteenteradelaposicindela mediana, y dividiendo entre 2Se trazan dos bigotes o rabos desde los bordes de la caja. El bigote inferior se prolonga hacia el valor mnimo, x(1), pero no llega ms bajo que 1 del recorrido intercuartil; esto es,El bigote inferior comienza en mx[x(1), Q1 -1.5(Q3 Q1)] o primera barrera inferiorEl bigote superior termina en mn[x(n), Q3 + 1.5(Q3 Q1)] o primera barrera superior471 3Q Q es el rango intercuartil, es igual a la distancia entre el cuartil inferior y el superior, ysirveparaubicarelrangoenelque se ubica el 50% de los datos que estn en el centro de la distribucin.Labarreraexteriorizquierdaest definidaporcR Q 31 ,y la barrera exterior derecha es cR Q 33 +. Si anhaydatospor fueradelasbarrerasexteriores, stosserepresentarnconun asterisco. Los datos que estn fuera de estas barreras exteriores pueden considerarse definitivamente como datos muy alejados, raros o aberrantes.Pasos para Construir un Boxplot: 1. Lneas horizontales son obtenidas de las observaciones mas pequeas (A), en el cuartl mas bajo, y otro para el cuartl mas alto (D), de observaciones mas largas (E). Las lneas verticales que producen la caja, se unen con las lneas horizontales en los puntos B y D. 2. La lnea vertical es dibujada en el punto medio (C), como es mostrado en la figura anterior. Eje.Considrese el siguienteconjunto de 19 calificaciones correspondientes a un examen: 52, 62, 66, 68, 72, 74, 74, 76, 76, 76, 78, 78, 82, 82, 84, 86, 88, 92, 96.La posicin de la mediana es igual a(n+1)/2 = (19+1)/2 = 10La posicin de la bisagra es igual a (10 + 1)/2 = 5.5El gozne inferior, es el valor en la posicin 5.5 determinada contando a partir del valor ms pequeo. As al sumar los valores quinto y sexto, y luego dividir entre 2, se obtiene el gozne inferior = 73. Anlogamente, el gozne superior, es el valor en la posicin 5.5 determinada contando a partir delvalormsgrande. Asgoznesuperior=83, valorqueresultadesumarlosvaloresquintoy sexto, y dividir luego entre 2.El resumen con 5 nmeros es entonces ms pequeo = 52, gozne inferior = 73, mediana = 76, gozne superior = 83 y ms grande = 96. As el conjunto de datos ordenados queda dividido en cuatro subconjuntos:52626668 72737474767676787882828384868892 96A continuacin se muestra la representacin de caja y brazos para este conjunto de datos.485273768396Interpretacin del diagrama de caja.Deacuerdoconlamaneraenquese ha construido este diagrama, ensu interpretacin se debe hacer nfasis en:1. El largo del diagrama (que incluye el rectngulo ms ambos brazos o bigotes), ya que esto indica una medida de la variacin de los datos y resulta de mucha utilidad sobre todo para comparar la variacin entre procesos, tratamientos, lotes o turnos de produccin. En general, entre ms largo sea un diagrama indicar una mayor variacin de los datos correspondiente.2. La parte central del diagrama indica la tendencia central de los datos, pero lo que tambin ayudaracomparardosomsprocesos,mquinas,lotes o turnosdeproduccinencuanto a su tendencia central.3. Compararvisualmentelalongitudde ambos brazos.Si uno es msgrande que el otro, entonces la distribucin de los datos es probablemente sesgada en la direccin del brazo ms grande. Tambin observar la ubicacin de la lnea mediana que parte la caja, ya que si est ms cerca de uno de los extremos, tambin ser seal de probable sesgo en los datos.4. Encasodequeel diagramaestbasadoenunacantidadsuficientededatos(10por ejemplo), ver si hay datos fuera de las barreras interiores, marcados con un punto, ya que entre ms alejado est un dato del final del brazo, ser seal de que tal dato probablemente ser undato raro. Si los datos caen ms all de las barreras exteriores, entonces prcticamente es un hecho que tales datos son raros o aberrantes. 2.10 Medidas de dispersin.Los parmetros de posicin nos indican puntos de la variable en los que ocurren determinadas cosas, pero no indican nada sobre el resto de la distribucin. Con objeto de mejorar algoestadescripcinquesuministranlos parmetros deposicinseutilizanunos parmetros llamadosdedispersin, queintentanexplicar el gradomayor omenor deconcentracindela poblacinalrededor del parmetrodeposicin. Estosparmetrossonlavarianza, ladesviacin estndar y el rango.Rango.Se llama rango, unas veces a los valores extremos que puede tomar una variable y otras al intervalo entres esos valores extremos.El rangoesunamedidaqueestainfluenciadaporel nmerodeobservaciones, elrango tiendepor logeneral aaumentar amedidaqueel nmerodeobservacionesaumentaynunca disminuye. Basta una sola observacin cuyo valor se aleje de la mayora (dato aberrante, dato extremo, outlier) para que el rango aumente su magnitud. Otra desventaja es que se requiere de 49procedimientos matemticos muy complejos cuando se utiliza el rango en inferencia estadstica. Sin embargo, en algunas ocasiones, cuando se usa a la mediana como medida de tendencia central, se usa el rango como medida de variacin.Estevalor estadsticoes unamedidasimplededispersin. Sinembargo, debidoaque depende nicamente de dos valores, la amplitud de variacin (o rango) es una medida burda de dispersin y constituye un eficiente valor estadstico cuando se consideran muestras pequeas.Es importante destacar que cuanto mayor sea el nmero de observaciones en una muestra, msprobableserqueencontremosvaloresqueseapartenmuchodelamedia. Porlotanto, la amplitudaumentaconel tamaodelamuestra. Si estehechonosetuvieraencuentaylas amplitudesdevariacindemuestrasdediferentetamaosecomparanindiscriminadamente, se obtendran resultados engaosos.La amplitud de variacin y la desviacin estndar estn relacionados entre s, de modo que para cualquier nmero dado de n observaciones, se puede obtener un valor estimado de la desviacinestndarsdelapoblacinconsideradaapartirdelvalormediodelaamplituddela muestraR :d R s Esta expresin es vlida cuando la variable tiene una distribucin normal y la estimacin de s pierde exactitud a medida que la distribucin se aparte ms de la normalidad.La estimacin de la desviacin estndar dada pord R s no es ms que una aproximacin, yslodebeser utilizadacuandolaamplitudpromedio R seobtengaapartir deunnmero suficientemente grande de muestras (digamos no menor que 10), todas del mismo tamao. Para el mismo nmero total de observaciones, la estimacin es mucho ms exacta cuando las muestras son abundantes y pequeas, que cuando son escasas y grandes.Si se han realizado muchas observaciones sin haberlas separado en muestras, su subdivisin en subgrupos igualesselogramediante un muestreo al azar. Luego se calcula la amplitudR de cadasubgrupoydeah, el valor mediodelaamplituddevariacin R . Laestimacindela desviacinestndar puedecalcularsemultiplicando R por el coeficiented, quecorrespondeal nmero de observaciones en un subgrupo.La varianza.La variacin de un conjunto de datos indica la cantidad de dispersin de los datos individuales respecto de la media.En unas evaluaciones de la calidad de imagen de una fotocopiadora se utiliz un escala de puntuacin del 0 al10. Supongamos que se realizaron cinco fotocopias del mismo original, y un usuario las calific con los valores 2, 4, 5, 6 y 7, cmo podemos indicar dicha calificacin con un solo valor? Pues con el valor que los represente a todos; de hecho, elegimos un solo representante si calculamos la media aritmtica, que valdr:50557 6 5 4 3+ + + + mediaSi esta fotocopiadora la identificamos con una A, diremos que ha obtenido una media de 5. Ahora la valoracin de otra fotocopiadora de otra marca que identificamos como B; el usuario y el original son los mismos y los valores son 1, 3, 5, 7 y 9; si calculamos la media, valdr:559 7 5 3 1+ + + + mediaVemos que la fotocopiadora B ha sido calificada con la misma media, exactamente como la A. Si representamos los valores individuales en la figura siguiente, podemos ver que las distribuciones de valores son muy distintas, aunque la media vale lo mismo. Desde el punto de vista de la calidad podemos decir que la Aes de ms calidad, pues es ms consistente en su reproducciones, ya que da sus valores ms agrupados, aunque la B es capaz de obtener fotocopias mejores; una de ellas ha obtenido un 9, pero en cambio tambin las puede obtener peores considere el 1queesilegible- por loquenosconvienemslaA, quenosdarmsregularidadenlas fotocopias.La media nos ha evaluado a ambas con el mismo valor, por lo cual constatamos que no es una medida suficiente para definir la variacin. Necesitamos un indicador de la variacin ya que, si comparamos las dos distribuciones queda muy claro que la fotocopiadora B presenta una dispersin o un grado mayor de variacin que la A en cuanto a su calidad de imagen.Si recurrimos a la diferencia entre valores extremos, ya tendremos un indicador muy simple de la dispersin, que en estadstica se le llama recorrido, y es la diferencia entre el valor mayor y el menor.menor el mayor el recorrido Para ambos casos valdr:8 1 9 :4 3 7 : recorrido B ora fotocopiadrecorrido A ora fotocopiad51Esta ya es una medida de variacin til, pues nos indica que la dispersin B es el doble que ladeA, perofijmonosqueslorecogeinformacindelosvaloresextremos, conlocual, si tuviramosunafotocopiadoraC, cuyosvaloresobtenidosson1, 2, 5, 8, 9:elrecorridoserael mismo de B:8 1 9 : recorrido C ora fotocopiadPero el grado de dispersin sera an ms fuerte, pues se puede ver una mayor densidad de agrupacin cerca de los extremos y el recorrido no lo est indicando, pues no es capaz de distinguir la B de la C. Necesitamos pues, una medida de dispersin que tome en consideracin a todos y cada unodeloselementosdel grupo, conlocual yaapareceresaindicacindeladensidaddela distribucin, por lo que podramos calcular las diferencias de cada uno respecto a su representante, que es la media y encontrar finalmente la diferencia media; si probamos con B, cuy media es 5:04 5 92 5 70 5 . 52 5 34 5 1 Vemosquedichasdiferenciasseanulanalsumarlas, locualesuninconveniente, quese podrasalvar tomandoel valorabsoluto antes de sumarlas, pero de hecho se prefiere elevarlas al cuadrado, con lo que todos los valores tambin se convierten en positivos, y esta operacin se ha considerado tradicionalmente de comprensin y aplicacin ms simple. Sin embargo, imaginemos, por ejemplo, que esas desviaciones semidieran enkilogramos; resultara que al elevarlas al cuadrado se convierten en Kg2 lo que pierde su sentido fsico y prctico, con lo cual es conveniente calcular larazcuadradaconloquerecuperarsuunidadoriginal. Esadefinicinconstituyela medidadedispersinmsextendida, ysellamadesviacintipo, desviacinnormal odesviacin estndar, que se define como o sLa varianza es la suma de los cuadrados de las desviaciones del valor de la variable, en cada individuo, respectoalvalordelamedia, dividido por el nmero de individuos. Si los individuos estn agrupados en clases, la varianza se obtiene sumando los productos de la frecuencia de cada clase por los cuadrados de las diferencias entre la media y el valor central de la clase y dividiendo esa suma por el nmero total de individuos.( )21 1221212 212 21 1 1

,_

1]1

1]1

NxNxxNN xNxNNiiNiiNiiNiiNii 5221 122112 21

,_

,_

1]1

kikii r i r ikii i kii if x f xNf xf xNies la varianza de una poblacin de N observaciones x1, x2, ......, xN.Esto se obtiene de la suma de cuadrados de las desviaciones:( ) ( ) ( ) ( )( )21 1221 1212 212 2 21 12121 1 12 2 21212 22 2

,_

,_

+ + + + niiniiniiniiniiniiniiniininininii i i iniixnxnxn x n xn n x n x xx x x x x Para nuestro ejemplo:ixi(xi - )22ix1 5.4 112.36 29.162 7.8 67.24 60.843 8.8 51.84 77.444 9.2 46.24 84.645 9.9 37.21 98.016 11.8 17.64 139.247 12.6 11.56 158.768 12.7 10.89 161.299 13.4 6.76 179.5610 14.3 2.89 204.495311 15.4 0.36 237.1612 15.6 0.16 243.3613 15.9 0.01 252.8114 16.8 0.64 282.2415 16.9 0.81 285.6116 17 1 28917 18.4 5.76 338.5618 19.2 10.24 368.6419 19.5 12.25 380.2520 20.5 20.25 420.2521 20.8 23.04 432.6422 22.1 37.21 488.4123 23.3 53.29 542.8924 24.1 65.61 580.8125 28.6 158.76 817.96Total 400 754.02 7154.02( ) 1608 . 302502 . 754 112 2 NiixN 1608 . 30254002502 . 71541608 . 30 256 1608 . 286 ) 16 ( ) 02 . 7154 (251 1221 1222 212 2 ,_

,_

1]1

NxNxxNNiiNiiNii Utilizando la tabla de frecuencias: xifixifi 2ixi if x26.995 0.120.8394 48.930025 5.87160310.995 0.202.199 120.890025 24.17800514.995 0.284.1986 224.850025 62.95800718.995 0.244.5588 360.810025 86.59440622.995 0.122.7594 528.770025 63.45240326.995 0.041.0798 728.730025 29.14920115.635 272.20362575 . 27 453 . 244 2036 . 272 ) 635 . 15 ( 2036 . 2722 )21 12 2 ,_

kikii r i r if x f xiLa varianza de una muestra de n observaciones x1, x2, ..., xn, se define como la suma de los cuadrados de las desviaciones de las observaciones respecto de su mediax , dividida entre (n-1).54( )niix xns12 211( )( )2122122221 12 21 11) 1 (1) 1 (111xnnxnx n xn n nx x nxnxnsniiniii iniinii1]1

,_

,_

En trminos de la frecuencia relativa:1]1

11]1

,_

212121 12 211111x f xn nnf xnf xnskirkiri i rikiiiuLa desviacin estndar.La desviacin estndar de una poblacin es:( ) NiixN121 La desviacin estndar muestral.La desviacin estndar muestral de un conjunto de n observaciones x1, x2, ...., xn, es igual a la raz cuadrada positiva de la varianza.

,_

niix xns1211La desviacin estndar nos aporta mayor informacin que el rango como medida de dispersin, porque utiliza todas las observaciones: no tiende a aumentar a medida que el nmero de observaciones aumenta; y es muy adecuada para manipulaciones matemticas. En consecuencia, la desviacinestndar es la medida devariacin ms usada enmtodos estadsticos para hacer inferencia.Sedividepor (n-1), yaquesloexistenn-1diferenciasindependientes, yladesviacin media se calcula dividiendo por el nmero de desviaciones realmente independientes. Por ejemplo, con los nmeros 3, 4, 5, 6 y 7 de las fotocopiadoras 5516 . 3104) 4 ( ) 2 ( ) 0 ( ) 2 ( ) 4 (2 2 2 2 22+ + + + sstenemos cuatro diferencias independientes, que son las suficientes para definir a los cinco nmeros; si empezamos con el 3 y le aadimos un 1 obtenemos el 6, si le aadimos otro 1 obtenemos el 7. Fijmonosquehemosempleadoslo cuatro unos, es decir,cuatrodiferencias,para definir cinco nmeros; eso esquemticamente es:1 ... 1 1 1 1... 7 6 5 4 3 + + + + n s diferencian nmerosLo que significa que con n elementos, slo hay n-1 diferencias independientes. La media no latendramosencuentapuestampocoesindependiente, yaquesehacalculadoapartir delos nmeros dados, y en el ejemplo anterior sera adems el sexto nmero, es decir, n+1.Cuandosetrata deunafabricacin conunacantidadmuyimportante de unidades, la desviacintipodetodalafabricacinsepuedeestimar apartir delamedicindeunnmero pequeo de unidades a condicin de dividir pro n-1, que acta como corrector, por lo que de este modoobtenemos unaaproximacindeladesviacintipodetodalafabricacinopoblacin. Fijmonos que en el ejemplo anterior al dividir por 4 en vez de 5, el resultado se hace mayor, con lo cual estamos corrigiendo por el hecho de tomar slo una muestra de la fabricacin o poblacin.Ahorapodemospresentarlosresultadosdelasfotocopiadoras, deformaquenosdefinan completamente la variacin que presenta cada una. Tenemos dos medidas, que presentadas conjuntamente nos definen la variacin de una forma completa; una es la media de los valores que nos indica la posicin, y otra la desviacin tipo que nos indica el grado de dispersin:FOTOCOPIADORA MEDIAx DES. TIPO. S RECORRIDO, RA 5 1.58 4B 5 3.16 8C 5 3.54 8La media por s sola no distingue entre las tres distribuciones queson distintas, el recorrido slo distingue las dos primeras, pero confunde la B con la C; en cambio la desviacin tipo distingue a las tres, aunque ella solo tampoco sera suficiente para definir una distribucin, ya que nos faltara situarla. Por ejemplo, podemos tener una distribucin D, con la s = 1.58 y tener situada la media en 3, lo que significara una calidad muy inferior con respecto a las distribuciones presentadas.Nota. Comnmente, el numerador de la varianza, ) ( x2. Se le llama tambin suma de cuadrados de x, y se simboliza como SC(x). Por lo tanto,s2 = SC(x)/n - 1 ,donde SC(x) = 2) ( x56Hay otras estadsticas que miden la dispersin, y son:1. Rango intercuartil IQR = Q3 Q1.2. Coeficiente de variacinx s CV / El rangointercuartil esunamedidatil deladispersin, cuandohayvaloresextremoso valores atpicos en la muestra. El coeficiente de variacin es un ndice adimensional para comparar la variabilidad de diversos conjuntos de datos, cuando la desviacin estndar tiende a crecer con el promedio.Coeficiente de variacin.Si bien es posible que carezca de sentido comparar desviaciones estndar, es posible comparar la variabilidad entre dos o ms conjuntos de datos que representan diferentes cantidades condistintasunidadesdemedicin, utilizandounamedidaderesumennumricaconocidacomo coeficiente de variacin. El coeficiente de variacin relaciona la desviacin estndar de un conjunto devaloresconsumedia;eselcocienteentresy x ,yportanto, sunamedidadevariabilidad relativa. Como la desviacin estndar y la media comparten las mismas unidades de medicin, se cancelan y despojan alcoeficiente de variacinde dimensiones.% 100xsCVNo resulta fcil afirmar si este valor, en s mismo, es grande o pequeo; el coeficiente de variacin es ms til paracomparar dos oms conjuntos dedatos. Puestoquecarecedeunidades de medicin, se le puede utilizar para evaluar la variacin relativa entre dos conjuntos de observaciones. Entremspequeoseael CVindicarquelavariabletienemenosvariacinen trminos porcentuales. Aunque en algunos crculos an se emplea el coeficiente de variacin como medida de resumen, sus propiedades estadsticas no son buenas. Como consecuencia, su aplicacin disminuye y no debera fomentarse su uso.En el caso contrario, digamos, 1/CV se llama el Cociente de seal de ruido. 2.11 El significado prctico de la desviacin estndar.La desviacin estndar puede ser interpretada como una medida de la dispersin que tienen los valores en torno a la media. En este sentido, la media aritmtica y la desviacin estndar son complementarias. Lamediaaritmticamideel valor central deladistribucinyladesviacin estndar muestraquetandispersosestnlosvaloresindividualesentornoaestevalor central. Mientrasmayor esladistribucindelosvaloresdeunadistribucin, mayor esel valor dela desviacin estndar.El teorema de Tchebysheff. Dado un nmero k, y un conjunto de observaciones x1, x2, ...., xn, al menos (1 - 1/k2) de las observaciones caen dentro de k desviaciones estndar de la media. La 57probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones estndar de la media es al menos 1 1/k2. Es decir.211 ) (kk X k P + < < Dem. Por la definicin de varianza de X podemos escribir[ ] + ++ + + + + kkkkkkdx x f x dx x f xdx x f x dx x f x dx x f xdx x f xX E) ( ) ( ) ( ) () ( ) ( ) ( ) ( ) ( ) () ( ) () (2 22 2 222 2debido a que la segunda de las tres integrales es no negativa. Ahora bien, como k x para cualquier k x o k x + , tenemos que 2 2 2) ( k x en ambas integrales. Se sigue que + + kkdx x f k dx x f k ) ( ) (2 2 2 2 2y que21) ( ) (kdx x f dx x fkk + + De aqu211 ) ( ) (kdx x f k X k Pkk + < < + .El teorema de Tchebysheff se refiere a cualquier conjunto de observaciones, por lo tanto se puede aplicar tanto a una muestra como a la poblacin.58Fig. 2.14 Ilustracin del teorema de TchebysheffLa idea contenida en el teorema de Tchebysheff se ilustra en la figura 2.14. En esta figura se construye un intervalo midiendo una distancia de k a ambos lados de la media. Note que el resultado delteoremaesciertoparacualquiernmeroksiempreycuandosteseamayoroigualauno. Entonces dentro de este intervalo setendr una fraccin del (1- 1/k2) del nmero total de observaciones n.Para k = 1 el teorema afirma que cuando menos 1 - 1/12 = 0 de las observaciones caen en el intervalo de (-) a (+), para k = 2, 1 - 1/22 = de las observaciones caen en el intervalo de (- 2 ) a (+ 2 ). Cuando menos 8/9 de las observaciones caen dentro de 3 desviaciones estndar de la media, es decir dentro del intervalo de (- 3) a (+ 3).Se presenta ahora una regla que describe adecuadamente la variabilidad de una distribucin acampanadayrazonablementebienlavariabilidaddeotrasdistribucionesqueseacercanaesta forma. Una buena cantidad de mediciones de caractersticas de seres vivos y otras variables que se observan en la naturaleza siguen una distribucin en forma de campana u otra forma similar a sta. De aqu la importancia prctica de la siguiente regla que se conoce como la regla emprica.La regla emprica.Dada una distribucin de las observaciones con forma aproximadamente acampanada, entonces el intervalo:(t ) contiene aproximadamente al 68.2% de las observaciones(t2 ) contiene aproximadamente al 95.4% de las observaciones59(t3) contiene casi todas las observaciones (99.7%).La distribucin acampanada de la figura 2.15 se conoce como la distribucin normal. Fig. 2.15 La Regla Emprica.Lmites reales o naturales.Los lmites reales o naturales de un proceso indican los puntos en donde vara la salida de un proceso, y por lo general se obtienen de la siguiente manera: 3 ) ( sup3 ) ( inf+ LRS erior real LmiteLRI erior real LmiteEstoslmitesindicanlaamplitudreal delavariacindesalidadel proceso. Enunestudiode capacidad, estoslmitesrealessecomparancontralasespecificacionesparalacaractersticade calidad. Porejemplo, silasespecificaciones paraunacaractersticade calidadsonquestadebe tener dimensiones de 800 t 5; luego la especificacin inferior es EI = 795, y la superior es ES = 805. Si adems se sabe que la media y la desviacin estndar de tal caracterstica de calidad son = 800.6 y = 1.2, entonces los lmites reales son:2 . 804 ) 2 . 1 ( 3 6 . 8000 . 797 ) 2 . 1 ( 3 6 . 800 + LRSLRIPor lo que se espera que esta caracterstica de calidad vare de 797.0 a 804.2, con una media de 800.6. Al comparar esto con las especificaciones, se aprecia que los lmites reales caen dentro de las mismas, por lo que se concluye que el proceso es capaz de cumplir con tales especificaciones.2.12 Momentos y medidas de asimetra.60Ahora es posible considerar las tres medidas de tendencia central: media, mediana y moda, en la curva de distribucin de frecuencias, que se muestra en la figura 2.16. La moda es el valor correspondienteal puntomsaltodelacurva; lamedianadivideal reabajolacurvaendos mitades; y la media pasa por el centroide del rea. (Esto ltimo resulta del hecho de que la suma de las desviaciones respecto de la media de todas las observaciones, es cero). La mediana se encuentra entre la media y la moda, o bien, coincide con ellas.Cuando los tres promedios no coinciden, se dice que la curva de distribucin de frecuencias es sesgada o es asimtrica. Es sesgada hacia la derecha cuando la mediana se encuentra a la derecha de la moda, es decir, cuando la cola derecha de la curva se extiende, y sesgada hacia la izquierda cuando la mediana se encuentraa la izquierda de la moda. Enlas distribuciones conunanicamoda, engeneral, si ladistribucines asimtrica positiva, la media es superior a la mediana y sta superior a la moda.Si la distribucin es asimtrica negativa, la media es inferior a la mediana y sta inferior a la moda. Para curvas simtricas, la media, moda y mediana coinciden.Fig. 2.16 Media, mediana y modaPara curvas de frecuencias unimodales que sean moderadamente sesgadas (asimtricas), y se conoce la media y la mediana, se tiene la siguiente relacin emprica:Moda 3(medianas) - 2(medias) Esta estimacin es aplicable a ambos, conjuntos agrupado y no agrupado de datos. Los momentos son expresiones que definen algunas medidas de centralizacin y dispersin de las variables estadsticas.Se llama momento respecto al origen de orden r a la expresin: kiiriNirir rNf xNxm11

Ntese que 1 es la media aritmtica.61Se llama momento respecto a la media o un momento central, de orden r a la expresin: kijrjNirir rNf xNxm11 *) () (Ntese que m2 es la varianza, y, m2 = 2 - 12.Medidas de asimetra.Unadistribucinesasimtrica a la derechasi su grfica (histograma) presenta una cola ms larga a la derecha. De forma anloga para la izquierda.Sesgo de la muestra (coeficiente de Skewness) mide qu tan asimtrica es la distribucin de nuestros datos con respecto a la media:poblacin una paramx xnSkewnessnii33313) (1 ( )muestra una paras nx xSkewness33) 1 ( Si una distribucin es simtrica con respecto de su promedio, el sesgo es = 0. Si el sesgo es > 0, sedicequeladistribucintienesesgopositivoosesgoaladerecha. Si el sesgoes 0 la distribucin es asimtrica a la izquierda, y si p < 0, la distribucin es asimtrica a la derecha.El coeficiente de Kurtosis nos dice que tan aplanada o picuda es la distribucin de nuestros datos con respecto a la distribucin normal. El Kurtosis de la muestra se define como:poblacin una parax xnKnii414) (162( )muestra una paras nx xKurtosisi44) 1 ( Cuando se trata de una distribucin normal el valor de este coeficiente 44/ mes de 3. Si es menor de 3, nos indicar, a grandes rasgos, que los valores ms alejados de la media tienen en esa curva mayor probabilidad que en la curva normal, o sea, que en cierta medida la curva es aplanada. Si es mayor de 3 entonces la curva o es muy puntiaguda en el centro o tiene colas relativamente cortas. A este coeficiente 44/ mo ms corrientemente 44/ m -3, para compararlo con su valor en la curva normal, es a lo que se llama Kurtosis3 322444 mmsmKurtosisLos valores estandarizados de estos dos coeficientes prueban la posibilidad de una desviacinimportanteconrespectoaladistribucinnormal. Silosvaloresdeestoscoeficientes estandarizadossesalendel rangoentre-2.0y+2.0significaquelosdatosseapartanenforma significativa de la distribucin normal.Todas estas comparaciones se entienden hechas con la curva normal de la misma media y varianza que las de la distribucin que comparamos. Esta es otra razn para dividir por. ,4 3 Estos valores de la kurtosis son indicativos cuando las distribuciones son aproximadamente simtricas, si son muy asimtricas carecen de valor prctico. En la misma distribucin normal, al aumentardisminuyeOAyaumentaOL, Fig. 2.17, por loquededoscurvasnormalescon diferente ser ms esbelta la de menor, aunque en ambas la kurtosis valga 0. Esto explica por qu hemos antes comparado, al definir la kurtosis, con la curva normal de la misma ; no tendra sentido hablar de ms o menos esbelta si la comparamos con otra cualquiera.63Fig. 2.17EntodaslascurvasnormaleselpuntodeinflexinIestaunadistanciadel origen O. Las ordenadas en el origen OA valen 2 / 1 .Se puede demostrar que,., 1n muestra la de tamano al igual o que menor es Kurtosisy a igual o que grande ms es Skewness Kurtosis Estasdesigualdades se mantienen para cualquier distribucin que tengan un Skewness y Kurtosis finitos.2.13 Estadsticas robustas de ubicacin y dispersin.Tanto el promedio de la muestra, nx, como la desviacin estndar muestral son sensibles a observaciones atpicas. Por ejemplo, supongamos que sehicieron tres observaciones sobre la resistencia de la soldadura de acero al esfuerzo cortante, y que se obtuvieron los valores 2350, 2400 y 2500. El promedio de la muestrases 3x= 2416.67. Qu sucede si un tcnico, por error, teclea el valor25000 en lugar de 2500? El promedio de la muestra resultar 9916.67. Si se comprueba el resultadodeinmediato, esprobablequesedescubraysecorrijaelerror. Sinembargo, sinose compruebadeinmediato, el resultadoabsurdoquedarysercausadedificultadesposteriores. Tambin la desviacin estndar se anotar errneamente, como 13063, y no con el valor correcto de 76.376. Este sencillo ejemplo indica lo sensibles que son el promedio y la desviacin estndar a la presencia de valores atpicos en los datos.Para evitar esos problemas se puede usar una estadstica (ms) robusta que el promedio de la muestra, nx. sta es el promedio recortado . De los extremos superior e inferior de la muestra ordenada se eliminan sendas porciones de los datos. A continuacin, se calcula el promedio con la parte que queda de los datos, que es 1 - 2. Representaremos con T el promedio recortado es[ ][ ]+ ) 1 (1) (1 nn jjxNT64enlaque[ ] .representalaparteenteradelnmeroentreparntesisrectangulares, porejemplo, [ ] 7 3 . 7 , y [ ] [ ] n n N ) 1 (. Por ejemplo, si n=100 y = .05, se calcula el promedio de los 90 valores ordenados x(6), ..., x(95).Sin embargo, Me,T, Q1y Q3no cambian nada. Estas estadsticas se llaman robustaso insensibles, contra desviaciones extremas o datos atpicos.La desviacin estndar Ses muy sensible a las observaciones en los extremos. Una estadstica robusta de la dispersin es3490 . 11 3Q Q El denominador 1.3490 es la distancia entre Q3 y Q1 en la distribucin normal terica. En realidad, Q3 y Q1 son robustos contra valores atpicos. En consecuencia,~que equivale aproximadamente a las tres cuartas partes del IQR, con frecuencia resulta ser una estadstica apropiada para remplazar a S.Otra estadstica es la desviacin estndar recortada :( )[ ][ ]+

,_

) 1 (12) (11nn jjT xNSEje. Utilice una muestra de 50 datos obtenidos en un examen de laboratorio. Los 50 datos ordenados de manera ascendente son:27 68 79 91 10743 71 80 91 1086543 71 81 93 10844 71 82 94 11647 73 82 94 12049 73 84 94 12050 74 84 96 12254 75 86 97 12358 76 88 10312763 77 88 106128Diagrama Tallo-hoja: 74 333479 10 5 048 12 6 38 23 7 11113345679(10)8 0112244688 22 9 113344467 13 10367888 7116 612002378Tabla de frecuencia.Procedimiento:1. Identifique los valores mximos y mnimos (128, 27) y obtenga su amplitudAmplitud = 128 27 = 1012. Seleccione un nmero de clase (10) y un ancho de clase (11) de manera que el producto (110) sea un poco mayor que la amplitud o intervalo total (amplitud = 101).3. Elija un valor inicial. Este valor debe ser un poco ms pequeo que el puntaje mnimo. Supngase que inicia en 22, contando un mltiplos de 11 (el ancho de clase) a partir de este nmero inicial, obtenemos 22, 33, 44, 55, ...., 132. Estos ltimos valores se llaman lmites inferiores de clase.Las clases son:22-3277-8733.43 88-9844.54 99-10955.65 110-12066.76 121-13166.77Clase Fronteras de claseFrecuencia de clase, fiFrec. Relativa de clase, friFrec. acumulada1 22-32 1 1/50 1/502 33-43 2 2/50 3/503 44-54 5 5/50 8/50664 55-65 2 2/50 10/505 66-76 9 9/50 19/506 77-87 9 9/50 28/507 88-98 10 10/50 38/508 99-109 5 5/50 43/509 110-120 3 3/50 46/5010 121-131 4 4/50 50/50Totales 50 1.00La marca de clase es el punto medio de cada clase (x1 = (22 + 32)/2 = 27)Descriptive Statistics: datos Variable NN* MeanSE MeanStDevMinimum Q1Median Q3Maximumcalif 55 083.18 3.2624.1727.0071.00 82.0097.00 128.00califFrequency120 100 80 60 40121086420Histogram of calif 67120 100 80 60 40MedianMean90.0 87.5 85.0 82.5 80.0 77.5 75.0Anderson-Darling Normality TestVariance 583.966Skewness -0.133822Kurtosis -0.427337N 55Minimum 27.000A-Squared1st Quartile 71.000Median 82.0003rd Quartile 97.000Maximum 128.00095% Confidence I nterval for Mean76.6490.3589.71595% Confidence I nterval for Median75.786 91.42895% Confidence I nterval for StDev20.344 29.768P-Value 0.469Mean 83.182StDev 24.16595% Confidence I ntervalsSummary for califcalifPercent140 120 100 80 60 40 20100806040200Mean 83.18StDev 24.17N 55Empirical CDF of califNormal 68Eje. En el proceso de produccin de punteras, se tiene que el cuerpo de cierta puntera debe tener un dimetro exterior de 0.02 m (2.0 cm), con una tolerancia de t 25 m (1 m= 10-6 m). A las mediciones originales se les resta el valor nominal de 20 000 m, por lo que el resultado de la resta debe estar dentro det 25m, y ahora el valor nominal ser cero, y la tolerancia o especificacin inferior es EI=-25, y la superior ES = 25. En una de las ltimas etapas del proceso de fabricacindelaspunteras (componentes deunmotor), cadahorasemideel dimetrode5 punteras, en la tabla adjunta se aprecian los datos de 4 turnos (dos das).-21 -5 21 3 -12 4 3 7 22 -18 -13 7 -11 -7 7 15 7 26 7-4 0 13 6 -20 6 1 4 3 9 -10 -4 0 -5 11 2 3 -13 3-13 9 7 0 5 11 4 17 3 2 -23 -4 15 -5 2 12 5 5 -12 -16 10 1 -2 -4 -16 10 -13 1 -6 11 4 2 -4 14 -6 -2 42 19 -1 6 6 8 2 9 -4 -22 1 -2 2 -7 -9 10 -8 -10 -20 -3 -13 14 -3 7 5 -1 -1 1 10 7 -8 -14 -33 -14 28 10 0-2 -19 2 7 12 -9 10 5 14 -4 4 21 -16 -20 -3 10 22 -14 -5-7 5 -1 1 4 -4 17 0 5 6 -19 -7 2 -19 12 -1 0Descriptive Statistics: Punterias Variable NN* MeanSE Mean StDevMinimumQ1Median Q3Punterias150 00.5930.85810.513-33.000-5.000 2.0007.000Variable MaximumPunterias 28.00030 20 10 0 -10 -20 -3035302520151050PunteriasFrequencyHistogram of Punterias693020100-10-20-30-40PunteriasBoxplot of Punterias30 20 10 0 -10 -20 -30MedianMean3 2 1 0 -11st Quartile -5.0000Median 2.00003rd Quartile 7.0000Maximum 28.0000-1.1029 2.28950.0000 3.00009.4429 11.8590A-Squared 0.83P-Value 0.031Mean 0.5933StDev 10.5131Variance 110.5248Skewness -0.257177Kurtosis 0.390369N 150Minimum -33.0000Anderson-Darling Normality Test95% Confidence I nterval for Mean95% Confidence I nterval for Median95% Confidence I nterval for StDev95%Confidence I ntervalsSummary for PunteriasDe acuerdo con el anlisis hecho, se concluye que el proceso est centrado y que la variacin es mucha, por loque la capacidadreal del procesoes mala. Se debenseguir las siguientes recomendaciones para reducir la variabilidad y de esa forma mejorar la calidad de las punteras.70 Para reducir la variabilidad se debe encontrar qu aspectos de las 6 Ms estn contribuyendo ms al exceso de variacin. Esto se puede hacer estratificando (separando) los datos por turno, por lote, por condicin de proceso, etc; al hacer el anlisis ver si hay diferencias importantes de un estrato a otro. De ser as, tomar las medidas necesarias para hacer ms homogneos estos estratos. Otraposibilidadesanalizar condetallelospatronesdecomportamientodel proceso apoyndoseenlacarta R x . ,versi hay patronesenfuncindeturnos,operadores, lotes, etc. Otraalternativaes generar unproyectoSeis Sigmaparaencontrar las variables de entradaquemsinfluyenenel dimetrodelaspunteras, yas tomar lasdecisiones adecuadas.Eje. Nili, granproveedordefibrasparas industriastextilesendiversas partesdelmundo, tieneuncontrolestrictosobrelaresistenciadesus fibras. Por lo regular,la dimensin crtica se analiza con base en una escala logartmica. Esta transformacin logartmica produce datos que se distribuyen en forma ms simtrica.. Veamos n = 100 valores de y = ln (x), siendo x la resistencia de la fibra (libras/22 fibras) de lana.Muestra de 100valores de ln (resistencia de hilos)2.4016 1.1515 4.0017 2.1381 2.53642.5813 3.6152 2.5800 2.7243 2.40642.1232 2.5654 1.3436 4.3215 2.52643.0164 3.7043 2.2671 1.1535 2.34834.4382 1.4328 3.4603 3.6162 2.48223.3077 2.0968 2.5724 3.4217 4.45633.0693 2.6537 2.5000 3.1860 3.50171.5219 2.6745 2.3459 4.3389 4.52345.0904 2.5326 2.4240 4.8444 1.78373.0027 3.7071 3.1412 1.7902 1.53052.9908 2.3018 3.4002 1.6787 2.17713.1166 1.4570 4.0022 1.5059 3.98213.7782 3.3770 2.6266 3.6398 2.27621.8952 2.9394 2.8243 2.9382 5.79782.5238 1.7261 1.6438 2.2872 4.64263.4866 3.4743 3.5272 2.7317 3.65614.6315 2.5453 2.2364 3.6394 3.58861.8926 3.1860 3.2217 2.8418 4.12513.8849 2.1306 2.2163 3.2108 3.21772.0813 3.0722 4.0126 2.8732 2.4190El valor mnimo es y = 1.1514, y el mximo es y = 5.7978. Esto representa un intervalo de 5.79781.1514=4.6464. Paraobteneraproximadamente10subintervalos, esnecesarioqueel anchodecadaunosea0.46. Enestecasounaeleccinmscmodapodraser0.50. El primer 71subintervalo podra comenzar en b0 = 0.95 y el ltimo podra terminar con bk = 5.95. La distribucin de frecuencias para estos datos se presentan en la siguiente tablaDistribucin de frecuencias(bi-1, bi)ib fipiFiPi(0.95, 1.45) 1.2 4 .04 4 .04(1.45, 1.95) 1.7 11 .11 15 .15(1.95, 2.45) 2.2 18 .18 33 .33(2.45, 2.95) 2.7 21 .21 54 .54(2.95, 3.45) 3.2 16 .16 70 .70(3.45, 3.95) 3.7 15 .15 85 .85(3.95, 4.45) 4.2 8 .08 93 .93(4.45, 4.95) 4.7 5 .05 98 .98(4.95, 5.45) 5.2 1 .01 99 .99(5.45, 5.95) 5.7 1 .01 100 1.006 5 4 3 2 120100Resist.Frequency726 5 4 3 2 1100500Resist.Cumulative FrequencyLos cuartiles de esta muestra se pueden obtener partiendo de la distribucin de frecuencias, conunpolgonodefrecuenciasacumuladas, comoseveenlafigura. Siseutilizainterpolacin linealdentro de los subintervalos, obtendremos Q1 = 2.3, Q3 = 3.6 y Me = 2.9. Estos estimados slo son ligeramente diferentes a los valores exactos, Q1 = x(25 .25) = 2.2789, Q3 = x(75 .75) = 3.5732, Y Me = x(50 .5) = 2.8331.Diagrama de tallo y hoja.73Talloy hoja de ln y, N = 100, unidad de hojas = 0.505 1 1134415 1 555667778834 2 0011112222233344444(21) 2 55555555556667788899945 3 00001111222334444427 3 555666666777814 4 0001333446 4 56682 5 01 5 7Enestecaso, seordenanlosdatosenintervalodeclasedeigual longitud, comoenun histograma. Los 100 valores de la tabla comienza con x(1) = 1.151 y termina con x(100) = 5.798. En este diagrama se pueden usar slo los dos primeros dgitos de la izquierda, sin redondear. Todos los valores entre 1.0 y 1.499 se representan en la primera clase en la forma 1.1, 1.1, 1.3, 1.4 y 1.4. Hay cincovalores, yestafrecuenciaseescribe en la extremaizquierda.La segunda clase consiste en todos los valores entre 1.5 y 1.999. Hay 10 valores: 1.5, 1.5, 1.5, 1.6, 1.6, 1.7, 1.7, 1.7, 1.8 y 1.8. Lasdemsclasesserepresentanenigualforma. Lafrecuenciadelaclasealaquepertenecela mediana, Me, seencierraentreparntesis, paraqueresalte. Lasfrecuenciasabajooarribadela medianasonacumuladas. Comolafrecuenciaacumulada(desdearriba) delaclaseinmediata siguiente a la de la mediana es 45, se deduce que la mediana est ubicada inmediatamente despus del quinto valor comenzando de arriba, de esa clase, que es Me = 2.8, como vimos antes. De igual manera, para determinar Q1, obsrvese que x(q1)est en la tercera clase desde arriba. Es el dcimo valor, desde la izquierda, en esa clase. As, se ve queQ1 = 2.2. En forma parecida se determina que x(q3) = 3.5. Los resultados descriptivos utilizando un paquete estadstico son:Descriptive Statistics: Resist.Variable N Mean Median TrMeanStDevSE MeanResist.100 2.9238 2.8331 2.8982 0.9378 0.0938Variable MinimumMaximum Q1 Q3Resist. 1.1515 5.7978 2.2790 3.57338747 . 2 4040 . 093776 . 0 8790 . 09238 . 22 Kurotosis Sesgos sxEl promedio de la muestra es9238 . 2 xpara valores en una escala logartmica. Con objeto de regresar a la escala original, libras/22 fibras, se utilizar la medida{ }6177 . 18exp/ 11

,_

nniiyx G74dondeyiexp(xi),i 01,..., n.Alamedida estadstica G se le llama media geomtrica de Y. La mediageomtrica, G, slosedefineparavariablespositivas. Sepuededemostrar el resultado general siguiente:x G La igualdad es vlida slo si todos los valores en la muestra son iguales.El coeficiente de variacin, para los datos de logaritmo de resistencia de las fibras, es = 0.938/2.924 = 0.32.El diagrama de cajas es:X(1) = 1.151Q1 = 2.279Me = 2.833Q3 = 3.573X(100) = 5.798Q3 Q1 = 1.294 representa la longitud de la cajaEn la grfica de caja y bigotes, el extremo del bigote inferior est en mx[1.151, 0.338] = x(1). Elbigotesuperiortermina en mn[5.798,5.4514].Por consiguiente, x(100)es un dato atpico. Llegamos a la conclusin de que esta nica medicin de la resistencia de la fibra, que parece ser extremadamente grande, es un valor atpico; podra haber sido un error de medicin.654321Resist.Grfica de caja y bigotesGrfica de cuantiles.75Una grfica de cuantiles presenta los cuantiles de la muestra, xp, en funcin de p, 0 < p < 1, y xp=x(ip), siendoip=mx{1, [p(n+1)]}. Enlafigurasemuestralagrficadecuantilesparael logaritmo de la resistencia del hilo. De esta grfica se pueden obtener estimaciones grficas de los cuantiles de la distribucin. Por ejemplo, en la figura se obtiene de inmediato e