37
UNIDAD I Organización de datos

Pe u1

Embed Size (px)

Citation preview

UNIDAD I

Organización de datos

La Estadística es una disciplina que utilizarecursos matemáticos para organizar yresumir una gran cantidad de datosobtenidos de la realidad, e inferirconclusiones respecto de ellos.

Por ejemplo, la estadística intervienecuando se quiere conocer estado sanitariode un país, a través de ciertos parámetroscomo la tasa de morbilidad o mortalidad dela población

• En este caso la estadística describe lamuestra en términos de datos organizadosy resumidos, y luego infiere conclusionesrespecto de la población.

• Aplicada a la investigación científica,también infiere cuando provee los mediosmatemáticos para establecer si unahipótesis debe o no ser rechazada

• La estadística puede aplicarse a cualquierámbito de la realidad, y por ello es utilizadaen física, química, biología, medicina,astronomía, psicología, sociología,lingüística, demografía, y así en diversasramas.

• Desde un punto de vista histórico, lahumanidad ha utilizado cuatro métodospara adquirir el conocimiento:

La Autoridad La Autoridad

El Racionalismo El Racionalismo

La Intuición La Intuición

El Método Científico El Método Científico

• La Autoridad

– Al utilizar el método de autoridad, algo seconsidera verdadero debido a una tradición o aque alguna persona eminentemente dice lo quees. Aunque este método de conocimiento espoco favorable en la actualidad y a vecesconduce a errores es indispensable en nuestravida cotidiana

• La Autoridad

– Simplemente aceptamos una gran cantidad deinformación como cierta con base en unaautoridad, tan solo sea por la razón que notenemos el tiempo ni la pericia para verificarlode primera mano

• El racionalismo

– Este método utiliza exclusivamente elrazonamiento para llegar el conocimiento.Supone que si las premisas son validas y elrazonamiento se realiza de manera correcta, deacuerdo con las reglas de la lógica, entonces lasconclusiones llegarán a la verdad

• La intuición

– Se entiende como una inspiración súbita, la ideaque aclara y salta a la conciencia como un todo.No se llega por medio de la razón, por elcontrario, con frecuencia la idea parece surgirdespués de que ha fallado el razonamientoconsciente.

• Método cientifico

– Aunque el método científico utiliza elrazonamiento y la intuición para llegar a laverdad, se fundamenta en una evaluaciónobjetiva que es lo que lo distingue de los otrosmétodos. El experimento científico esta en elcentro de la ciencia, y el método de la ciencia esbastante directo.

• Se trata de valores de la variable estadística que secaracterizan por la posición que ocupan dentro delrango de valores posibles de esta. Entre ellos sedistinguen:

– Las medidas de tendencia central:• Media• Moda• Mediana.

– Las medidas de posición no central:• cuantiles (cuartiles, deciles y percentiles)

• Media

– Tambien denominada promedio aritmetico delconjunto

– Media muestral x

n

x

n

xxxx

n

i

i

n

121 ...

n

fx

n

fxfxfxx

n

i

ii

nn

12211 ...

• Mediana

– Otra medida de tendencia central, utilizadaprincipalmente en estadística no paramétrica,es la mediana, la cual no se basa en la magnitudde los datos, como la media aritmética, sino enla posición central que ocupa en el orden de sumagnitud, dividiendo la información en dospartes iguales, dejando igual número de datospor encima y por debajo de ella.

• Mediana

par es si 2

impar es si

122

2

1

n

xx

MeMediana

nxMeMediana

nn

n

• Mediana

intervalo del Amplitud :

mediano intervalo del Frecuencia :

mediano intervalo alanterior acumulada Frecuencia :

nesobservacio de Número :

n/2.posición la encuentra se

clase queen observando determina se cual el mediano), (intervalo

mediana la encuentra se donde intervalo delinferior Límite:

Mediana:

1

12

A

f

fa

n

LI

Me

Af

faLIMe

i

i

i

in

• Moda

– La moda, como su nombre lo indica, es el valormás común (de mayor frecuencia dentro de unadistribución. Una información puede tener unamoda y se llama unimodal, dos modas y sellama bimodal, o varias modas y llamarsemultimodal. Sin embargo puede ocurrir que lainformación no posea moda.

• Moda

intervalos los de Amplitud :

posmodal clase de Frecuancia :

premodal clase de Frecuancia :

modal clase de Frecuancia :

modal intervalo delinferior Límite :

Moda :

2

1

1

11

1

A

f

f

f

LI

Mo

Afff

ffLIMo

m

m

m

mmm

mm

• CUARTILES

– Las cuartillas o cuartiles son valoresposicionales que dividen la información encuatro partes iguales, el primer cuartil deja el25% de la información por debajo de él, y el 75%por encima, el segundo cuartil, al igual que lamediana, divide la información en dos partesiguales, y por último el tercer cuartil deja el 75%por debajo de sí, y el 25% por encima.

• QUINTILES

– Los quintiles o quintillas dividen la informaciónen cinco partes iguales, agrupándolas enporcentajes de 20, 40, 60, y 80 por ciento, enconsecuencia debemos calcular cuatroparámetro

• DECILES

– Similarmente, los deciles o decillas dividen lainformación en diez partes iguales, encantidades porcentuales de 10 en 10.

• CENTILES

– Obviamente los centiles dividen la informaciónen 100 partes, lo cual facilita la interpretaciónporcentual de una distribución de frecuencias.

• Para calcular cualquier percentil

modal clase de Frecuancia

intervalos los de Amplitud :

nesobservacio de Número :

percentil el contiene que intervalo del Frecuencia :

percentil el contiene

que alanterior intervalo el hasta acumulada Frecuencia :

percentil el contiene que intervalo delinferior Limite :

1.....2,1 percentil delOrden :

ninformació la divide se queen partes de Número :

1

1

A

n

f

fa

LI

rkk

r

Af

far

kn

LIQ

i

i

i

i

k

• En el análisis estadístico no basta el cálculo einterpretación de las medidas de tendenciacentral o de posición, ya que, por ejemplo,cuando pretendemos representar toda unainformación con la media aritmética, noestamos siendo absolutamente fieles a larealidad, pues suelen existir datos extremosinferiores y superiores a la media aritmética,los cuales, en honor a la verdad, no estánsiendo bien representados por este parámetro.

• En dos informaciones con igual mediaaritmética, no significa este hecho, que lasdistribuciones sean exactamente iguales,por lo tanto, debemos analizar el grado dehomogeneidad entre sus datos

• Para medir el grado de dispersión de unavariable, se utilizan principalmente lossiguientes indicadores:

– Rango o recorrido

– Desviación media

– Varianza y desviación típica o estándar

– Coeficiente de variabilidad

• Rango o recorrido

– Es la medida de dispersión mas sencilla ya quesolo considera los dos valores extremos de unacolección de datos, sin embargo, su mayorutilización está en el campo de la estadística noparamétrica.

minmax xxR

• Desviación media

– La desviación media, mide la distancia absolutapromedio entre cada uno de los datos, y elparámetro que caracteriza la información.Usualmente se considera la desviación mediacon respecto a la media aritmética

• Desviación media

intervalos de Numero :

muestra la de Tamaño :

ninformació la de arítmetica Media :

n observació la repite se que vecesde úmero :

variablela de valoresiferentes :

media Desviación :

1

m

n

x

xNf

xDx

DM

n

fxx

DM

ii

i

i

m

i

i

• Varianza y desviación típica o estándar

– El problema de los signos en la desviaciónmedia, es eludido tomando los valoresabsolutos de las diferencias de los datos conrespecto a la media aritmética. Ahora bien, lavarianza obvia los signos elevando lasdiferencias al cuadrado, lo cual resulta ser máselegante, aparte de que es supremamente útilen el ajuste de modelos estadísticos quegeneralmente conllevan formas cuadráticas.

• Varianza y desviación típica o estándar

– La varianza es uno de los parámetros másimportantes en estadística paramétrica, sepuede decir que, teniendo conocimiento de lavarianza de una población, se ha avanzadomucho en el conocimiento de la poblaciónmisma.

• Varianza y desviación típica o estándar

intervalos de Numero :

muestra la de Tamaño :

ninformació la de arítmetica Media :

n observació la de absoluta recuencia :

variablela de valoresiferentes :

Varianza :2

2

12

m

n

x

xFf

xDx

S

n

fxx

S

ii

i

i

m

i

i

n

xx

S

n

i

i

2

12

• Varianza y desviación típica o estándar

intervalos de Numero :

muestra la de Tamaño :

ninformació la de arítmetica Media :

n observació la de absoluta recuencia :

variablela de valoresiferentes :

Varianza :

estandar Desviación :

2

2

12

m

n

x

xFf

xDx

S

S

n

fxx

SS

ii

i

i

m

i

i

n

xx

SS

n

i

i

2

12

• Coeficiente de variabilidad

– Generalmente interesa establecercomparaciones de la dispersión, entrediferentes muestras que posean distintasmagnitudes o unidades de medida.

• Coeficiente de variabilidad

– El coeficiente de variabilidad tiene en cuenta elvalor de la media aritmética, para establecer unnúmero relativo, que hace comparable el gradode dispersión entre dos o mas variables, y sedefine como:

x

SCV

• Variable discreta

– Es aquella que entre dos valores próximospuede tomar a un número finito de valores, esdecir, es aquella que contiene saltos entre unnúmero y otro (1, 2, 3, 4, etc.), por ejemplo: elnúmero de miembros de una familia, el deobreros de una fábrica, el de alumnos de launiversidad, etc.

• Variable continúa

– Es la que puede tomar infinitos valores de unintervalo, es decir, es aquella que no contienesaltos (1.1, 1.2, 1.3, 1.4, etc.) En muchas ocasionesla diferencia es más teórica que práctica, ya quelos aparatos de medida dificultan que puedanexistir todos los valores del intervalo. Ejemplos,peso, estatura, distancias, etc.

Fin