85
Existen varios tipos de datos estadísticos, que se agrupan en dos clasificaciones: datos de características cuantitativas y cualitativas. Los datos de características cuantitativas: Son aquellos que se pueden expresar numéricamente y se obtienen a través de mediciones y conteos. Un dato cuantitativo se puede encontrar en cualquier disciplina; sicología, contabilidad, economía, publicidad, etc. Se clasifican en: 1-Variables continuas: Es cuando los datos estadísticos se generan a través de un proceso de medición se dice que estos son datos continuos; son aquellas que aceptan valores en cualquier punto fraccionario de un determinado intervalo, o sea, que aceptan fraccionamiento en un determinado intervalo. 2-Variables discretas: Se generan a través de un proceso de conteo. Son aquellas que no aceptan valores en puntos fraccionarios dentro de un determinado intervalo, o sea, son aquellas que no aceptan fraccionamiento dentro de un determinado intervalo. Datos de características cualitativas: Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente. Estos datos se deben convertir a valores numéricos antes de que se trabaje con ellos. Los datos de características cualitativas se clasifican en: 1-Datos nominales: Comprenden categorías, como el sexo, carrera de estudio, material de los pisos, calificaciones, etc. Las características mencionadas no son numéricas por su naturaleza, pero cuando se aplican, ya sea en una población o una muestra, es posible asignar a cada elemento una categoría y contar él numero que corresponde a cada elemento. De esta manera estas características se convierten en numéricas. 2-Datos jerarquizados: Es un tipo de datos de características cualitativas que se refiere a las evaluaciones subjetivas cuando los conceptos se jerarquizan según la preferencia o logro. Las posiciones de una competencia de atletismo se jerarquizan en primer lugar, segundo lugar, tercer lugar, etc. Tanto los datos nominales como los jerarquizados, que por su naturaleza no son numéricas, se convierten en "datos discretos". Existe otro tipo de datos que por su naturaleza especial pueden ser clasificados segun tu conveniencia, estos son los cronologicos, por ejemplo los años de la historia 2005,2006, 2007 puedes usarlos como discretos (años enteros), continuos ( años con subdivisiones en decimales

Est Ad is Tic A

Embed Size (px)

Citation preview

Page 1: Est Ad is Tic A

Existen varios tipos de datos estadísticos, que se agrupan en dos clasificaciones: datos de características cuantitativas y cualitativas.

Los datos de características cuantitativas: Son aquellos que se pueden expresar numéricamente y se obtienen a través de mediciones y conteos. Un dato cuantitativo se puede encontrar en cualquier disciplina; sicología, contabilidad, economía, publicidad, etc. Se clasifican en:

1-Variables continuas: Es cuando los datos estadísticos se generan a través de un proceso de medición se dice que estos son datos continuos; son aquellas que aceptan valores en cualquier punto fraccionario de un determinado intervalo, o sea, que aceptan fraccionamiento en un determinado intervalo.

2-Variables discretas: Se generan a través de un proceso de conteo. Son aquellas que no aceptan valores en puntos fraccionarios dentro de un determinado intervalo, o sea, son aquellas que no aceptan fraccionamiento dentro de un determinado intervalo.

Datos de características cualitativas: Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente. Estos datos se deben convertir a valores numéricos antes de que se trabaje con ellos.

Los datos de características cualitativas se clasifican en:

1-Datos nominales: Comprenden categorías, como el sexo, carrera de estudio, material de los pisos, calificaciones, etc. Las características mencionadas no son numéricas por su naturaleza, pero cuando se aplican, ya sea en una población o una muestra, es posible asignar a cada elemento una categoría y contar él numero que corresponde a cada elemento. De esta manera estas características se convierten en numéricas. 

2-Datos jerarquizados: Es un tipo de datos de características cualitativas que se refiere a las evaluaciones subjetivas cuando los conceptos se jerarquizan según la preferencia o logro. Las posiciones de una competencia de atletismo se jerarquizan en primer lugar, segundo lugar, tercer lugar, etc. 

Tanto los datos nominales como los jerarquizados, que por su naturaleza no son numéricas, se convierten en "datos discretos".

Existe otro tipo de datos que por su naturaleza especial pueden ser clasificados segun tu conveniencia, estos son los cronologicos, por ejemplo los años de la historia 2005,2006, 2007 puedes usarlos como discretos (años enteros), continuos ( años con subdivisiones en decimales de año), nominales ( por el nombre ) o jerarquizados ( ordenados), depende del uso que se le van a dar.

Por otro lado para la Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para representar "variables discretas"; las barras deben ser de igual base o ancho y separadas a igual distancia. 

Pueden disponerse en forma vertical y horizontal.

Pueden usarse para fines de exposicion ( barras simples), comparacion con otra variable (barras compuestas) o comparacion con un total (barras superpuestas)

Se puede presentar en dos o tres dimensiones

Page 2: Est Ad is Tic A

Los elementos basicos son:

Titulo y subtituloEjes y su escala ( con su titulo y valores)Cuerpo de la grafica ( con o sin valores)LeyendaFuente

Introducción

Existen diferentes razones por las cuales los profesionales de la atención primaria deben conocer los fundamentos de la epidemiología y la estadística como instrumentos del trabajo cotidiano. Entre dichas razones señalamos las siguientes: los términos estadísticos y epidemiológicos invaden la literatura médica, la medicina es cada vez más cuantitativa, su conocimiento nos permitirá leer la bibliografía médica con más capacidad crítica para detectar errores potenciales y falacias. Nos será también útil para llegar a conclusiones correctas acerca de procedimientos para el diagnóstico y del resultado de las pruebas 1,2. Su conocimiento nos permitirá a su vez valorar protocolos de estudio e informes remitidos para su publicación y participar, en definitiva, en la investigación médica. Resulta imprescindible, por lo tanto, conocer los conceptos básicos de estadística que nos faciliten la realización de estudios y conocer las posibilidades a desarrollar con ayuda de profesionales estadísticos para mejorar dicho análisis.

En este trabajo se pretende dar a conocer algunas nociones estadísticas que nos ayudarán a explorar y describir, en un primer momento, nuestros datos.

Page 3: Est Ad is Tic A

Cuando se realiza un estudio de investigación, se pretende generalmente inferir o generalizar resultados de una muestra a una población. Se estudia en particular a un reducido número de individuos a los que tenemos acceso con la idea de poder generalizar los hallazgos a la población de la cual esa muestra procede. Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la probabilidad.

La población representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas características determinadas.

La muestra es el conjunto menor de individuos (subconjunto de la población accesible y limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la población ). El individuo es cada uno de los componentes de la población y la muestra. La muestra debe ser representativa de la población y con ello queremos decir que cualquier individuo de la población en estudio debe haber tenido la misma probabilidad de ser elegido.

Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos señalar 3:

a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.b. Como consecuencia del punto anterior ahorraremos costes.c. Estudiar la totalidad de los pacientes o personas con una característica determinada en

muchas ocasiones puede ser una tarea inaccesible o imposible de realizar.d. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y

mediciones realizadas a un reducido número de individuos pueden ser más exactas y plurales que si las tuviésemos que realizar a una población.

e. La selección de muestras específicas nos permitirá reducir la heterogeneidad de una población al indicar los criterios de inclusión y/o exclusión.

 Tipos de datos

Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos a cada variable.

La naturaleza de las observaciones será de gran importancia a la hora de elegir el método estadístico más apropiado para abordar su análisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos 3-5: variables cuantitativas o variables cualitativas.

a. Variables cuantitativas.  Son las variables que pueden medirse, cuantificarse o expresarse numéricamente. Las variables cuantitativas pueden ser de dos tipos:

o Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numérico determinado (edad, peso, talla).

o Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (número de hijos, número de partos, número de hermanos, etc).

 

b. Variables cualitativas.  Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión, etcétera).

Page 4: Est Ad is Tic A

En el proceso de medición de estas variables, se pueden utilizar dos escalas:

o Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).

o Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (grados de disnea, estadiaje de un tumor, etcétera).

 Estadística descriptiva

Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o el estadiaje, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias.

Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:

a. ¿Alrededor de qué valor se agrupan los datos?b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados?

¿muy dispersos?

a. Medidas de tendencia central

Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone.

Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos será de:

Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestión, el valor medio vendrá dado por:

Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación equidistante de los extremos.

La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:

15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Page 5: Est Ad is Tic A

Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.

Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.

Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo éste el valor de la variable que presenta una mayor frecuencia.

En el ejemplo anterior el valor que más se repite es 60, que es la moda

b. Medidas de dispersión

Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.

En el ejemplo anterior la varianza sería:

Sx2=

La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística.

Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.

Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por:

Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones.

En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el valor sería 20.678. A efectos de cálculo lo haremos como n-1 y el resultado seria 21,79.

El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población.

Page 6: Est Ad is Tic A

Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución.

Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.

Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y desviación típica:

Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo serán.

Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.

Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a 0.

Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será detectado.

Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variación:

CV de la variable peso =

CV de la variable TAS =

A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.

Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana están próximos), se usan para describir esa variable su media y desviación típica. En el caso de distribuciones asimétricas, la mediana y la amplitud son medidas más adecuadas. En este caso, se suelen utilizar además los cuartiles y percentiles.

Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil es el valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra.

Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de sí al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de sí el 25%, 50% y el 75% del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3).

Page 7: Est Ad is Tic A
Page 8: Est Ad is Tic A

Indice1. El Concepto de Datos2. El Concepto de Información 3. Diferencia entre Datos e información4. El Concepto de Procesamiento de Datos5. Concepto de Procesamiento Distribuido y Centralizado6. Estructura de Datos utilizados en el proceso electrónico de datos7. Conclusion8. Bibliografía

1. El Concepto de Datos

Datos son los hechos que describen sucesos y entidades."Datos" es una palabra en plural que se refiere a más de un hecho. A un hecho simple se le denomina "data-ítem" o elemento de dato.Los datos son comunicados por varios tipos de símbolos tales como las letras del alfabeto, números, movimientos de labios,puntos y rayas, señales con la mano, dibujos, etc. Estos símbolos se pueden ordenar y reordenar de forma utilizable y se les denomina información.Los datos son símbolos que describen condiciones, hechos, situaciones o valores. Los datos se caracterizan por no contener ninguna información. Un dato puede significar un número, una letra, un signo ortográfico o cualquier símbolo que represente una cantidad, una medida, una palabra o unadescripción.La importancia de los datos está en su capacidad de asociarse dentro de un contexto para convertirse en información. Por si mismos los datos no tienen capacidad de comunicar un significado y por tanto no pueden afectar el comportamiento de quien los recibe. Para ser útiles, los datos deben convertirse en información para ofrecer un significado, conocimiento, ideas o conclusiones.

2. El Concepto de Información

La información no es un dato conjunto cualquiera de ellos. Es más bien una colección de hechos significativos y pertinentes, para el organismo uorganización que los percibe. La definición de información es la siguiente: Información es un conjunto de datos significativos y pertinentes que describan sucesos o entidades.DATOS SIGNIFICATIVOS. Para ser significativos, los datos deben constar de símbolos reconocibles, estar completos y expresar una idea no ambigua.Los símbolos de los datos son reconocibles cuando pueden ser correctamente

Page 9: Est Ad is Tic A

interpretados. Muchos tipos diferentes de símbolos comprensibles se usan para transmitir datos.La integridad significa que todos los datos requeridos para responder a una pregunta específica están disponibles. Por ejemplo, un marcador de béisboldebe incluir el tanteo de ambos equipos. Si se oye el tanteo "New York 6" y no oyes el del oponente, el anuncio será incompleto y sin sentido.Los datos son inequívocos cuando el contexto es claro. Por ejemplo, el grupo de signos 2-x puede parecer "la cantidad 2 menos la cantidad desconocida llamada x" para un estudiante de álgebra, pero puede significar "2 barra x" a un vaquero que marca ganado. Tenemos que conocer el contexto de estos símbolos antes de poder conocer su significado.Otro ejemplo de la necesidad del contexto es el uso de términos especiales en diferentes campos especializados, tales como la contabilidad. Los contables utilizan muchos términos de forma diferente al público en general, y una parte de un aprendizaje de contabilidad es aprender el lenguaje de contabilidad. Así los términos Debe y Haber pueden significar para un contable no más que "derecha" e "izquierda" en una contabilidad en T, pero pueden sugerir muchos tipos de ideas diferentes a los no contables.DATOS PERTINENTES. Decimos que tenemos datos pertinentes (relevantes) cuando pueden ser utilizados para responder a preguntas propuestas.Disponemos de un considerable número de hechos en nuestro entorno. Solo los hechos relacionados con las necesidades de información son pertinentes. Así la organización selecciona hechos entre sucesos y entidades particulares para satisfacer sus necesidades de información.

3. Diferencia entre Datos e información

1. Los Datos a diferencia de la información son utilizados como diversos métodos para comprimir la información a fin de permitir una transmisión oalmacenamiento más eficaces.

2. Aunque para el procesador de la computadora hace una distinción vital entre la información entre los programas y los datos, la memoria y muchas otras partes de la computadora no lo hace. Ambos son registradas temporalmente según la instrucción que se le de. Es como un pedazo de papel no sabe ni le importa lo que se le escriba: un poema de amor, las cuentas del banco o instrucciones para un amigo. Es lo mismo que lamemoria de la computadora. Sólo el procesador reconoce la diferencia entre datos e información de cualquier programa. Para la memoria de la computadora, y también para los dispositivos de entrada y salida (E/S) y almacenamiento en disco, un programa es solamente más datos, más información que debe ser almacenada, movida o manipulada.

3. La cantidad de información de un mensaje puede ser entendida como el número de símbolos posibles que representan el mensaje."los símbolos que representan el mensaje no son más que datos significativos.

4. En su concepto más elemental, la información es un mensaje con un contenido determinado emitido por una persona hacia otra y, como tal, representa un papel primordial en el proceso de la comunicación, a la vez que posee una evidente función social. A diferencia de los datos, la información tiene significado para quien la recibe, por eso, los seres

Page 10: Est Ad is Tic A

humanos siempre han tenido la necesidad de cambiar entre sí información que luego transforman en acciones. "La información es, entonces, conocimientos basados en los datos a los cuales, mediante un procesamiento, se les ha dado significado, propósito y utilidad"

4. El Concepto de Procesamiento de Datos

Hasta el momento hemos supuesto que los datos que maneja una aplicación no son tan voluminosos y por lo tanto caben en memoria. Cuando recurrimos a archivos se debe a la necesidad de conservar datos después de que termina un programa, por ejemplo para apagar el computador.Sin embargo, existen problemas en donde el volumen de datos es tan grande que es imposible mantenerlos en memoria. Entonces, los datos se almacenan en un conjunto de archivos, los que forman una base de datos. Una base de datos es por lo tanto un conjunto de archivos que almacenan, por ejemplo, datos con respecto al negocio de una empresa.Cada archivo se forma en base a un conjunto de líneas y cada línea esta formada por campos de información. Todas las líneas de un mismo archivo tienen la misma estructura, es decir los mismos campos de información. Diferentes archivos poseen estructuras distintas, i.e. campos de información.

Por ejemplo, el archivo de postulantes post.dat, visto en capítulos anteriores, tiene la siguiente información:

ci: carnet de identidad de la persona. nombre.

En lo que sigue supondremos que ambos archivos son lo suficientemente grandes como para que no quepan en la memoria del computador. A continuación resolveremos eficientemente el problema de generar un archivo con los tres campos de información, sin colocar previamente el contenido de un archivo en un arreglo.

Algunas definicionesRecolección de datos:Provee un vínculo para obtener la información interoperacionables racional y las parametrizaciones.Almacenamiento de datos:Las unidades de disco de la computadora y otros medios de almacenamiento externo permiten almacenar los datos a más largo plazo, manteniéndolos disponibles pero separados del circuito principal hasta que el microprocesador los necesita. Una computadora dispone también de otros tipos de almacenamiento.La memoria de sólo lectura (ROM) es un medio permanente de almacenamiento de información básica, como las instrucciones de inicio y losprocedimientos de entrada/salida. Asimismo, una computadora utiliza varios buffers (áreas reservadas de la memoria) como zonas de almacenamiento temporal de información específica, como por ejemplo los caracteres a enviar a la impresora o los caracteres leídos desde el teclado.

Procesamiento de datos:

Page 11: Est Ad is Tic A

a. El objetivo es graficar el Procesamiento de Datos, elaborando un Diagrama que permita identificar las Entradas, Archivos, Programas y Salidas de cada uno de los Procesos.

b.c. Su antecedente es el Diagrama de Flujo.d. Los elementos claves son los Programas.e. Se confecciona el Diagrama de Procesamiento de Datosf. Este Diagrama no se podrá elaborar por completo desde un primer momento

ya que depende del Flujo de Información.g. En este primer paso sólo se identifican las Salidas y Programas. Los

elementos restantes se identifican en forma genérica.

Validación de datos:Consiste en asegurar la veracidad e integridad de los datos que ingresan a un archivo. Existen numerosas técnicas de validación tales como: Digito verificador, chequeo de tipo, chequeo de rango.

5. Concepto de Procesamiento Distribuido y Centralizado

Procesamiento Centralizado:En la década de los años 50’s las computadoras eran máquinas del tamaño de todo un cuarto con las siguientes características:• Un CPU• Pequeña cantidad de RAM• Dispositivos DC almacenamiento secundario (cintas)• Dispositivos d salida (perforadoras de tarjetas)• Dispositivos de entrada (lectores de tarjeta perforada)Con el paso del tiempo, las computadoras fueron reduciendo su tamaño y creciendo en sofisticación,• Aunque la industria continuaba siendo dominada por las computadoras grandes "mainframes". A medida que la computación evolucionaba, las computadoras, fueron capaces de manejar aplicaciones múltiples simultáneamente, convirtiéndose en procesadores centrales "hosts" a los que se lesConectaban muchos periféricos y terminales tontas que consistían solamente de dispositivos de entrada/salida (monitor y teclado) y quizá poco espacio de almacenamiento, pero que no podían procesar por sí mismas. Las terminales locales se conectaban con el procesador central a través de interfaces seriales ordinarias de baja velocidad, mientras que las terminales remotas se enlazaban con

• El "host" usando módems y líneas telefónicas conmutadas. En este ambiente, se ofrecían velocidades de transmisión de 1200, 2400, o 9600 bps. Un ambiente como el descrito es lo que se conoce como procesamiento centralizado en su forma más pura "host/terminal". Aplicaciones características de este tipo de ambiente son:• Administración de grandes tuses de datos integradas• Algoritmos científicos de alta velocidad• Control de inventarios centralizado

Page 12: Est Ad is Tic A

Al continuar la evolución de los "mainframes", estos se comenzaron a conectar a enlaces de alta velocidad donde algunas tareas relacionadas con lascomunicaciones se delegaban a otros dispositivos llamados procesadores comunicaciones "Front End Procesos" (I7EP’s) y controladores de grupo "Cluster Controllers" (CC’s).

Procesamiento Distribuido:El procesamiento centralizado tenía varios inconvenientes, entre los que podemos mencionar que un número limitado de personas controlaba el acceso a la información y a los reportes, se requería un grupo muy caro de desarrolladores de sistemas para crear las aplicaciones, y los costos demantenimiento y soporte eran extremadamente altos. La evolución natural de la computación fue en el sentido del procesamiento distribuido, así las minicomputadoras (a pesar de su nombre siguen siendo máquinas potentes) empezaron a tomar parte del procesamiento que tenían los "mainframes".

Ventajas Existen cuatro ventajas del procesamiento de bases de datos distribuidas. La primera, puede dar como resultado un mejor rendimiento que el que se obtiene por un procesamiento centralizado. Los datos pueden colocarse cerca del punto de su utilización, de forma que el tiempo de comunicación sea mas corto. Varias computadoras operando en forma simultánea pueden entregar más volumen de procesamiento que una sola computadora.Segundo, los datos duplicados aumentan su confiabilidad. Cuando falla una computadora, se pueden obtener los datos extraídos de otras computadoras. Los usuarios no dependen de la disponibilidad de una sola fuente para sus datos .Una tercera ventaja, es que los sistemas distribuidos pueden variar su tamaño de un modo más sencillo. Se pueden agregar computadoras adicionales a la red conforme aumentan el número de usuarios y su carga de procesamiento. A menudo es más fácil y más barato agregar una nueva computadora más pequeña que actualizar una computadora única y centralizada. Después, si la carga de trabajo se reduce, el tamaño de la red también puede reducirse.

Por último, los sistemas distribuidos se pueden adecuar de una manera más sencilla a las estructuras de la organización de los usuarios.

6. Estructura de Datos utilizados en el proceso electrónico de datos

ArreglosSon una agrupación de datos homogéneos, es decir, con un mismo tipo de dato básico asociado. Se almacenan en forma contigua en la memoria y son referenciados con un nombre común y una posición relativa.

Ejemplos:Arreglo Lineal (1 dimensión ó vector)Vista gráfica

[1] [2] [3] [4] [5]

Definición de tipo

Page 13: Est Ad is Tic A

TypeLinea: Array [1..5] of TipoBasico;VarMiArreglo:Linea;

Arreglo Bidimensional (matriz)Vista gráfica

[1,1]

[1,2]

[1,3]

[1,4]

[2,1]

[2,2]

[2,3]

[2,4]

[3,1]

[3,2]

[3,3]

[3,4]

Definición de tipo

TypeTipoTabla:Array[1..3,1..4] of TipoBasico;VarMiTabla: TipoTabla;

Pilas o colas Lifo:Imagina un montón de platos "apilados" o bien fichas de dominó formando una torre e intenta eliminar una desde el centro, ¿qué ocurre?, naturalmente esta operación no está permitida si queremos mantener intactos a los platos o a la torre construida. Por esta razón, una pila se asocia a una estructura de datos LIFO (LAST IN FIRST OUT). En base a lo anterior, construye la definición de una PILA y discútela con el profesor.En general, podemos definir para cada una de las estructuras de datos una representación estática y otra dinámica según el método de asignación de memoria utilizado.

Page 14: Est Ad is Tic A

Clasificacióna.)Pila estática:Sin duda tendremos que utilizar arreglos o registros que como ya sabemos son la base para estructuras de datos más complejas. Considerando la siguiente figura:

Vista gráfica

Suponiendo que Dato pertenece a un mismo tipo de datos y Cuenta Dato corresponde a un entero que se incrementa a medida que un nuevo elemento se incorpora a la pila. Intenta construir la definición de tipo para la estructura Pila.

TYPE__________________________________________________________________________________________END;b.)Pila Dinámica:Sin duda tendremos que utilizar nodos con punteros. Considera la siguiente figura:

Suponiendo que los punteros que aparecen en la figura son capaces de apuntar a un nodo y que Dato pertenece a cualquiera de los tipos básicos o estructurados, la definición de tipo sería:

TYPEPuntero=^NodoPila;NodoPila=RecordInfo:AlgunTipo;sgte:Puntero;End;Var tope:Puntero;

Un concepto por introducir es el de encapsulamiento, que significa que una vez definida la estructura e implementadas las operaciones básicas, uno se remite a utilizarlas sin importar su codificación interna, es decir, las llamadas a PUSH(pila, x) o POP(pila, y) empilarán a x o desempilarán en y sin importar cómo lo hagan.

c.)Listas Enlazadas:Corresponde a una estructura lineal compuesta por una colección de datos homogéneos con alguna relación entre ellos. Dicha estructura se crea a través del método dinámico de memoria.En una lista enlazada el orden de los elementos está determinado por un campo enlace (puntero) explícito en cada elemento, por ejemplo: pilas y filas dinámicas.La representación de lista enlazada es la más óptima debido a que cualquier proceso de actualización (modificación inserción o eliminación) se realiza en base a reasignación de punteros. En este capítulo trataremos sólo con las listas enlazadas ya que las listas secuénciales ya son bien conocidas por ustedes.

Tipos de Listas Enlazadas

Page 15: Est Ad is Tic A

Listas lineales simplemente enlazadas Listas Circulares Listas doblemente enlazadas Listas múltiplemente enlazadas

ÁrbolesEs una estructura de datos no lineal que posee raíz, ramas y hojas, técnicamente constituye un grafo finito y sin ciclos. Un árbol define ciertos niveles jerárquicos precedidos por la raíz (1er. nivel), en donde las hojas constituyen el nivel más bajo.

ComponentesRaíz: Nodo que constituye la única entrada a la estructura (por ello es necesario tener un puntero sobre él).Ramas o Arcos: Conexión entre dos nodos del árbol que representa una relación de jerarquía.Hojas: Nodo sin hijos.

CaracterísticasNivel o profundidad de un nodo: Longitud del camino para ir desde la raíz al nodo. Por definición la raíz está en el nivel 0. Por ejemplo: profundidad(Y)=2, profundidad(raíz)=0, profundidad(árbol)= profundidad(hoja más profunda).

Altura de un nodo: Longitud del camino más largo desde el nodo a una hoja. Por ejemplo:Altura(X)=1, Altura(Y)=0, Altura(arbol)=Altura(raíz)=profundidad(árbol)

Grado de nodo: Cantidad de hijos de un nodo cualquiera.Grado de árbol: Cantidad máxima de hijos posibles de asociar a un nodo del árbol

Clasificacióna.)Según Número de Hijos:

b.)Según Estructura de Niveles:Arbol completo: Es un árbol binario en el cual cada nodo es una hoja o posee exactamente 2 hijos.Arbol lleno: Es un árbol binario con hojas en a lo más dos niveles adyacentes l-1 y l, en las cuales los nodos terminales se encuentran ubicados en las posiciones de más a la izquierda del árbol.

Si un árbol binario es completo, necesariamente es llenoc.)Según Funcionalidad:Árbol binario de búsqueda (ABB)Árbol binario de expresión Archivos:Es una es estructura de datos que reside en memoria secundaria o almacenamiento permanente (cinta magnética, discomagnético, disco óptico, disco láser, etc.). La forma de clasificación más básica se realiza de acuerdo al formato en que residen estos archivos, de esta forma hablamos de archivos ASCII (de texto) y archivos binarios. En este capítulo nos centraremos en estos últimos.

Page 16: Est Ad is Tic A

Definición archivo binario:Estructura de datos permanente compuesto por registros (filas) y éstos a su vez por campos (columnas). Se caracteriza por tener un tipo de dato asociado, el cual define su estructura interna.

Definición archivo texto:Estructura de datos permanente no estructurado formado por una secuencia de caracteres ASCII.

Tipos de Acceso a los Archivosa.)Secuencial:Se accesan uno a uno los registros desde el primero hasta el último o hasta aquel que cumpla con cierta condición de búsqueda. Se permite sobre archivos de Organización secuencial y Secuencial Indexada.

b.)Random:Se accesan en primera instancia la tabla de índices de manera de recuperar la dirección de inicio de bloque en donde se encuentra el registro buscado. (dentro del  rea primaria o de overflow). Se permite para archivos con Organización Sec.Indexada.

c.)Dinámico:Se accesan en primera instancia la tabla de índices de manera de recuperar la dirección de inicio de bloque en donde seencuentra el registro buscado. (dentro del  rea primaria o de overflow). Se permite para archivos con Organización Sec.Indexada.

d.)Directo:Es aquel que utiliza la función de Hashing para recuperar los registros. Sólo se permite para archivos con Organización Relativa.

ConstantesLas constantes son similares a una variable pero tienen un valor determinado que se mantiene igual en toda la ejecución del programa. El contenido de una variable puede cambiar tantas veces sea necesario. ¿Porque usar una constante si no puede cambiar de valor?. Hacemos esto cuando deseamos usar un mismo número o una palabra (string) varias veces.

VariablesMagnitud que puede tomar diferentes valores y se representa con una letra o letras. La variable real es el conjunto de los números reales, y se puede representar por cualquier letra o conjunto de letras y nos sirve para poder utilizar dicha letra para calculos o para obtener resultados.

7. Conclusión

La tecnología de información está transformando las actividades económicas y cotidianas como uno de los fenómenos sociológicos más importantes del siglo. Por esta razón, los niveles de oportunidades de trabajo se incrementan de una manera acelerada en diferentes áreas del conocimiento.Indiscutiblemente, las computadoras han invadido ya todos y cada uno de los campos de la actividad humana: ciencia,

Page 17: Est Ad is Tic A

tecnología, arte, educación,recreación, administración, economía y de acuerdo a la tendencia actual, nuestra civilización y las venideras dependerán cada vez más de estos "cerebros" electrónicos.Se ha venido acelerando la velocidad de cambio del medio de casi todas las organizaciones, de allí que éstas necesiten ahora más información como soporte a la toma de decisiones.Aunque las entidades de tipo educativo se han descuidado en este aspecto, en estos momentos se percibe un cierto interés en la implantación deestrategias que logren interesar a estudiantes y profesores en el aprendizaje de técnicas que pretende a corto plazo masificar e implementar el uso de bases de datos, redes de datos e información y tecnología informática de punta como herramientas básicas de los actuales y nuevos profesionales del país.Para responder a los retos planteados por la nueva situación económica y tecnológica mundial, se impulsa una dinámica tendiente a dar a conocer los elementos necesarios para estar a la vanguardia en este campo.

8. Bibliografía

Libro: Estructura de Datos y Diseño de ProgramasAutor: Robert L kruseLibro: Estructura de Datos en CAutor: Aarón M. Tenenbaum

www.monografias.com

dato estadístico:

Es un conjunto de valores numéricos que tienen relación significativa entre sí. Los mismos pueden ser comparados, analizados e interpretados en una investigación cualquiera. Se puede afirmar que son las expresiones numéricas obtenidas como consecuencia de observar un individuo de la población; por lo tanto, son las características que se han tomado en cuenta de cualquiera población para una investigación determinada.

Page 18: Est Ad is Tic A

Frecuencia:

La frecuencia es el número de veces que se repite (aparece) el mismo dato estadístico en un conjunto de observaciones de una investigación determinada, las frecuencias se les designan con las letras fi, y por lo general se les llaman frecuencias absolutas.

Distribución de Frecuencia:

En estadística existe una relación con cantidades, números agrupados o no, los cuales poseen entre sí características similares. Existen investigaciones relacionadas con los precios de los productos de la dieta diaria, la estatura y el peso de un grupo de individuos, los salarios de los empleados, los grados de temperatura del medio ambiente, las calificaciones de los estudiantes, etc., que pueden adquirir diferentes valores gracias a una unidad apropiada, que recibe el nombre de variable. La representación numérica de las variables se denomina dato estadístico.

La distribución de frecuencia es una disposición tabular de datos estadísticos, ordenados ascendente o descendentemente, con la frecuencia (fi) de cada dato. Las distribuciones de frecuencias pueden ser para datos no agrupados ypara datos agrupados o de intervalos de clase.

Distribución de frecuencia para datos no Agrupados:

Es aquella distribución que indica las frecuencias con que aparecen los datos estadísticos, desde el menor de ellos hasta el mayor de ese conjunto sin que se haya hecho ninguna modificación al tamaño de las unidades originales. En estas distribuciones cada dato mantiene su propia identidad después que la distribución de frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han sido solamente reagrupados, siguiendo un orden lógico con sus respectivas frecuencias.

Distribución de frecuencia de clase o de datos Agrupados:

Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentran ordenados en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando se requiera

Page 19: Est Ad is Tic A

elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva.

La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad.

Componentes de una distribución de frecuencia de clase

1.- Rango o Amplitud total (recorrido).- Es el límite dentro del cual están comprendidos todos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio o investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango es el tamaño del intervalo en el cual se ubican todos los valores que pueden tomar los diferentes datos de la serie de valores, desde el menor de ellos hasta el valor mayor estando incluidos ambos extremos. El rango de una distribución de

frecuencia se designa con la letra R.

2.- Clase o Intervalo de clase.- Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos limites.

Para organizar los valores de la serie de datos hay que determinar un número de clases que sea conveniente. En otras palabras, que ese número de intervalos no origine un número pequeño de clases ni muy grande. Un número de clases pequeño puede ocultar la naturaleza natural de los valores y un número muy alto puede provocar demasiados detalles como para observar alguna información de gran utilidad en la investigación.

Tamaño de los Intervalos de Clase

Los intervalos de clase pueden ser de tres tipos, según el tamaño que estos presenten en una distribución de frecuencia: a) Clases de igual tamaño, b)clases desiguales

de tamaño y c) clases abiertas.

3.-Amplitud de Clase, Longitud o Ancho de una Clase

Page 20: Est Ad is Tic A

La amplitud o longitud de una clase es el número de valores o variables que concurren a una clase determinada. La amplitud de clase se designa con las letras Ic. Existen diversos criterios para determinar la amplitud de clases, ante esa diversidad de criterios, se ha considerado que lo más importante es dar un ancho o longitud de clase a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la practica.

4.-Punto medio o Marca de clase

El centro de la clase, es el volar de los datos que se ubica en la posición central de la clase y representa todos los demás valores de esa clase. Este valor se utiliza para el calculo de la media aritmética.

5.-Frecuencia de clase

La frecuencia de clase se le denomina frecuencia absoluta y se le designa con las letras fi. Es el número total de valores de las variables que se encuentran presente en una clase determinada, de una distribución de frecuencia de clase.

6.- Frecuencia Relativa

La frecuencia relativa es aquella que resulta de dividir cada uno de los fi de las clases de una distribución de frecuencia de clase entre el número total de datos(N) de la serie de valores. Estas frecuencias se designan con las letras fr; si cada fr se multiplica por 100 se obtiene la frecuencia relativa porcentual (fr %).

7.-Frecuencias acumuladas

Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de las fi que integran cada una de las clases de una distribución de frecuencia de clase, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera clase hasta alcanzar la ultima. Las frecuencias acumuladas se designan con las letras fa. Las frecuencias acumuladas pueden ser menor que (fa que) y frecuencias acumuladas mayor que (faque).

8.- Frecuencia acumulada relativa

La frecuencia acumulada relativa es aquella que resulta de dividir cada una de las fa de las diferentes clases que integran una distribución de frecuencia de clase entre el número total de datos (N) de la serie de valores, estas frecuencias se designan con las letras far. Si las far se multiplican por 100 se

Page 21: Est Ad is Tic A

obtienen las frecuencias acumuladas relativas porcentuales y las mismas se designan así: far %.

1111111111

DEFINIRA LA DISTRIBUCION DE FRECUENCIA

Una distribución de frecuencia es una tabla en la cual se agrupan los valores posibles para una variable y se registran para una variable el numero de valores observados que corresponde a cada clase.

La siguiente es una tabla de distribución de frecuencia de alturas registradas de 100 estudiantes.

ALTURAS ESTUDIANTES

5

18

42

27

8

100

Conviene recordar frecuencia absoluta es él numero de datos contenidos en determinado intervalo.

FRECUENCIA RELATIVA:

Es el porcentaje que representa la frecuencia absoluta de determinado intervalo con respecto al total de datos proporcionados.

FRECUENCIA ACOMULADA:

Es la suma acumulativa de las frecuencias absolutas de cada uno de los intervalos.

FRECUENCIA ACUMULADA RELATIVA:

Es el porcentaje que expresa la frecuencia acumulada con respecto al total de datos proporcionados.

Los números extremos 60 y 62 de la tabla anterior se conocen como los limites de clase.

El numero menor 60 es el limite inferior de la clase y el 62 es el superior.

El punto medio de clase que también se llama marca de clase se obtiene sumando los limites inferior y superior y dividiendo entre dos.

Page 22: Est Ad is Tic A

A veces se necesita obtener lo que llamamos frontera de clase o limites exactos y esto se logra efectuando una suma entre el límite inferior de la clase inmediata cuyo resultado se divide entre dos.

1.- de la siguiente tabla de una distribución de frecuencia de salarios semanales de 65 empleados de una compañía.

SALARIOS EMPLEADOS

28,000 - 32,949 8

32,950 - 37,899 10

37,900 - 42,849 16

42,850 - 47,799 14

47,800 - 52,749 10

52,750 - 57,699 5

57,700 - 62.649 2

65

el limite inferior de la sexta clase

54,750

el limite superior de la cuarta clase

47,799

frecuencia de la tercera clase

16

marca de clase de la tercera clase

40,374.5

tamaño del quinto intervalo de clase

4949

la frecuencia relativa de la tercera clase

24.6%

la frontera de clase de la tercera clase

Page 23: Est Ad is Tic A

42,849.5

En una prueba de aptitudes, 3 trabajadores recibieron calificaciones de 90, 85, 80 tres trabajadoras recibieron calificaciones de 89, 86, 92. de las siguientes declaraciones realizadas con base en estas calificaciones identifique aquellas que se derivan de la inferencia estadística y aquellas que se derivan de métodos descriptivos.

la calificación promedio de 3 trabajadores es de 8.5 y la calificación promedio de las trabajadoras es 8.9

descriptiva

la aptitud promedio de todas las trabajadoras es probablemente mayor que la de los trabajadores.

Inferencial

en la siguiente prueba de aptitudes probablemente los trabajadores reciben calificaciones más bajas que las de las trabajadoras.

Inferencial

PARAMETRO M.C F. A F.R

350 - 379 3 369.5 3 1.5%

380 - 409 8 394.5 11 4%

410 - 139 10 424.5 21 5%

440 - 469 13 454.5 34 6.5%

470 - 499 33 484.5 67 16.5%

500 - 529 40 514.5 107 20%

530 - 559 35 544.5 142 17.5%

560 - 589 30 574.5 172 15%

EJERCICIO 2

SALARIOS NO. DE EMPLEADOS

$ 250.00 - 259.99 8

$ 260.00 - 269.99 10

$ 270.00 - 279.99 16

$ 280.00 - 289.99 14

Page 24: Est Ad is Tic A

$ 290.00 - 299.99 10

$ 300.00 - 309.99 5

$ 310.00 - 319.99 2

65

a) el limite inferior de la sexta clase: 300

b) el limite superior se la cuarta clase: 289.99

c) la marca de clase de la tercera clase: 274.995

d) las fronteras de clase del quinto intervalo: 289.995

e) la anchura del quinto intervalo de clase: 289.99 - 299.99 = 10

f) frecuencia de la tercera clase: 16 .

g) la frecuencia relativa de la tercera clase: 24.6%

h) el intervalo de clase con máxima frecuencia que se llama intervalo de clase modal:

en este caso es la tercera porque tiene de frecuencia 16 seria:

279.99 - 270 = 9.99

i)el porcentaje de empleados que cobran menos de 280.00 a la semana: 52.3%

j) el porcentaje de empleados que cobran menos d 300.00 pero al menos 260.00 por semana.

76.9%

DE LA TABLA

F.ACUMULADA F. R LIMITES EXACTOS

8 12.30% 249.99 - 259.99

18 15.38% 259.99 - 269.99

34 24.61% 269.99 - 279.99

48 21.53% 279.99 - 289.99

58 15.38% 289.99 - 299.99

63 7.69% 299.99 - 309.99

Page 25: Est Ad is Tic A

65 3.07% 309.00 - 319.99

HISTOGRAMA

Definirá histogramas y polígonos de frecuencia. Un histograma es una serie de resultados cada uno proporcional en amplitud al rango de valores de una clase de valores y proporcional en altura al numero de elementos que caen en cada clase.

Un polígono de frecuencia es una gráfica trazada sobre las marcas de clase también se puede obtener uniendo los puntos medios de los techos de los rectángulos de un histograma.

Los datos no agrupados es un conjunto de información si ningún orden que no nos establece relación clara con lo que se pretende desarrollar a lo largo de un problema, esto se soluciona mediante una tabulación que nos conduce a una tabla de frecuencias como se ha visto anteriormente.

El numero de intervalos de clase se toma generalmente entre 5 y 20 dependiendo de los datos.

Para construir un histograma y polígonos de frecuencia se necesita formar distribuciones de frecuencia y para ello se sugieren las siguientes reglas:

1.- determinar el mayor y el menor entre los datos registrados para así encontrar el rango.

2.- dividir el rango entre un numero conveniente de intervalos de clase del mismo tamaño siempre que sea posible.

3.- determinar el numero de observaciones que caen dentro de cada intervalo de clase esto es encontrar la frecuencia de clase.

NUMEROS NO AGRUPADOS

53 63 69 73 77

57 64 70 74 78

58 66 71 74 78

61 67 72 75 81

61 68 73 77 82

82 - 53 = 29 rango 29 = 9.6= 10

3

frecuencia

53 - 63 6

63 - 73 9

73 - 83 10

Page 26: Est Ad is Tic A

25

OJIVA

Es una gráfica en donde en los ejes de x van las marcas de clase y en los ejes y la frecuencia acumulada.

138, 146, 168, 146, 161, 164, 158, 126, 176, 145.

encontrar el mayor y el menor

176 - 126 = 50

50 = 12.5

4

frecuencia frecuencia acumulada

126 - 138.5 2 2

- 151 3 5

- 163.5 2 7

163.5 - 176 3 10

marca de clase frecuencia relativa

20%

30%

20%

169.75 30%

El arreglo de los ingresos obtenidos un sábado por 20 estudiantes de 4 semestre de la Alfonso reyes son los siguientes: 54, 34, 45, 80, 73, 43, 65, 90, 29, 103, 108, 75, 65, 59, 127, 108, 51, 45, 110, 126. se pide elaborar un histograma y un poligono de frecuencia.

127 - 29 = 98

98   = 19.6

5

frecuencia frecuencia acumulada

29 - 48.6 - 5 5

Page 27: Est Ad is Tic A

48.6 - 68.2 - 4 9

68.2 - 87.8 - 3 12

87.8 - 107.4 - 2 14

107.4- 127 - 5 19

25

marca de clase frecuencia relativa

20%

16%

78 12%

8%

20%

La población en B.C. en 1990 ascendió 1660,855 habitantes distribuidos por municipios de la siguiente manera: tecate, ensenada, Mexicali, Tijuana

Frecuencia frecuencia relativa

51,486 0.030 10.8

260,754 .156 56.16

601,230 .362 130.32

747.385 .452 162.72

1660,855 1.000 360

Tema 15: Medidas de Posición de una distribución de frecuencias: INTRODUCCIÓN:l El objeto de la Estadística descriptiva es el estudio de colectivos numerosos, en cada caso se van a describir y analizar unos determinados caracteres de uno o de diferentes colectivos y las relaciones existentes entre ellos. si el carácter estudiado se puede valorar mediante una medida, llamaremosvariable a una indeterminada que tome como valores los posibles resultados de la medición. Si no es susceptible de medida, la indeterminada se llamará atributo y tomará como valores las distintas modalidades del carácter. Cuando el colectivo es excesivamente numeroso, suele tomarse una parte del mismo, representativo de toda la población, llamado muestra.Los resultados numéricos de las observaciones realizadas en un colectivo constituyen lo que se llama una serie estadística Las distribuciones de frecuencias  tratan de observar, clasificar y ordenar las repeticiones de ciertos valores de una variable omodalidad. Se llama frecuencia absoluta al número de veces que se repite un valor de una variable o una modalidad de un atributo. frecuencia relativa es la razón entre la frecuencia absoluta y el total de elementos o tamaño.frecuencia acumulada es

Page 28: Est Ad is Tic A

la suma de frecuencias (absolutas o relativas) hasta un determinado valor de la variable; Dentro de la tabla estadística ns encontramos la medida de posición q es un valor que representa o sintetiza a toda la distribución de frecuencias, podrán ser promedios (o valores medios) o no, así como de tendencia central o no. La media aritmética es el promedio y se define como la suma de todos los valores de la distribución dividida por el número total de datos Media aritmética ponderada: Se utiliza cuando los valores de la variable tienen diferente 

importancia o significación dentro del conjunto de la distribución. La media aritmética es el “centro de gravedad” de la distribución: La suma de las desviaciones de los valores respecto a ella es igual a cero. Si se multiplican (o se dividen) todos los valores de la variable por una constante (en el caso del cociente distinta de cero), la media queda multiplicada (o dividida) por esta constante.Si a todos los valores de una variable se les suma (o resta) una constante, la media aritmética queda aumentada (o disminuida) en esa constante. La media de la suma de dos o más variables es igual a la suma de las medias aritméticas de cada una de las variables.Como ventajas podemos citar la consideración de todos los valores de la distribución, Ser calculable y única.El inconveniente fundamental se debe a la existencia de distribuciones con valores extremos muy elevados; lo cual puede llevar a una distorsión en la interpretación de los resultados.La media armónica: en una distribución de frecuencias se define como la inversa de la media aritmética de los inversos de los valores de la variable.Se denomina media cuadrática a la raíz cuadrada de la media aritmética de los cuadrados de los valores de la variable.La mediana: Es el valor que ocupa el lugar central de la distribución, cuando los valores de la variable están ordenados en sentido creciente o decreciente. La Moda (Mo) es el valor de la variable que más veces se repite y, en consecuencia, en una distribución de frecuencias, es el valor de la variable que viene afectado por la máxima frecuencia de la distribución. Los cuarteles, deciles y percentiles: Son medidas de posición no centrales.Son, en general, valores que dividen a la distribución en partes iguales, es decir, en intervalos, q comprenden el mismo número de valores.

Datos Estadisticos

Objetivos:

1. Conocer mediante ejercicios la utilización de los datos estadísticos.

2. Realizar paso a paso los ejercicios utilizando la explicación de los datos nominales y ordinales.

3. Conocer, sustentar y visualizar que tan importante son los datos estadísticos de la naturaleza estadística.

Los datos nominales son numéricos solo por su nombre, porque no comparten ninguna de las propiedades de los números que manejamos con la aritmética común. Por ejemplo, si registramos estados civiles como 1, 2, 3, o 4 como hemos sugerido, no podemos expresar que 3 > 1 o que 2 < 4 y no podemos expresar que 2–1= 4 – 3, que 1+3 = 4 o que 4÷2 = 2, de ahí que siempre es importante verificar si los cálculos matemáticos efectuados en un análisis estadístico en realidad son legítimos.

Page 29: Est Ad is Tic A

Si no podemos hacer mas nada que determinar desigualdades, como fue el en caso del ejemplo anterior, nos referimos a los datos ordinales. En relación con los datos ordinales, > no significa necesariamente “mayor que”; se puede usar para denotar conceptos como “más feliz que”, “preferible que”, “mas difícil que”, “más sabroso que” y demás.

Si también podemos determinar diferencias, pero no podemos multiplicar o dividir, nos referimos a los datos como datos de intervalos.

Si también nos referimos a formar cocientes nos referimos a los datos

datos racionales y no es difícil obtener tales datos. Estos incluyen todas las medidas (o determinaciones) comunes de longitud, altura, cantidades de dineros, peso, volumen, área presión, tiempo transcurrido (aunque no el tiempo calendario) intensidad del sonido, densidad, brillo, velocidad y demás

Conclusión:

• La diferencia que he hecho aquí entre datos nominales, de intervalo y racionales es importante, ya que como apreciaremos, la naturaleza de un conjunto de datos puede sugerir el uso de técnicas estadísticas particulares. Para enfatizar el punto de que lo que podemos y lo que no podemos hacer aritméticamente con un conjunto de datos...

Una escala debe cumplir los siguientes requisitos:

- Ser exhaustiva, o sea, que permita clasificar a todas las unidades de análisis.

- Las clases o categorías que la integran deben ser mutuamente excluyentes, esto es, que una unidad de análisis puede estar en una y solo una categoría. Las escalas pueden ser cuantitativas o cualitativas, en dependencia de si sus categorías pueden ser numéricamente medidas o no. Hagamos un alto en este emocionante viaje para detallar algunos aspectos.

Page 30: Est Ad is Tic A

Escalas

Cualitativas

- nominales

- ordinales

Cuantitativas

- de intervalo

- de razón o de proporción

Se puede construir una escala nominal a cualquier variable (dentro de lo razonablemente lógico, por supuesto), no importa cual sea la naturaleza de dicha variable. Claro que, al hacerlo, no puedes pasar por alto algo muy importante: si estás representando una variable de naturaleza no nominal, sencillamente estás perdiendo información que pudiera resultarte valiosa; es más, en realidad no estás midiendo cosa alguna, sólo estás clasificando las unidades de análisis en categorías o grupos. Mira el siguiente ejemplo:

Tabla 1. Distribución de recién nacidos según peso. Hospital “Clodomira Acosta”. Febrero, 1999.

Page 31: Est Ad is Tic A

Peso

Número

Porcentaje

No normopeso

62

62.0

Normopeso

38

38.0

Total

100

100.0

Fuente: Registro de nacimientos. Hospital “Clodomira Acosta”.

Aquí vemos cómo una variable continua, el peso, fue tratada como nominal dicotómica. Es una forma útil de manejar el dato, ya que permite una rápida evaluación de la situación, pero adolece de falta de información, pues si necesitases más datos acerca del peso de esos infantes, no te quedaría más remedio que remitirte a la fuente. En relación con la utilización cada vez más creciente de los softwares para el tratamiento estadístico de la información, estamos en el deber

Page 32: Est Ad is Tic A

de alertarte ante un error bastante frecuente por desgracia. Se trata del mal uso de la codificación, un recurso que brindan los paquetes estadísticos, consistente en la asignación de códigos numéricos a las variables en estudio, a fin de facilitar su manejo. Por ejemplo, el sexo puede tratarse como 1 para el femenino y 2 para el masculino (o viceversa), pero esto este tratamiento no le confiere valor cuantitativo a la variable, puesto que es cualitativa; por ende, no se le pueden aplicar procedimientos matemáticos propios de variables cuantitativas.

Otra forma de manipular tus datos es construyendo una escala ordinal. En esta situación, estás creando rangos[1] al asignar una posición dentro del grupo al dato en cuestión. Aquí, los datos de una categoría no son simplemente diferentes a otros en otra categoría, sino que guardan una relación entre sí, relaciones que pueden ser «mayor/menor/más complejo que», por mencionar algunas. Sin embargo, no conoces las distancias entre los elementos (el elemento A está a 2.4 unidades del B, por ejemplo), sólo te limitas a manejar las relaciones antedichas.

Se pueden representar datos cuantitativos y ordinales en esta escala, pero nunca datos nominales. Tiene la ventaja de que brinda mayor información que la escala nominal. Veamos los datos subsiguientes:

Tabla 2. Distribución de recién nacidos según peso al nacer. Hospital Municipal “Mariano Pérez”, Municipio Bartolomé Masó. Primer trimestre, 1999.

Peso al nacer

Número

Porcentaje

Bajo peso

60

60.0

Page 33: Est Ad is Tic A

Normopeso

38

38.0

Sobrepeso

2

2.0

Total

100

100.0

Fuente: Registro de nacimientos. Hospital “Mariano Pérez”.

Indiscutiblemente, se cuenta con más información que en el ejemplo anterior. Antes sólo sabías que la mayor parte de los recién nacidos no tenían un peso considerado “normal”; ahora sabes que nacieron niños con pesos superiores e inferiores a los estándares, e incluso no es tan difícil imaginar que algo no anda bien con la atención materno-infantil, a juzgar por los datos. Pero, si necesitaras más información por alguna causa, entonces estarías en el mismo lugar que en el ejemplo precedente.

Muchos trabajos de investigación experimental hacen uso de estas tablas o, más preciso, de las distribuciones de frecuencias. Por lo general es lo primero y a menudo lo único que se hace y a

Page 34: Est Ad is Tic A

veces de forma inconsciente. al comenzar el procesamiento estadístico de los datos. Esto se explica, en parte por la sencillez conque se construyen algunas distribuciones de frecuencias y por la utilidad que brindan: permiten descubrir regularidades en los datos.

Si clasificamos a un grupo de individuos, según una característica que posean, en varias categorías o clases de modo tal que un individuo pertenezca a una y sólo una clase, entonces habremos realizado una medición de la característica, o el registro de las modalidades de la característica en los distintos individuos, en una escala de cuantificación nominal.

Si además calculamos la cantidad de individuos que fueron clasificados en una clase, esto es, la frecuencia de clase, para cada clase, estaremos en presencia de una distribución de frecuencias de una variable (de un conjunto de datos) en escala nominal.

En algunos casos de datos numéricos las clases resultan ser incluso intervalos, llamados entonces intervalos de clase.

Ejemplos:

Se pregunta a 15 estudiantes la asignatura que prefieren y se obtiene: E, E, M, C, M, E, H, C, E, M, E, E, E, C, C, donde E indica español, M Matemática, C Ciencias Naturales y H Historia. Una distribución de frecuencias inmediata de estos 15 datos resulta ser:

CLASES

FRECUENCIAS

ESPAÑOL

7

MATEMÁTICA

Page 35: Est Ad is Tic A

3

CIENCIAS NATURALES

4

HISTORIA

1

TOTAL

15

Ejemplos de regularidades encontradas:

La asignatura de mayor preferencia es Español.

Hay casi igual preferencia por las asignaturas de ciencias (Matemática y Ciencias Naturales) que por las de letras Español e Historia).

Sólo un estudiante prefiere Historia.

Se registra el peso en kilogramos de cada uno de 60 niños y se construye con ellos una esta distribución de frecuencias:

PESO

Frecuencia Absoluta

Page 36: Est Ad is Tic A

40¾ 44

3

45¾ 49

9

50¾ 54

22

55¾ 59

15

60¾ 64

7

65¾ 69

4

TOTAL

60

Ejemplos de regularidades:

Alrededor de un tercio pesa entre 50 y 54 kilos.

Page 37: Est Ad is Tic A

La mayoría pesa entre 50 y 59 kilos.

El 95% de los niños pesa más de 45 kilos.

Las frecuencias porcentuales, o porcentajes en el primer ejemplo son 46.67, 20, 26.67 y 6.67 y en el segundo ejemplo 5,15, 36.67, 25, 11.67, 6.67. Que se obtienen multiplicando por 100 la frecuencia absoluta y dividiendo el producto obtenido entre la suma de las frecuencias absolutas de todas las clases.

En el caso de datos en escala nominal como los del ejemplo 1 las frecuencia representan una cuantificación de ellos. Se puede identificar cada clase o puntaje con su frecuencia sin perder información alguna, por ejemplo, en el caso del ejemplo 1:

{E, E, M, C, M, E, H, C, E, M, E, E, E, C, C}

= {E 7 veces, M 3 veces, C 4 veces, H 1 vez }

= {E, M, C y H tienen frecuencias 7, 3, 4 y 1 respectivamente }

Entonces es posible utilizar las frecuencias en representación de las clases para el procesamiento matemático de los métodos estadísticos y luego expresar los resultados en función de las clases o puntajes originales. De modo que en el experimento consistente en observar la asignatura preferida en 15 estudiantes donde se obtuvieron los resultados: {Español, Español, Matemática, Ciencias Naturales, Matemática, Español, Historia, Ciencias Naturales, Español, Matemática, Español, Español, Español, Ciencias Naturales, Ciencias Naturales}

Y donde aparentemente habrá una observación puramente cualitativa se hizo posible, con las frecuencias, la cuantificación de estos resultados. Aparecieron números, con sus propiedades de orden y métrica (las frecuencias) que se identifican con los resultados y por tanto pueden representarlos plenamente sin perder información alguna.

Page 38: Est Ad is Tic A

Otra manera de cuantificar estos resultados podrá ser considerando el orden en que fueron observados los estudiantes, pero este asunto será tratado más adelante.

Tablas de doble entrada

Las distribuciones de frecuencias pueden ser también bivariadas y multivariadas, esto es, tener dos o más dimensiones. Sus tablas también reciben los nombres de tablas cruzadas y de contingencia.

Sólo trataremos el caso de dos dimensiones, que se da cuando medimos dos variables, esto es, observamos características de un mismo grupo de individuos.

Ejemplo, si a los 60 niños del ejemplo 2 se les mide o pregunta, además, la asignatura que prefieren, un posible resultado, ya tabulado, podría ser.

ASIGNAT.

PESO

40-44

45-49

50-54

55-59

60-64

65-69

TOTALf

Page 39: Est Ad is Tic A

Español

2

3

8

5

3

1

22

Matemática

0

2

6

3

1

2

14

C. Natur.

1

3

5

4

1

0

14

Page 40: Est Ad is Tic A

Historia

0

1

3

3

2

1

10

TOTALc

3

9

22

15

7

4

60

Ejemplos de regularidades:

2 de los 3 menos pesados prefieren Español.

14 en total prefieren Matemática y 14 Ciencias Naturales.

Page 41: Est Ad is Tic A

Sólo 3 niños pesan entre 40 y 44 kilos.

Algo más de la mitad de los niños prefieren Español, Matemática o Ciencias Naturales y pesan entre 50 y 59.

Aparentemente no hay mucha relación entre el peso y la asignatura preferida, hay un considerable grado de independencia entre estas dos variables.

Como se puede apreciar, las frecuencias de las distintas clases, que aquí son celdas, producto de las intersecciones de filas y columnas, nos informan acerca de la distribución del peso y de la asignatura preferida por separado, pero también del comportamiento conjunto de ellas dos y por tanto de su grado de asociación o variación conjunta, también llamado correlación.

En el caso en que las dos variables, fila y columna estén en escala puramente nominal, cualitativa las frecuencias de las celdas, de modo análogo al caso univariado (de sólo una variable), permiten cuantificar los resultados bivariados, sin perder información alguna, para hacer posible el procesamiento matemático necesario para aplicar los variados métodos estadísticos existentes, aplicables a tablas de frecuencias. Entre tales métodos podemos mencionar las pruebas de hipótesis estadísticas: binomial, Ji-Cuadrado, de las rachas de una muestra, de McNemar, de la probabilidad exacta de Fisher, Q de Cochran, de los coeficientes de correlación V de Cramér, Fi, de Contingencia, el Análisis Loglinear y la Regresión logística, etc.

Muchos trabajos de investigación experimental hacen uso de estas tablas o, más preciso, de las distribuciones de frecuencias. Por lo general es lo primero y a menudo lo único que se hace y a veces de forma inconsciente. al comenzar el procesamiento estadístico de los datos. Esto se explica, en parte por la sencillez conque se construyen algunas distribuciones de frecuencias y por la utilidad que brindan: permiten descubrir regularidades en los datos.

Si clasificamos a un grupo de individuos, según una característica que posean, en varias categorías o clases de modo tal que un individuo pertenezca a una y sólo una clase, entonces habremos realizado una medición de la característica, o el registro de las modalidades de la característica en los distintos individuos, en una escala de cuantificación nominal.

Page 42: Est Ad is Tic A

Si además calculamos la cantidad de individuos que fueron clasificados en una clase, esto es, la frecuencia de clase, para cada clase, estaremos en presencia de una distribución de frecuencias de una variable (de un conjunto de datos) en escala nominal.

En algunos casos de datos numéricos las clases resultan ser incluso intervalos, llamados entonces intervalos de clase.

Ejemplos:

Se pregunta a 15 estudiantes la asignatura que prefieren y se obtiene: E, E, M, C, M, E, H, C, E, M, E, E, E, C, C, donde E indica español, M Matemática, C Ciencias Naturales y H Historia. Una distribución de frecuencias inmediata de estos 15 datos resulta ser:

CLASES

FRECUENCIAS

ESPAÑOL

7

MATEMÁTICA

3

CIENCIAS NATURALES

4

HISTORIA

1

Page 43: Est Ad is Tic A

TOTAL

15

Ejemplos de regularidades encontradas:

La asignatura de mayor preferencia es Español.

Hay casi igual preferencia por las asignaturas de ciencias (Matemática y Ciencias Naturales) que por las de letras Español e Historia).

Sólo un estudiante prefiere Historia.

Se registra el peso en kilogramos de cada uno de 60 niños y se construye con ellos una esta distribución de frecuencias:

PESO

Frecuencia Absoluta

40¾ 44

3

45¾ 49

9

Page 44: Est Ad is Tic A

50¾ 54

22

55¾ 59

15

60¾ 64

7

65¾ 69

4

TOTAL

60

Ejemplos de regularidades:

Alrededor de un tercio pesa entre 50 y 54 kilos.

La mayoría pesa entre 50 y 59 kilos.

El 95% de los niños pesa más de 45 kilos.

Las frecuencias porcentuales, o porcentajes en el primer ejemplo son 46.67, 20, 26.67 y 6.67 y en el segundo ejemplo 5,15, 36.67, 25, 11.67, 6.67. Que se obtienen multiplicando por 100 la

Page 45: Est Ad is Tic A

frecuencia absoluta y dividiendo el producto obtenido entre la suma de las frecuencias absolutas de todas las clases.

En el caso de datos en escala nominal como los del ejemplo 1 las frecuencia representan una cuantificación de ellos. Se puede identificar cada clase o puntaje con su frecuencia sin perder información alguna, por ejemplo, en el caso del ejemplo 1:

{E, E, M, C, M, E, H, C, E, M, E, E, E, C, C}

= {E 7 veces, M 3 veces, C 4 veces, H 1 vez }

= {E, M, C y H tienen frecuencias 7, 3, 4 y 1 respectivamente }

Entonces es posible utilizar las frecuencias en representación de las clases para el procesamiento matemático de los métodos estadísticos y luego expresar los resultados en función de las clases o puntajes originales. De modo que en el experimento consistente en observar la asignatura preferida en 15 estudiantes donde se obtuvieron los resultados: {Español, Español, Matemática, Ciencias Naturales, Matemática, Español, Historia, Ciencias Naturales, Español, Matemática, Español, Español, Español, Ciencias Naturales, Ciencias Naturales}

Y donde aparentemente habrá una observación puramente cualitativa se hizo posible, con las frecuencias, la cuantificación de estos resultados. Aparecieron números, con sus propiedades de orden y métrica (las frecuencias) que se identifican con los resultados y por tanto pueden representarlos plenamente sin perder información alguna.

Otra manera de cuantificar estos resultados podrá ser considerando el orden en que fueron observados los estudiantes, pero este asunto será tratado más adelante.

Tablas de doble entrada

Page 46: Est Ad is Tic A

Las distribuciones de frecuencias pueden ser también bivariadas y multivariadas, esto es, tener dos o más dimensiones. Sus tablas también reciben los nombres de tablas cruzadas y de contingencia.

Sólo trataremos el caso de dos dimensiones, que se da cuando medimos dos variables, esto es, observamos características de un mismo grupo de individuos.

Ejemplo, si a los 60 niños del ejemplo 2 se les mide o pregunta, además, la asignatura que prefieren, un posible resultado, ya tabulado, podría ser.

ASIGNAT.

PESO

40-44

45-49

50-54

55-59

60-64

65-69

TOTALf

Español

2

3

8

5

3

Page 47: Est Ad is Tic A

1

22

Matemática

0

2

6

3

1

2

14

C. Natur.

1

3

5

4

1

0

14

Historia

0

1

3

3

Page 48: Est Ad is Tic A

2

1

10

TOTALc

3

9

22

15

7

4

60

Ejemplos de regularidades:

2 de los 3 menos pesados prefieren Español.

14 en total prefieren Matemática y 14 Ciencias Naturales.

Sólo 3 niños pesan entre 40 y 44 kilos.

Algo más de la mitad de los niños prefieren Español, Matemática o Ciencias Naturales y pesan entre 50 y 59.

Page 49: Est Ad is Tic A

Aparentemente no hay mucha relación entre el peso y la asignatura preferida, hay un considerable grado de independencia entre estas dos variables.

Como se puede apreciar, las frecuencias de las distintas clases, que aquí son celdas, producto de las intersecciones de filas y columnas, nos informan acerca de la distribución del peso y de la asignatura preferida por separado, pero también del comportamiento conjunto de ellas dos y por tanto de su grado de asociación o variación conjunta, también llamado correlación.

En el caso en que las dos variables, fila y columna estén en escala puramente nominal, cualitativa las frecuencias de las celdas, de modo análogo al caso univariado (de sólo una variable), permiten cuantificar los resultados bivariados, sin perder información alguna, para hacer posible el procesamiento matemático necesario para aplicar los variados métodos estadísticos existentes, aplicables a tablas de frecuencias. Entre tales métodos podemos mencionar las pruebas de hipótesis estadísticas: binomial, Ji-Cuadrado, de las rachas de una muestra, de McNemar, de la probabilidad exacta de Fisher, Q de Cochran, de los coeficientes de correlación V de Cramér, Fi, de Contingencia, el Análisis Loglinear y la Regresión logística, etc.

Muchos trabajos de investigación experimental hacen uso de estas tablas o, más preciso, de las distribuciones de frecuencias. Por lo general es lo primero y a menudo lo único que se hace y a veces de forma inconsciente. al comenzar el procesamiento estadístico de los datos. Esto se explica, en parte por la sencillez conque se construyen algunas distribuciones de frecuencias y por la utilidad que brindan: permiten descubrir regularidades en los datos.

Si clasificamos a un grupo de individuos, según una característica que posean, en varias categorías o clases de modo tal que un individuo pertenezca a una y sólo una clase, entonces habremos realizado una medición de la característica, o el registro de las modalidades de la característica en los distintos individuos, en una escala de cuantificación nominal.

Si además calculamos la cantidad de individuos que fueron clasificados en una clase, esto es, la frecuencia de clase, para cada clase, estaremos en presencia de una distribución de frecuencias de una variable (de un conjunto de datos) en escala nominal.

En algunos casos de datos numéricos las clases resultan ser incluso intervalos, llamados entonces intervalos de clase.

Page 50: Est Ad is Tic A

Ejemplos:

Se pregunta a 15 estudiantes la asignatura que prefieren y se obtiene: E, E, M, C, M, E, H, C, E, M, E, E, E, C, C, donde E indica español, M Matemática, C Ciencias Naturales y H Historia. Una distribución de frecuencias inmediata de estos 15 datos resulta ser:

CLASES

FRECUENCIAS

ESPAÑOL

7

MATEMÁTICA

3

CIENCIAS NATURALES

4

HISTORIA

1

TOTAL

15

Ejemplos de regularidades encontradas:

Page 51: Est Ad is Tic A

La asignatura de mayor preferencia es Español.

Hay casi igual preferencia por las asignaturas de ciencias (Matemática y Ciencias Naturales) que por las de letras Español e Historia).

Sólo un estudiante prefiere Historia.

Se registra el peso en kilogramos de cada uno de 60 niños y se construye con ellos una esta distribución de frecuencias:

PESO

Frecuencia Absoluta

40¾ 44

3

45¾ 49

9

50¾ 54

22

55¾ 59

15

Page 52: Est Ad is Tic A

60¾ 64

7

65¾ 69

4

TOTAL

60

Ejemplos de regularidades:

Alrededor de un tercio pesa entre 50 y 54 kilos.

La mayoría pesa entre 50 y 59 kilos.

El 95% de los niños pesa más de 45 kilos.

Las frecuencias porcentuales, o porcentajes en el primer ejemplo son 46.67, 20, 26.67 y 6.67 y en el segundo ejemplo 5,15, 36.67, 25, 11.67, 6.67. Que se obtienen multiplicando por 100 la frecuencia absoluta y dividiendo el producto obtenido entre la suma de las frecuencias absolutas de todas las clases.

En el caso de datos en escala nominal como los del ejemplo 1 las frecuencia representan una cuantificación de ellos. Se puede identificar cada clase o puntaje con su frecuencia sin perder información alguna, por ejemplo, en el caso del ejemplo 1:

Page 53: Est Ad is Tic A

{E, E, M, C, M, E, H, C, E, M, E, E, E, C, C}

= {E 7 veces, M 3 veces, C 4 veces, H 1 vez }

= {E, M, C y H tienen frecuencias 7, 3, 4 y 1 respectivamente }

Entonces es posible utilizar las frecuencias en representación de las clases para el procesamiento matemático de los métodos estadísticos y luego expresar los resultados en función de las clases o puntajes originales. De modo que en el experimento consistente en observar la asignatura preferida en 15 estudiantes donde se obtuvieron los resultados: {Español, Español, Matemática, Ciencias Naturales, Matemática, Español, Historia, Ciencias Naturales, Español, Matemática, Español, Español, Español, Ciencias Naturales, Ciencias Naturales}

Y donde aparentemente habrá una observación puramente cualitativa se hizo posible, con las frecuencias, la cuantificación de estos resultados. Aparecieron números, con sus propiedades de orden y métrica (las frecuencias) que se identifican con los resultados y por tanto pueden representarlos plenamente sin perder información alguna.

Otra manera de cuantificar estos resultados podrá ser considerando el orden en que fueron observados los estudiantes, pero este asunto será tratado más adelante.

Tablas de doble entrada

Las distribuciones de frecuencias pueden ser también bivariadas y multivariadas, esto es, tener dos o más dimensiones. Sus tablas también reciben los nombres de tablas cruzadas y de contingencia.

Sólo trataremos el caso de dos dimensiones, que se da cuando medimos dos variables, esto es, observamos características de un mismo grupo de individuos.

Page 54: Est Ad is Tic A

Ejemplo, si a los 60 niños del ejemplo 2 se les mide o pregunta, además, la asignatura que prefieren, un posible resultado, ya tabulado, podría ser.

ASIGNAT.

PESO

40-44

45-49

50-54

55-59

60-64

65-69

TOTALf

Español

2

3

8

5

3

1

22

Matemática

0

2

Page 55: Est Ad is Tic A

6

3

1

2

14

C. Natur.

1

3

5

4

1

0

14

Historia

0

1

3

3

2

1

10

TOTALc

3

Page 56: Est Ad is Tic A

9

22

15

7

4

60

Ejemplos de regularidades:

2 de los 3 menos pesados prefieren Español.

14 en total prefieren Matemática y 14 Ciencias Naturales.

Sólo 3 niños pesan entre 40 y 44 kilos.

Algo más de la mitad de los niños prefieren Español, Matemática o Ciencias Naturales y pesan entre 50 y 59.

Aparentemente no hay mucha relación entre el peso y la asignatura preferida, hay un considerable grado de independencia entre estas dos variables.

Como se puede apreciar, las frecuencias de las distintas clases, que aquí son celdas, producto de las intersecciones de filas y columnas, nos informan acerca de la distribución del peso y de la asignatura preferida por separado, pero también del comportamiento conjunto de ellas dos y por tanto de su grado de asociación o variación conjunta, también llamado correlación.

Page 57: Est Ad is Tic A

En el caso en que las dos variables, fila y columna estén en escala puramente nominal, cualitativa las frecuencias de las celdas, de modo análogo al caso univariado (de sólo una variable), permiten cuantificar los resultados bivariados, sin perder información alguna, para hacer posible el procesamiento matemático necesario para aplicar los variados métodos estadísticos existentes, aplicables a tablas de frecuencias. Entre tales métodos podemos mencionar las pruebas de hipótesis estadísticas: binomial, Ji-Cuadrado, de las rachas de una muestra, de McNemar, de la probabilidad exacta de Fisher, Q de Cochran, de los coeficientes de correlación V de Cramér, Fi, de Contingencia, el Análisis Loglinear y la Regresión logística, etc.

Muchos trabajos de investigación experimental hacen uso de estas tablas o, más preciso, de las distribuciones de frecuencias. Por lo general es lo primero y a menudo lo único que se hace y a veces de forma inconsciente. al comenzar el procesamiento estadístico de los datos. Esto se explica, en parte por la sencillez conque se construyen algunas distribuciones de frecuencias y por la utilidad que brindan: permiten descubrir regularidades en los datos.

Si clasificamos a un grupo de individuos, según una característica que posean, en varias categorías o clases de modo tal que un individuo pertenezca a una y sólo una clase, entonces habremos realizado una medición de la característica, o el registro de las modalidades de la característica en los distintos individuos, en una escala de cuantificación nominal.

Si además calculamos la cantidad de individuos que fueron clasificados en una clase, esto es, la frecuencia de clase, para cada clase, estaremos en presencia de una distribución de frecuencias de una variable (de un conjunto de datos) en escala nominal.

En algunos casos de datos numéricos las clases resultan ser incluso intervalos, llamados entonces intervalos de clase.

Ejemplos:

Se pregunta a 15 estudiantes la asignatura que prefieren y se obtiene: E, E, M, C, M, E, H, C, E, M, E, E, E, C, C, donde E indica español, M Matemática, C Ciencias Naturales y H Historia. Una distribución de frecuencias inmediata de estos 15 datos resulta ser:

CLASES

Page 58: Est Ad is Tic A

FRECUENCIAS

ESPAÑOL

7

MATEMÁTICA

3

CIENCIAS NATURALES

4

HISTORIA

1

TOTAL

15

Ejemplos de regularidades encontradas:

La asignatura de mayor preferencia es Español.

Hay casi igual preferencia por las asignaturas de ciencias (Matemática y Ciencias Naturales) que por las de letras Español e Historia).

Sólo un estudiante prefiere Historia.

Page 59: Est Ad is Tic A

Se registra el peso en kilogramos de cada uno de 60 niños y se construye con ellos una esta distribución de frecuencias:

PESO

Frecuencia Absoluta

40¾ 44

3

45¾ 49

9

50¾ 54

22

55¾ 59

15

60¾ 64

7

65¾ 69

4

TOTAL

Page 60: Est Ad is Tic A

60

Ejemplos de regularidades:

Alrededor de un tercio pesa entre 50 y 54 kilos.

La mayoría pesa entre 50 y 59 kilos.

El 95% de los niños pesa más de 45 kilos.

Las frecuencias porcentuales, o porcentajes en el primer ejemplo son 46.67, 20, 26.67 y 6.67 y en el segundo ejemplo 5,15, 36.67, 25, 11.67, 6.67. Que se obtienen multiplicando por 100 la frecuencia absoluta y dividiendo el producto obtenido entre la suma de las frecuencias absolutas de todas las clases.

En el caso de datos en escala nominal como los del ejemplo 1 las frecuencia representan una cuantificación de ellos. Se puede identificar cada clase o puntaje con su frecuencia sin perder información alguna, por ejemplo, en el caso del ejemplo 1:

{E, E, M, C, M, E, H, C, E, M, E, E, E, C, C}

= {E 7 veces, M 3 veces, C 4 veces, H 1 vez }

= {E, M, C y H tienen frecuencias 7, 3, 4 y 1 respectivamente }

Entonces es posible utilizar las frecuencias en representación de las clases para el procesamiento matemático de los métodos estadísticos y luego expresar los resultados en función de las clases o

Page 61: Est Ad is Tic A

puntajes originales. De modo que en el experimento consistente en observar la asignatura preferida en 15 estudiantes donde se obtuvieron los resultados: {Español, Español, Matemática, Ciencias Naturales, Matemática, Español, Historia, Ciencias Naturales, Español, Matemática, Español, Español, Español, Ciencias Naturales, Ciencias Naturales}

Y donde aparentemente habrá una observación puramente cualitativa se hizo posible, con las frecuencias, la cuantificación de estos resultados. Aparecieron números, con sus propiedades de orden y métrica (las frecuencias) que se identifican con los resultados y por tanto pueden representarlos plenamente sin perder información alguna.

Otra manera de cuantificar estos resultados podrá ser considerando el orden en que fueron observados los estudiantes, pero este asunto será tratado más adelante.

Tablas de doble entrada

Las distribuciones de frecuencias pueden ser también bivariadas y multivariadas, esto es, tener dos o más dimensiones. Sus tablas también reciben los nombres de tablas cruzadas y de contingencia.

Sólo trataremos el caso de dos dimensiones, que se da cuando medimos dos variables, esto es, observamos características de un mismo grupo de individuos.

Ejemplo, si a los 60 niños del ejemplo 2 se les mide o pregunta, además, la asignatura que prefieren, un posible resultado, ya tabulado, podría ser.

ASIGNAT.

PESO

40-44

45-49

Page 62: Est Ad is Tic A

50-54

55-59

60-64

65-69

TOTALf

Español

2

3

8

5

3

1

22

Matemática

0

2

6

3

1

2

14

C. Natur.

1

Page 63: Est Ad is Tic A

3

5

4

1

0

14

Historia

0

1

3

3

2

1

10

TOTALc

3

9

22

15

7

4

60

Page 64: Est Ad is Tic A

Ejemplos de regularidades:

2 de los 3 menos pesados prefieren Español.

14 en total prefieren Matemática y 14 Ciencias Naturales.

Sólo 3 niños pesan entre 40 y 44 kilos.

Algo más de la mitad de los niños prefieren Español, Matemática o Ciencias Naturales y pesan entre 50 y 59.

Aparentemente no hay mucha relación entre el peso y la asignatura preferida, hay un considerable grado de independencia entre estas dos variables.

Como se puede apreciar, las frecuencias de las distintas clases, que aquí son celdas, producto de las intersecciones de filas y columnas, nos informan acerca de la distribución del peso y de la asignatura preferida por separado, pero también del comportamiento conjunto de ellas dos y por tanto de su grado de asociación o variación conjunta, también llamado correlación.

En el caso en que las dos variables, fila y columna estén en escala puramente nominal, cualitativa las frecuencias de las celdas, de modo análogo al caso univariado (de sólo una variable), permiten cuantificar los resultados bivariados, sin perder información alguna, para hacer posible el procesamiento matemático necesario para aplicar los variados métodos estadísticos existentes, aplicables a tablas de frecuencias. Entre tales métodos podemos mencionar las pruebas de hipótesis estadísticas: binomial, Ji-Cuadrado, de las rachas de una muestra, de McNemar, de la probabilidad exacta de Fisher, Q de Cochran, de los coeficientes de correlación V de Cramér, Fi, de Contingencia, el Análisis Loglinear y la Regresión logística, etc.

Muchos trabajos de investigación experimental hacen uso de estas tablas o, más preciso, de las distribuciones de frecuencias. Por lo general es lo primero y a menudo lo único que se hace y a veces de forma inconsciente. al comenzar el procesamiento estadístico de los datos. Esto se explica, en parte por la sencillez conque se construyen algunas distribuciones de frecuencias y por la utilidad que brindan: permiten descubrir regularidades en los datos.

Page 65: Est Ad is Tic A

Si clasificamos a un grupo de individuos, según una característica que posean, en varias categorías o clases de modo tal que un individuo pertenezca a una y sólo una clase, entonces habremos realizado una medición de la característica, o el registro de las modalidades de la característica en los distintos individuos, en una escala de cuantificación nominal.Si además calculamos la cantidad de individuos que fueron clasificados en una clase, esto es, la frecuencia de clase, para cada clase, estaremos en presencia de una distribución de frecuencias de una variable (de un conjunto de datos) en escala nominal.En algunos casos de datos numéricos las clases resultan ser incluso intervalos, llamados entonces intervalos de clase.Ejemplos:

Se pregunta a 15 estudiantes la asignatura que prefieren y se obtiene: E, E, M, C, M, E, H, C, E, M, E, E, E, C, C, donde E indica español, M Matemática, C Ciencias Naturales y H Historia. Una distribución de frecuencias inmediata de estos 15 datos resulta ser:

CLASES FRECUENCIAS

ESPAÑOL 7

MATEMÁTICA 3

CIENCIAS NATURALES 4

HISTORIA 1

TOTAL 15

Ejemplos de regularidades encontradas:La asignatura de mayor preferencia es Español.Hay casi igual preferencia por las asignaturas de ciencias (Matemática y Ciencias Naturales) que por las de letras Español e Historia).Sólo un estudiante prefiere Historia.

Se registra el peso en kilogramos de cada uno de 60 niños y se construye con ellos una esta distribución de frecuencias:

PESO Frecuencia Absoluta

40¾ 44 3

45¾ 49 9

50¾ 54 22

55¾ 59 15

60¾ 64 7

65¾ 69 4

TOTAL 60

Ejemplos de regularidades:Alrededor de un tercio pesa entre 50 y 54 kilos. La mayoría pesa entre 50 y 59 kilos. El 95% de los niños pesa más de 45 kilos.

Las frecuencias porcentuales, o porcentajes en el primer ejemplo son 46.67, 20, 26.67 y 6.67 y en el segundo ejemplo 5,15, 36.67, 25, 11.67, 6.67. Que se obtienen multiplicando por 100 la

Page 66: Est Ad is Tic A

frecuencia absoluta y dividiendo el producto obtenido entre la suma de las frecuencias absolutas de todas las clases.En el caso de datos en escala nominal como los del ejemplo 1 las frecuencia representan una cuantificación de ellos. Se puede identificar cada clase o puntaje con su frecuencia sin perder información alguna, por ejemplo, en el caso del ejemplo 1:{E, E, M, C, M, E, H, C, E, M, E, E, E, C, C}= {E 7 veces, M 3 veces, C 4 veces, H 1 vez }= {E, M, C y H tienen frecuencias 7, 3, 4 y 1 respectivamente }Entonces es posible utilizar las frecuencias en representación de las clases para el procesamiento matemático de los métodos estadísticos y luego expresar los resultados en función de las clases o puntajes originales. De modo que en el experimento consistente en observar la asignatura preferida en 15 estudiantes donde se obtuvieron los resultados: {Español, Español, Matemática, Ciencias Naturales, Matemática, Español, Historia, Ciencias Naturales, Español, Matemática, Español, Español, Español, Ciencias Naturales, Ciencias Naturales}Y donde aparentemente habrá una observación puramente cualitativa se hizo posible, con las frecuencias, la cuantificación de estos resultados. Aparecieron números, con sus propiedades de orden y métrica (las frecuencias) que se identifican con los resultados y por tanto pueden representarlos plenamente sin perder información alguna.Otra manera de cuantificar estos resultados podrá ser considerando el orden en que fueron observados los estudiantes, pero este asunto será tratado más adelante.Tablas de doble entradaLas distribuciones de frecuencias pueden ser también bivariadas y multivariadas, esto es, tener dos o más dimensiones. Sus tablas también reciben los nombres de tablas cruzadas y de contingencia.Sólo trataremos el caso de dos dimensiones, que se da cuando medimos dos variables, esto es, observamos características de un mismo grupo de individuos.Ejemplo, si a los 60 niños del ejemplo 2 se les mide o pregunta, además, la asignatura que prefieren, un posible resultado, ya tabulado, podría ser.

ASIGNAT. PESO

40-44 45-49 50-54 55-59 60-64 65-69 TOTALf

Español 2 3 8 5 3 1 22

Matemática 0 2 6 3 1 2 14

C. Natur. 1 3 5 4 1 0 14

Historia 0 1 3 3 2 1 10

TOTALc 3 9 22 15 7 4 60

Ejemplos de regularidades:2 de los 3 menos pesados prefieren Español. 14 en total prefieren Matemática y 14 Ciencias Naturales. Sólo 3 niños pesan entre 40 y 44 kilos. Algo más de la mitad de los niños prefieren Español, Matemática o Ciencias Naturales y pesan entre 50 y 59.Aparentemente no hay mucha relación entre el peso y la asignatura preferida, hay un considerable grado de independencia entre estas dos variables.

Page 67: Est Ad is Tic A

Como se puede apreciar, las frecuencias de las distintas clases, que aquí son celdas, producto de las intersecciones de filas y columnas, nos informan acerca de la distribución del peso y de la asignatura preferida por separado, pero también del comportamiento conjunto de ellas dos y por tanto de su grado de asociación o variación conjunta, también llamado correlación.En el caso en que las dos variables, fila y columna estén en escala puramente nominal, cualitativa las frecuencias de las celdas, de modo análogo al caso univariado (de sólo una variable), permiten cuantificar los resultados bivariados, sin perder información alguna, para hacer posible el procesamiento matemático necesario para aplicar los variados métodos estadísticos existentes, aplicables a tablas de frecuencias. Entre tales métodos podemos mencionar las pruebas de hipótesis estadísticas: binomial, Ji-Cuadrado, de las rachas de una muestra, de McNemar, de la probabilidad exacta de Fisher, Q de Cochran, de los coeficientes de correlación V de Cramér, Fi, de Contingencia, el Análisis Loglinear y la Regresión logística, etc.

Tablas de frecuencias para variables o atributos nominalesEn este caso la variable presenta datos sin agrupar enintervalos y perfectamente especificados pero sólo tienesentido calcular las frecuencias acumuladas cuando lasvariables se pueden ordernar. No deben usarse en el caso devariables cualitativas nominales

DefinicionesIntervalo i-ésimo: (Li1; Li ]Límite inferior del intervalo i-ésimo: Li1

Límite superior del intervalo i-ésimo: Li

Marca de clase: Punto central o medio de cada intervalo:xi =Li1 + Li

2Amplitud del intervalo: Diferencia entre el extremosuperior y el inferior del intervaloci = Li Li1

DefinicionesFrecuencia absoluta del intervalo i-ésimo: ni

Frecuencia relativa del intervalo i-ésimo: fiFrecuencia absoluta acumulada del límite superior delintervalo i-ésimo: Ni

Frecuencia relativa acumulada del límite superior delintervalo i-ésimo: Fi

Altura del intervalo i-ésimo: hi

Absoluta: hi = ni

ci

Relativa: hi = fici

Recorrido de la variable: R = xmax xmin

Page 68: Est Ad is Tic A

Intervalos

La cantidad de intervalos depende del elemento a estudiar

Cuanto menos intervalos haya mejor

Para saber cuantos intervalos hacemos:

p

N

Si los intervalos tienen que tener la misma amplitud, esta

se calcula:

ci =r

---------ci =ci =

RESTADISTICA.docxLa cantidad de intervalos depende del elemento a estudiarCuanto menos intervalos haya mejorPara saber cuantos intervalos hacemos:pNSi los intervalos tienen que tener la misma amplitud, estase calcula:ci =RpN

p

N

;

Rci =

R

p

N

;

p

Page 69: Est Ad is Tic A

N

;

R

p

N

;

redondeando a la alza

2. Coeficiente de contingencia.Este se aplica para variables nominales. Cuando los valores de dosvariables no pueden ser ordenados, sino que tienen que ser clasificados,para determinar la relación entre esas dos variables empleamos elcoeficiente de contingencia.El coeficiente de contingencia posee una serie de características, estasson:5.No existe relación entre las variables, por tanto diremos que estastendrán una proporción similar.6.Se utiliza para evitar el efecto del tamaño de la muestra.7.En una tabla de dos filas por columna es recomendable realizar lacorrección de Yates.También este tipo de correlación posee una serie de propiedades quetenemos que tener en cuenta:qEl coeficiente de contingencia C está comprendido entre 0 y 1.El coeficiente C presenta el valor cero cuando la relaciónentre las variables es nula, pero nunca alcanza el valor 1. Elmáximo dependerá del numero de filas y columnas.qEl coeficiente C indica la intensidad de relación entre las

Page 70: Est Ad is Tic A

variables que se estan midiendo.qEl valor de C depende del número de filas y columnas de latabla de contingencia construido para su calculo.qEl coeficiente C no es comparable a otros coeficientes decorrelación, valores similares indicaría diferentes grados decorrelación.4

EjemploQueremos determinar si existe relación entre el sexo y la especialidadcursada para los alumnos que estudian Magisterio, a partir de los datoscorrespondientes a 349 alumnos de una escuela de Magisterio.Distribución conjunta de frecuencias para sexo y especialidad.

Ciencias Humanas Lengua Pr eescolarHombr e 70 60 36 12 178Mujer 40 54 39 38 171110 114 75 50 349En primer lugar calcularemos el valor de X . Partiendo del supuesto deque no hay relación entre las dos variables, es preciso calcular lasfrecuencias esperadas en cada celdilla de la tabla. Por ejemplo, laproporción de alumnos que estudian ciencias tiene que ser similar a lasalumnas que estudian ciencias. Hombres 70/178=0,39, y alumnas40/171=0,23.Por esto decimos que cuando las variables sonindependientes se pueden calcular con la siguiente fórmula.Fe = ff ∙ fc

nfe = Frecuencias esperadasff = Frecuencia marginal de la filafc = Frecuencia marginal de la columnaFrecuencias observadas y esperadas para sexo y especialidad

Ciencias Humanas Lengua Pr eescolarHombr es 70(56,1) 60(58,1) 36(38,3) 12(25,5) 178

Page 71: Est Ad is Tic A

Mujer 40(53,9) 54(55,9) 39(36,7) 38(24,8) 171110 114 75 50 3495

También puede comprobarse que la proporción de hombres será ahorala misma en las especialidades de Ciencias, Humanas, Lenguas ypreescolar. En efecto, 56,1/110=58,1/114=38,3/75=25,5/50=0,51.A partir de las frecuencias observadas y esperadas podremos aplicar lafórmula de calculo para X y obtener un valor que puede ser tomado comomedida de independencia entre las dos variables. Si las frecuenciasempíricas resultan ser iguales que las frecuencias teóricas, diremos queno existe relación entre las variables sexo y especialidad. Cuanto más sealejen las frecuencias teóricas de las observadas, mayor será la relaciónentre las dos variables. El valor X se construye apartir de la distancia entrelas frecuencias observadas y las frecuencias esperadas, es decir, indica enqué medida la distribución de frecuencia se aleja de los valores que cabríaesperar en el caso de que no hubiera relación entre las dos variables.El valor de X presenta problemas como medida de correlación, puesto quesu cuantia depende del número de sujetos considerados. A medida quereincrementa n, crece también el valor de X . Si dispusiéramos del doble dealumnos en cada celda de la tabla de contingencia, el valor de X seríatambién el doble. En general, si multiplicamos las frecuencias observadas

Page 72: Est Ad is Tic A

por K, el valor de X se verá incrementado también en un número de vecesigual a K.Precisamente, para evitar el efecto del tamaño de la muestra, utilizamoscomo coeficiente de correlación el coeficiente de contingencia C:3. Coeficiente de correlación biser