




























































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
notas de clase de probabilidad
Tipo: Apuntes
1 / 253
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
La estad´ıstica descriptiva tiene como funci´on identificar por medio de diversas medidas o herramientas gr´aficas comportamientos en los datos de forma ordenada y reducida con el fin de que podamos darnos una idea inicial de c´omo abordar un problema, construir un modelo o proceder con un an´alisis estad´ıstico m´as robusto. Los diversos estudios descripti- vos se realizan datos provenientes de una poblaci´on con el fin de establecer las principales caracter´ısticas de ella que puedan ser inter´es para el investigador. Con esto en mente, ya que el sentido pr´actico de la estad´ıstica es recoger, organizar, analizar e interpretar datos para la toma de decisiones, se maneja un conjunto de herramientas descriptivas gr´aficas y anal´ıticas construidas espec´ıficamente para atender las necesidades de cada tipo de varia- ble que se pueda encontrar en un estudio. En esta secci´on se estudiar´a la clasificaci´on de variables seg´un su naturaleza y descriptivos anal´ıticos como medidas de tendencia central, dispersi´on, posici´on y forma al igual que herramientas gr´aficas como los diagramas Boxplots, histogramas, diagramas de barras, diagramas de tortas, entre otros. Con el fin de dar una aproximaci´on m´as did´actica al tema se abordar´a la formulaci´on de un trabajo de refuerzo al final de la unidad.
El principal objeto de estudio de la estad´ıstica son caracter´ısticas susceptibles de medici´on de objetos o individuos de inter´es para un investigador, este conjunto de elementos es co- nocido como poblaci´on. Por ejemplo, el conjunto de alumnos de un determinado colegio o los autom´oviles fabricados en una determinada f´abrica durante un a˜no conforman diferentes poblaciones que pueden ser objeto de estudio.
Cuando los atributos que las definen son cuantificables o medibles num´ericamente, ´estas se pueden clasificar como Discretas o Continuas.
Discretas: Son variables con una escala de medici´on que consta de divisiones enteras entre valores contiguos.
Ejemplo 1.
Continuas: Cuando pueden asumir un valor con cualquier nivel de precisi´on entre dos n´umeros consecutivos.
Ejemplo 1.
La anterior clasificaci´on de las variables se resume en la Figura 1.1, donde se presentan tambi´en algunos ejemplos ilustrativos.
Cuando se manejan conjuntos de datos, a menudo podemos obtener una idea general agru- pando los datos en un determinado n´umero de clases, intervalos o categor´ıas. La distribu- ci´on de frecuencias consiste en describir num´erica y gr´aficamente la forma y composici´on del agrupamiento del conjunto de datos. La distribuci´on de frecuencias puede realizarse pa- ra una (distribuci´on univariada), dos (distribuci´on bivariada) o m´as variables (distribuci´on multivariada).
Figura 1.1: Clasificaci´on de las variables
Para generar la distribuci´on de frecuencias en una variable discreta se deben seguir los pasos que se describen a continuaci´on, los cuales permiten organizar la distribuci´on de los datos en una tabla de cinco columnas:
N 1 = n 1 (1.1) N 2 = N 1 + n 2 = n 1 + n 2 (1.2) N 3 = N 2 + n 3 = n 1 + n 2 + n 3 (1.3) ..
. (1.4) Ni = Ni− 1 + ni = n 1 + n 2 + n 3 + · · · + ni− 1 + ni (1.5)
Ejemplo 1.
En una entrevista se le pregunt´o a 20 personas sobre su estado civil. Las respuestas son mostradas en la siguiente tabla.
Individuo E. Civil Individuo E. Civil 1 casado 11 divorciado 2 casado 12 divorciado 3 casado 13 soltero 4 soltero 14 soltero 5 soltero 15 casado 6 casado 16 casado 7 divorciado 17 casado 8 soltero 18 casado 9 casado 19 soltero 10 soltero 20 casado
Ahora, aprovechando la existencia de respuestas repetidas se puede construir la tabla con la distribuci´on de frecuencias. Seg´un los datos, podemos observar que la variable Estado Civil contiene tres categor´ıas las cuales corresponden a casado, divorciado y soltero con 10, 3 y 7 individuos, respectivamente. Siguiendo cada uno de los pasos dados anteriormente, espec´ıficamente en la tabla 1.1 se presenta la distribuci´on de frecuencias.
Es importante comprender que la suma de las frecuencias absolutas es igual a la cantidad de datos, es decir, igual al tama˜no de la muestra que se estudia (en este caso n=20). Por otro lado, la suma de las Frecuencias Relativas es la unidad, cuando se expresa en notaci´on decimal (y el 100 % cuando est´a expresada en porcentajes).
Categor´ıas Frec. Absoluta Frec. Absoluta Frec. Relativa Frec. Relativa n 1 Acumulada Ni hi = n ni Acumulada Hi Casado 10 10 0.50 0. Divorciado 3 13 0.15 0. Soltero 7 20 0.35 1 Totales 20 - 1 -
Tabla 1.1: Tabla de Frecuencias para la variable Estado Civil
Se puede observar que el 50 % de los entrevistados son casados y hay apenas un 15 % de divorciados.
Las distribuciones de frecuencias se establecen con el prop´osito de condensar grandes grupos de datos y mostrarlo de una manera f´acil de asimilar, pero a veces es conveniente presentarlo gr´aficamente, de forma que permita una f´acil e inmediata captaci´on visual. Para este tipo de variable, se pueden utilizar dos tipos de gr´aficos, a saber gr´afico de barras y gr´afico de sectores o circular.
Para construir un gr´afico de barras, las diferentes categor´ıas de la variable se sit´uan en el eje X, eje de las abscisas y se trazan barras perpendiculares, todas de igual ancho, cuya altura sea igual al valor de la Frecuencia Absoluta. La disposici´on de los ejes puede variar de acuerdo a la disposici´on que se elija para las barras (vertical u horizontal).
Ejemplo 1.
En el gr´afico de la siguiente figura se ilustra la variable Estado civil para cada una de las tres categor´ıas seg´un los resultados de la Tabla 1.1, columna 2.
Como su nombre lo indica, este gr´afico circular o de sectores se representa en un c´ırculo. La superficie del c´ırculo se reparte en proporci´on a las frecuencias relativas que toma la variable y en muchos casos es presentado como porcentaje.
El resumen de lo anterior se ilustra en la figura 1.
Figura 1.3: Distribuci´on de frecuencias para una variable continua
Ejemplo 1.
El gerente de una determinada empresa est´a interesado en conocer la edad de los trabajadores, para ello pide un levantamiento de las edades y un informe al respecto. El encargado organiza la informaci´on en una tabla incluyendo las edades de los 40 empleados, en orden creciente, como establecido en la siguiente tabla:
Ind Edad Ind Edad Ind Edad Ind Edad 1 20.0 11 32.0 21 38.8 31 47. 2 21.4 12 32.3 22 39.0 32 48. 3 22.3 13 34.6 23 39.3 33 49. 4 23.2 14 35.0 24 39.5 34 49. 5 25.4 15 36.4 25 39.8 35 51. 6 25.6 16 36.8 26 42.0 36 52. 7 27.4 17 37.2 27 44.5 37 54. 8 28.0 18 37.4 28 44.8 38 56. 9 29.0 19 38.1 29 45.0 39 58. 10 29.5 20 38.5 30 46.5 40 60.
Es f´acil comprender que en la forma en que aparecen los datos se dificulta el procesamiento y m´as a´un si aumenta el volumen de ellos. Para resolver este problema, se siguen los pasos ilustrados en el apartado anterior.
k = 1 + 3,322 ln(40) = 1 + 12, 2545 ≈ 13.
Esta ecuaci´on nos indica que se deber´ıa tomar aproximadamente 13 intervalos, ahora tambi´en tomando la segunda sugerencia de la teor´ıa:
k =
Por esta sugerencia, deber´ıamos tomar ´unicamente 6 intervalos, es que es un poco mas pr´oximo a lo que el investigador desea obtener. De aqu´ı nos preguntamos, ¿Cu´antos intervalos son los adecuados para representar mejor los datos? No existe una respuesta, todo depende del estudio que se est´e realizando en el momento, las dos ecuaciones anteriores, son simplemente sugerencias.
R = xmax − xmin = 60 − 20 = 40.
Como se defini´o realizar el estudio por d´ecadas entonces se tendr´a 4 intervalos todos con igual Longitud, que es 10 a˜nos, espec´ıficamente
L =
k
Ejemplo 1.
En la figura se presenta el histograma para la variable Edad utilizando como altura la frecuencia absoluta de cada intervalo. (Construir el histograma con las otras medidas).
Es f´acil visualizar la forma de la distribuci´on de la variable Edad en donde se percibe que la mayor frecuencia de las edades de los empleados est´a entre 30 y 40 a˜nos.
El histograma constituye una herramienta cient´ıfica utilizada desde hace siglos. Galileo en 1632 hizo uso para describir la distribuci´on de los errores en observaciones astron´omicas y John Graunt en 1662 lo manej´o en su estudio de la mortalidad en los a˜nos de la plaga. Sin embargo fue Egon S. Pearson quien acu˜n´o el t´ermino histograma en un trabajo en 1894.
El pol´ıgono de frecuencias es una representaci´on gr´afica de la distribuci´on de frecuencias que resulta esencialmente equivalente al histograma. Se obtiene uniendo, mediante segmentos, los centros de las bases superiores de sus rect´angulos, se cierra en ambos extremos en las marcas adyacentes con frecuencia cero.
Ejemplo 1.
En la figura se ilustra el histograma junto con el pol´ıgono de frecuencias para la variable Edad.
Se observa un r´apido crecimiento al comienzo y despu´es a medida que avanza la edad se presenta un decrecimiento.
Analizar los datos mediante pol´ıgonos de frecuencias, permite visualizar tendencias o el comportamiento de la frecuencia absoluta (o relativa).
Ojiva es el nombre que recibe el pol´ıgono de Frecuencia Acumulada. En las abscisas se pueden colocar los n´umeros de los intervalos o en otros casos se puede colocar el extremo su- perior de cada intervalo. Por otro lado, en las ordenadas se coloca la frecuencia acumulada (absoluta o relativa) del intervalo de clase. En la ojiva se permite ver cu´antas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los n´umeros asignados a cada intervalo.
En la Figura 1.4 se ilustra la Ojiva correspondiente a la variable Edad.
En este gr´afico el punto final equivale al 100 % de los datos. En el gr´afico se observa que hasta 40 a˜nos se lleva una frecuencia acumulada de 0.625 como fue descrito en la Tabla 1.2.
n = Tama˜no de la muestra
N = Tama˜no de la poblaci´on
xi = Valores de la muestra
Ejemplo 1.
Un ejemplo sencillo del c´alculo del valor de la media es dado en la figura siguiente
La mediana es la medida que representa el centro real de los datos, la mediana divide el total de las mediciones en dos partes iguales alrededor de ella. En una lista ordenada, la mediana es el n´umero que ocupa el punto medio. Para el c´alculo de la mediana se deben tener en cuenta dos cosas: el tama˜no de la muestra y ordenar los valores de forma ascendente.
Si el tama˜no de la muestra es impar, la mediana ser´a el n´umero que ocupa la posici´on central en la lista ordenada de datos.
Si el tama˜no de muestra es par, la mediana ser´a el punto medio entre los dos valores centrales en la lista ordenada de datos.
Notas Importantes 1.
Una caracter´ıstica de la mediana es que es una medida que no se deja afectar por valores extremos, como se ilustra en el ejemplo siguiente.
Ejemplo 1.
A una muestra de 8 estudiantes de primer semestre de matem´aticas se les pregunt´o la edad, las respuestas fueron: 17, 17, 18, 19, 20, 18, 21, 17. Calcular la edad mediana de los estudiantes.
Soluci´on: Las edades de menor a mayor : 17 17 17 18 19 19 20 21 El tama˜no de muestra es par (n = 8), por tanto, la mediana se ubica entre la cuarta posici´on y la quinta posici´on que corresponde a los valores 18 y 19; el punto medio entre estas mediciones es 18,5 lo que significa que la edad mediana de la muestra de 8 estudiantes es 18,5 a˜nos.
Interpretaci´on: A partir de una muestra de 8 estudiantes, se estima que la mitad de ellos tienen una edad menor o igual a 18,5 a˜nos o la mitad de ellos tiene una edad mayor o igual a 18,5 a˜nos.
Ejemplo 1.
A una muestra de 7 estudiantes de primer semestre de matem´aticas se les pregunt´o la edad, las respuestas fueron: 17, 17, 18, 19, 20, 18, 21. Calcular la edad mediana de los estudiantes.
Soluci´on: En primer lugar se ordenan las edades de menor a mayor: 17 17 18 18 19 20 21
Dado que el tama˜no de la muestra es impar (n = 7), la mediana se ubica en la cuarta posici´on y corresponde al valor 18. Como se puede ver, alrededor de este valor quedaron distribuidas 3 mediciones hacia atr´as y 3 hacia adelante. La edad mediana es 18 a˜nos.
interpretaci´on: A partir de una muestra de 7 estudiantes, se estima que la mitad de ellos tienen una edad menor o igual a 18 a˜nos o la mitad de ellos tiene una edad mayor o igual a 18 a˜nos. Si se desea, la mediana puede interpretarse en t´erminos porcentuales y se dir´a que el 50 % de los estudiantes tienen una edad menor o igual a 18 a˜nos o 50 % tiene una edad mayor o iguala 18 a˜nos.
Es una medida de tendencia central que indica el valor que ocurre con mayor frecuencia, no se ve afectado por valores extremos, es utilizada para datos num´ericos o categ´oricos y puede ocurrir que una serie de datos no tenga moda o que tenga varias modas.