Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Tipos de Variables y Medidas de Dispersión, Apuntes de Análisis de Datos y Métodos Estadísticos

Conceptos básicos sobre tipos de variables, cuantitativas y cualitativas, y medidas de dispersión como rango, cuartiles, varianza y desviación típica. Además, se abordan variables aleatorias discretas y continuas, y se explica la importancia de la función de densidad de probabilidad y la curva de densidad.

Qué aprenderás

  • ¿Cómo se calcula la varianza y la desviación típica?
  • ¿Qué es una variable aleatoria discreta y continua?
  • ¿Cómo se utiliza la función de densidad de probabilidad en estadística?
  • ¿Qué es una curva de densidad y cómo se utiliza?
  • ¿Qué son las variables cuantitativas y cualitativas?

Tipo: Apuntes

2020/2021

Subido el 08/01/2021

carla-moya-1
carla-moya-1 🇪🇸

5

(1)

2 documentos

1 / 31

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 1. ¿Q es la estadística?
Conceptos básicos
Poblaciónconjuntocompletodeindividuossobrelosquedeseamosobtenerinformación
Muestrapartedelapoblaciónqueverdaderamenteestudiamos.Siempredebeser
representativadelapoblaciónobjetodeestudio,sinolosresultadospodríanacabarenerror.
Individuocadaintegrantedeunconjuntodedatos
Variablecualquiercaracterísticadeunindividuo.Unavariablepuedetomarvalores
diferentesparaindividuosdiferentes
Parámetrocualquiercaracterísticanuméricadeunapoblación
Estadísticocualquiercaracterísticanuméricadeunamuestra.
Tipos de variable
Cualitativasocategóricasnaturalezanonumérica
Cuantitativasonuméricasexpresadasporunnúmero
Discretassóloadoptanciertosvalores.Laspodemoscontar.
Continuastomancualquiervalordentrodeunintervaloespecífico.
Laspodemosmedir.
Niveles de medición
Nivelnominalsenombran,identificanoclasificanlasobservaciones.
Nivelordinalhayordenaciónporrangouorden.
Niveldeintervaloseofrecenlasdistanciasointervalosentrelosnúmeros,peronose
conoceladistanciadecero.
Nivelderazóncadanúmeroseexpresacomounadistanciaapartirdecero.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Vista previa parcial del texto

¡Descarga Tipos de Variables y Medidas de Dispersión y más Apuntes en PDF de Análisis de Datos y Métodos Estadísticos solo en Docsity!

Tema 1. ¿Qué es la estadística?

Conceptos básicos

Población conjunto completo de individuos sobre los que deseamos obtener información Muestra  parte de la población que verdaderamente estudiamos. Siempre debe ser representativa de la población objeto de estudio, sino los resultados podrían acabar en error. Individuo cada integrante de un conjunto de datos Variable  cualquier característica de un individuo. Una variable puede tomar valores diferentes para individuos diferentes Parámetro  cualquier característica numérica de una población Estadístico  cualquier característica numérica de una muestra.

Tipos de variable

Cualitativas o categóricas  naturaleza no numérica Cuantitativas o numéricas  expresadas por un número Discretas  sólo adoptan ciertos valores. Las podemos contar. Continuas  toman cualquier valor dentro de un intervalo específico. Las podemos medir.

Niveles de medición

Nivel nominal  se nombran, identifican o clasifican las observaciones. Nivel ordinal  hay ordenación por rango u orden. Nivel de intervalo  se ofrecen las distancias o intervalos entre los números, pero no se conoce la distancia de cero. Nivel de razón  cada número se expresa como una distancia a partir de cero.

Tema 2. Descripción gráfica de

las distribuciones.

Representaciones gráficas:

Variables cualitativas o categóricas

- Diagrama de Barras - Diagramas de Pastel o Sectores Variables cuantitativas o numéricas - Histograma - Diagrama de tronco y hojas - Gráficos de series temporales - Diagrama de caja - También el diagrama de barras o de pastel.

Histograma

Concentración hacia la derecha – asimetría hacia la izquierda Concentración hacia la izquierda – asimetría hacia la derecha

- Ignora la distribución - Resulta sensible a observaciones atípicas (outliers)

Cuartiles 

- Primer cuartil  25% de las observaciones - Segundo cuartil  50% de las observaciones - Tercer cuartil  75% de las observaciones - Cuarto cuartil  100% de las observaciones (valor máximo) - Rango intercuartílico  Q3-Q

Varianza y desviación típica 

- Los 5 números resumen constituyen la descripción numérica útil de una

distribución, pero no es la común. g

- La manera más habitual de describir numéricamente una distribución es

mediante la MEDIA y la DESVIACIÓN ESTÁNDAR

Consideraciones sobre la varianza y la desviación típica

- La suma de todas las observaciones respecto de la media muestral es igual a

cero.

- La varianza es el promedio de las desviaciones de cada observación respecto a

la media muestral al cuadrado.

- La desviación típica mide la dispersión de los datos respecto a la media.

¡Solamente debe utilizarse cuando se escoge la media como medida de centro!

- La varianza NO tiene las mismas unidades de medida que las observaciones de

la muestra.

- S=0 cuando no hay dispersión de los datos. En este caso, todas las

observaciones son iguales.

- S≥0 siempre (no puede ser negativa, porque es la raíz cuadrada de un número

elevado al cuadrado).

- S, al igual que la media muestral, está influenciada por la presencia de

observaciones atípicas.

- Si la distribución es asimétrica: descripción numérica a través de los cinco

números resumen. (mínimo, primer cuartil, mediana, tercer cuartil, máximo)

- Si la distribución es razonablemente simétrica: descripción numérica a través

de la media muestral y la desviación típica muestral.

- Grados de libertad. ¿Por qué razón a la hora de calcular S2, dividimos por (n-1)

y no por n?

- Número de restricciones lineales que deben satisfacerse: el sumatorio de las

desviaciones de las observaciones respecto de la media muestral debe ser cero.

Coeficiente de Variación 

- Es la desviación típica (s) dividida por la media muestral (X). - Mide (y permite comparar) la variabilidad escalando por el valor de la media

V = S / X.

- Mayor / menor coeficiente de variación  Mayor/menor heterogeneidad - No tiene unidades. Transformaciones de los datos

Unidades de medida:

- Todas las medidas de centro y de dispersión

descritas vienen influidas por la descripción y

unidades en la que se mida la variable.

- Si cambiamos de unidad de medida los valores de

los estadísticos calculados se verán a su vez

modificados.

- No es posible comparar estadísticos descritos o calculados con unidades de

medida de distinta tipología.

Tema 4. Variables aleatorias y

distribuciones de probabilidad.

Definiciones básicas

- Variable  cualquier característica de la población que se esté estudiando - Experimento aleatorio (E.A.)  proceso que puede concretarse en, al menos, dos resultados posibles, con incertidumbre en cuanto a cuál de ellos tendrá lugar. - Resultados básicos  resultados posibles de un experimento aleatorio (no pueden ocurrir simultáneamente). - Espacio muestral (Ω)  conjunto de todos los resultados básicos. - Suceso  cada uno de los posibles diversos resultados de un experimento aleatorio (simples o combinados). Ejemplo: lanzamiento 1 vez de un dado: Resultados básicos: 1,2,3,4,5,6. Espacio muestral: Ω = [1,2,3,4,5,6] Sucesos: sacar un 1, sacar un número par, sacar más de un 2… - Probabilidad  medida numérica de la verosimilitud de ocurrencia de un suceso (para medir la incertidumbre). A distinguir entre: o Probabilidad poblacional o Probabilidad muestral (frecuencia relativa)

Consideraciones sobre el concepto de probabilidad

La probabilidad asociada a cualquier suceso debe de ser igual a cero o positiva, pero con valores inferiores a la unidad. La suma de las probabilidades asociadas a todos los resultados básicos debe de ser igual a uno.

- Variable aleatoria  es una función que asocia un número a cada uno de los resultados posibles de un experimento aleatorio. Con mayúsculas designaremos las v.a. y con letras minúsculas los valores que puedan coger. Ejemplo 1: Experimento aleatorio: Tiramos una moneda 1 vez V.A. número de caras que podemos obtener: 2 posibles resultados del experimento (0,1)

X: v.a. número de caras puede tomar 2 valores (x=x1=0 o X=x2=1) ◇ x= {0,1}

Tipos de variables aleatorias

- Discretas  solo pueden coger una cantidad numerable de valores - Continuas  pueden coger todos los valores de un intervalo Variables aleatorias discretas

Probabilidad sobre una V.A. discreta  para cada posible valor de una v.a.

discreta podemos asignar una probabilidad a que la v.a. tome ese valor ◇ FUNCIÓN DE

PROBABILIDAD

Ejemplo: Experimento aleatorio: Tirar una moneda 1 vez V.A. número de caras que se pueden obtener: 2 posibles resultados del experimento (0,1) x: v.a. número de caras puede tomar 2 valores (x1=0 o x2=1)  x = {0,1} P(X=x1) = P(x=0) = ½ P(X=x2) = P(X=1) = ½ Para cada posible valor de una v.a. discreta podemos asignar una probabilidad a que la v.a. tome ese valor  FUNCIÓN DE PROBABILIDAD Función de distribución (Probabilidad acumulada)

F(X) = P(x ≤ a) = Σaa P ( xi )

 ¿Cuál es la probabilidad (acumulada) de que la variable aleatoria X tome valores hasta

“a”? SI acumulamos todos los posibles valores de la v.a. ΣaP ( xi )= 1

Las variables aleatorias discretas más utilizadas en estadística:

- Distribución de Bernouilli. Experimento aleatorio con sólo dos resultados posibles. - Distribución Binomial. Se realizan n repeticiones independientes del experimento anterior. - Distribución de Poisson. Número de ocurrencias de cierto suceso cada cierto tiempo. Variables aleatorias continuas

Probabilidad sobre un V.A. continua 

Cuando una v.a. es continua  puede tomar infinitos valores y  para cada posible valore podemos asignar una probabilidad: Función de densidad de probabilidad : recoge la probabilidad de que una v.a. continua X tome un valor concreto x. Atendiendo a que la v.a. continua puede tomar infinitos valores: P(X=xi) = 0 para cualquier valor de xi. La probabilidad se describe: P(X=xi) = f(xi)

- Si la v.a. es continua y tenemos un gran número de observaciones, la función de densidad de probabilidad genera una curva lisa (CURVA DE DENSIDAD) - La curva de densidad es una curva que:

- La media y la mediana coinciden en las curvas de densidad simétricas. - La media de una distribución asimétrica se encuentra desplazada hacia la cola más larga (más desplazada que la mediana). - Los cuartiles dividen el área que se encuentra por debajo de la curva de densidad en 4 partes iguales. - La curva de densidad es una descripción idealizada de la distribución de datos. - Por ello, cabe distinguir entre la media (μ) y la desviación típica (σ) de una curva de ) de una curva de densidad y la media (X) y la desviación típica (s) calculadas a partir de observaciones reales (muestrales). - Así pues, hay que distinguir entre la información de carácter poblacional información y la muestral - Dificultad de construir una curva de densidad que se adecúe a perfectamente a un problema concreto.  En la práctica se usa alguna de las curvas de densidad existentes (la que mejor se adapte/describa a la variable aleatoria estudiada.

Tema 5. Distribuciones

normales

La distribución normal

Diremos que una variable aleatoria continua tiene una distribución normal cuando su curva de densidad tenga las siguientes PARTICULARIDADES:

- Puede tomar cualquier valor en un intervalo su dominio (-∞, +∞) - Tiene una asístonta horizontal en el eje. - Tiene forma de campana - Es simétrica - El área comprendida entre la curva y el eje es igual a 1. La curva de densidad de una distribución normal concreta se describe ofreciendo su media (μ) y su desviación típica (σ) de una curva de ). - La media se sitúa en el centro de la dispersión – centro de la curva simétrica y coincide con la mediana. - La desviación típica (σ) de una curva de ) controla el grado de la dispersión de la curva normal (a mayores valores de σ) de una curva de , mayor dispersión de datos). Si cambia la media (sin que cambie la desviación típica), se produce un desplazamiento de la curva a lo largo del eje de abscisas. Si cambia la desviación típica sin que cambie la media, se obtienen curvas de densidad con el mismo centro y diferentes niveles de concentración en sus colas.

Regla del 68-95-99,

Todas las distribuciones normales verifican las propiedades siguientes:

  1. El 68% de las observaciones se encuentran en el intervalo: [μ-σ) de una curva de , μ+σ) de una curva de ]
  2. El 95% de las observaciones se encuentran en el intervalo: [μ-2σ) de una curva de , μ+2σ) de una curva de ]
  3. El 99,7% de las observaciones se encuentran en el intervalo: [μ-3σ) de una curva de , μ+3σ) de una curva de ]

Formalización de la distribución normal

X N (μ, σ) de una curva de )

La distribución normal estandarizada

La normal estándar

Todas las distribuciones normales son iguales si:

  1. Cogemos la desviación típica (σ) de una curva de ) como unidad de medida
  2. A partir de un centro que es la media (μ) Pasar a dichas unidades se denomina estandarizar. - Para estandarizar un valor hay que restarle la media (μ) y dividir el resultado por la desviación típica (σ) de una curva de ): es decir estamos modificando el origen y la escala de la variable inicial. - Denominaremos z al valor estandarizado. - Estandarizar implica pasar a una escala común. - La estandarización transforma las distribuciones normales en una misma/única distribución que sigue siendo normal. - La estandarización de una variable X que sigue una distribución normal genera una nueva variable que sigue la distribución NORMAL ESTÁNDAR. - Si X N (μ, σ) de una curva de ) y Z = (X - μ) / σ) de una curva de entonces X N (0,2) Teniendo en cuenta que:
  3. La distribución normal es continua y simétrica.
  4. Un área por debajo de una curva de densidad es una proporción de observaciones de la distribución.
  5. Todas las distribuciones normales se transforman en la misma distribución normal al estandarizarlas.  Se pueden calcular las probabilidades -las áreas- utilizando una sola tabla de probabilidades: la N (0,1) PARA LA VARIABLE ESTANDARIZADA Z.

Propiedades de la v.a. estandarizada Z

- P (Z=a) = - P(Z a) =P(Z<a) - P(a Z b) =P(Z b)-P(Z a) - P(Z a) =P(Z -a) - P(/Z/ a) =P(-a Z a)

Cálculo de probabilidades

Cálculos a partir de distribuciones normales

Las probabilidades asociadas a una distribución normal pueden calcularse, tras la correspondiente estandarización, mediante el uso de la tabla de la N (0,1).

Recapitulación para el cálculo de probabilidades con la N (0,1)

Cuando se desean calcular probabilidades asociadas a una variable X que sigue una distribución N (μ, σ) de una curva de ), la metodología a seguir es:

  1. Transformar la variable N (μ, σ) de una curva de ) en una N (0,1), pasando del cálculo de probabilidades original al asociado a la normal estándar.
  2. Calcular la probabilidad asociada en la tabla de la N (0,1) Inversa del cálculo de probabilidades La distribución normal permite hallar valores de la distribución a partir de una proporción conocida (cálculo inverso al de las probabilidades). Ultimas consideraciones La importancia de las distribuciones normales en el campo de la estadística:
  3. Las distribuciones normales son buenas descripciones: a. De algunas distribuciones de datos reales b. De muchos tipos de fenómenos aleatorios
  4. Muchos procedimientos de inferencia estadística basados en distribuciones aproximadamente simétricas.

Valoración de la normalidad

La decisión de describir una distribución de datos mediante una curva normal condiciona el análisis posterior que se haga de esos datos. En la descripción de una distribución o al hacer inferencia estadística bastará con que la distribución sea aproximadamente normal.

Necesidad de tener una medida numérica complementaria para medir la fuerza y la dirección de la relación entre dos variables cuantitativas. Correlación El coeficiente de correlación es una medida numérica que pone de relieve la fuerza – según el valor (rango entre -1 y 1) y la dirección – según el signo.

- Un valor positivo de r indica una asociación positiva entre las dos variables (evolucionan en el mismo sentido). - Un valor negativo de r pone de evidencia una relación negativa entre las dos variables

Cálculo del índice de correlación lineal (coeficiente de Bravais-

Pearson)

Promedio del producto de valores estandarizados de X y de Y elimina la potencial distorsión de la escala de medida de las variables Se denota con la letra r

Interpretación

Los valores de r (rango) oscilan entre -1 y 1. Si el valor de r tiende a cero, la relación lineal entre las dos variables es muy débil. Valores de r cercanos a -1 o a 1, ponen de manifiesto una intensa relación lineal entre 2 variables (X e Y) positiva o negativa La recta de regresión

Consideración previa

  • Si el diagrama de dispersión y el coeficiente de correlación muestran una relación

lineal, y se puede considerar una relación de causalidad entre las 2 variables

estudiadas (hay una variable explicativa y una variable respuesta)

se puede aproximar dicha relación lineal mediante una línea recta que se ajuste a la

nube de puntos.

  • La recta de regresión mínimo-cuadrática: - es un modelo que aproxima, mediante

una línea recta, y para una nube de puntos, una relación lineal entre una variable

explicativa-endógena Y con una variable respuesta-exógena X.

Y = a + b X a: ordenada en el origen b: pendiente

  • describe como cambia una variable respuesta- endógena Y a medida que cambia una

variable explicativa-exógena X: Cuando existe una relación lineal, parte de la variación

de Y se explica por el hecho de que cuando X cambia, arrastra consigo a Y

  • Sabiendo que ninguna recta podrá pasar exactamente por todos los puntos del

diagrama de dispersión, deseamos encontrar la ecuación de la recta que pasa lo más

cerca posible de todos los puntos, en dirección vertical.

El mejor ajuste será aquel que comporte “cometer” un error de ajuste menor

Errores asociados al ajuste:

Para un valor concreto observado para la variable X (p.ej. Xi) la recta de regresión

predice o ajusta un valor de Y: Ŷi

Ŷi =a+bXi

El valor predicho por la recta (Ŷi) no coincide con el valor observado Yi

Se está cometiendo un error de ajuste error = (Yi – Ŷi)

  • Los errores cometidos al ajustar la recta de regresión coindicen con las distancias

verticales para la variable Y

error = valor observado – valor predicho / ajustado mediante la recta

  • El mejor ajuste será el que comporte que el error global cometido con todas las

observaciones y valores ajustados (distancias verticales) sea lo menor posible.

  • A la hora de determinar que el error total sea lo más pequeño posible, el
  • método más común es el de MÍNIMOS CUADRADOS ORDINARIOS (MCO).
  • La recta de regresión de MCO de Y con relación a X es la recta que hace que la

suma de los cuadrados de las distancias verticales de todos los puntos observados

a la recta estimada sea la más pequeña posible.

  • (error)² = (Y – Ŷ) ²

 La utilización de una recta de regresión para predecir valores de Y más allá (fuera)

del intervalo o rango de valores que observemos para la variable X se denomina

extrapolación.

No es una práctica demasiado fiable

Análisis de los errores

 Además de valorar el grado de ajuste de la recta de regresión mediante R2, resulta

conveniente analizar el diagrama de residuos (o errores) mediante un diagrama de

dispersión

 Una forma curvada de la distribución de los errores indica que la relación entre X e

Y NO es lineal.

 El crecimiento o decrecimiento de la dispersión de los residuos a medida que

aumentan los valores de X indica que la precisión del ajuste NO es constante.

 Las observaciones individuales con errores elevados ponen en evidencia las

observaciones atípicas

Observaciones atípicas

 Una observación atípica es una observación que no encaja en el aspecto general de

la nube de puntos del diagrama de dispersión.

Tema 7. Análisis de dos

variables categóricas

Tablas de contingencia

Ejemplo 1 (variable categórica) Edad de los hijos de parejas registradas en un municipio  variables cuantitativa que se agrupa en categórica artificial Variable: edad (cuantitativa) / tramos de edad (categórica) Observaciones: edad de 97 hijos Tabla de contingencia: Ejemplo 2 (variables categóricas) Integrantes de una clase según el centro educativo del que proceden y sexo. Variables: centro educativo (categórica) / sexo (categórica) Observaciones: 96 estudiantes Tabla de contingencia

A efectos de interpretación: cálculo de distribuciones marginales

  1. Calcular la fila y la columna de datos agregados (totales) de la tabla de contingencia.
  2. Ubicar los resultados en los márgenes derecho e inferior de la tabla.
  3. Analizar la distribución de cada variable de manera independiente
  4. Deben identificarse/resolver los errores de redondeo Ejemplo 3 H M total Distrib.marg (fila) concertado 13 32 45 46.9% privado 7 15 22 22.90% publico 9 20 29 30.2% total 29 67 96 Distrib. Marg ( Colum) 30,20% 69,80% 100.% sexo tipo de centro

A efectos de interpretación: cálculo de distribuciones

condicionales

  1. Determinar la posible relación de dependencia entre dos variables consideradas
  2. Calcular el porcentaje de observaciones localizadas en cada celda, por filas y/o columnas
  3. Completar análisis con un diagrama de barras. Representar la distribución condicional: distribución de una variable categórica respecto una categoría de otra variable

Ejemplo

Cálculo distribuciones marginales

Área rural Área urbana TOTAL Sin hijos 20 50 70(10,60%) 1 hijo 70 150 220(33,33%) 2 hijos 140 130 270(40,91%) 3 o más hijos 80 20 100(15,16%) TOTAL 310(43,97%) 350(53,03%) 660

Cálculo distribuciones condiciones por fila

Área rural Área urbana TOTAL Sin hijos 20(28,57%) 50(71,43%) 70 1 hijo 70(31,82%) 150(68,19%) 220 2 hijos 140(51,85%) 130(48,15%) 270 3 o más hijos 80(80,00%) 20(20,00%) 100 TOTAL 310 350 660

Cálculo distribuciones condicionales por columnas.