Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Estatística Aplicada à Educação– Antonio Roque – Aula 5, Notas de aula de Estatística

As medidas de tendência central não são suficientes para se caracterizar um ... A amplitude total dos dados de uma amostra é a diferença entre o maior e o ...

Tipologia: Notas de aula

2022

Compartilhado em 07/11/2022

Aquarela
Aquarela 🇧🇷

4.5

(791)

224 documentos

1 / 12

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Estatística Aplicada à Educação– Antonio Roque – Aula 5
1
Medidas de Dispersão
As medidas de tendência central não são suficientes para se caracterizar um conjunto de
dados. O motivo é que existe variação na natureza, isto é, dados que venham de uma mesma
população não serão sempre iguais. Além disso, mesmo medidas feitas de um mesmo objeto
ou sujeito (pense nas medidas da altura de uma pessoa, por exemplo) estarão sujeitas à
precisão do instrumento de medida, isto é, poderão variar dentro dos limites de precisão do
instrumento.
Para quantificar a variabilidade de um conjunto de dados ou medidas é que se usam medidas
de dispersão. Vamos estudar algumas delas nesta aula.
A Amplitude Total dos Dados
A amplitude total dos dados de uma amostra é a diferença entre o maior e o menor número
da amostra.
Por exemplo, para o conjunto de valores {2, 3, 4, 6, 6, 7, 7, 9, 9, 10, 12} a amplitude total é
12 2 = 10.
para o histograma abaixo, a amplitude total dos dados é 645 - 245 = 400. Note que esta
amplitude foi calculada como a diferença entre os pontos médios da última e da primeira
classe.
pf3
pf4
pf5
pf8
pf9
pfa

Pré-visualização parcial do texto

Baixe Estatística Aplicada à Educação– Antonio Roque – Aula 5 e outras Notas de aula em PDF para Estatística, somente na Docsity!

Medidas de Dispersão As medidas de tendência central não são suficientes para se caracterizar um conjunto de dados. O motivo é que existe variação na natureza, isto é, dados que venham de uma mesma população não serão sempre iguais. Além disso, mesmo medidas feitas de um mesmo objeto ou sujeito (pense nas medidas da altura de uma pessoa, por exemplo) estarão sujeitas à precisão do instrumento de medida, isto é, poderão variar dentro dos limites de precisão do instrumento. Para quantificar a variabilidade de um conjunto de dados ou medidas é que se usam medidas de dispersão. Vamos estudar algumas delas nesta aula. A Amplitude Total dos Dados A amplitude total dos dados de uma amostra é a diferença entre o maior e o menor número da amostra. Por exemplo, para o conjunto de valores {2, 3, 4, 6, 6, 7, 7, 9, 9, 10, 12} a amplitude total é 12 – 2 = 10. Já para o histograma abaixo, a amplitude total dos dados é 645 - 245 = 400. Note que esta amplitude foi calculada como a diferença entre os pontos médios da última e da primeira classe.

A amplitude total dos dados dá uma visão grosseira da variação, ou dispersão, dos dados. No entanto, em alguns casos é justamente esta visão grosseira sobre dispersão que se quer. Por exemplo, uma pessoa de férias no exterior e que pretende alugar um carro pode estar interessada em saber quais os valores máximo e mínimo que uma multa de trânsito pode ter no país para onde ela vai. Outro exemplo: o(a) dono(a) de uma loja pode querer saber qual o produto mais caro e qual o mais barato que ele(a) tem à venda. O Desvio Médio, o Desvio Padrão e a Variância O desvio médio de um conjunto de dados indica quão distantes “em média” estão os dados individuais em relação à média aritmética do grupo. Consideremos a seguinte tabela. Número de horas vendo televisão num sábado de um grupo de 6 crianças de 12 anos N o da criança

N

o de horas ( xi )

( xi − x ) xi − x ( )

2 xix 1 6 3 3 9 2 2 - 1 1 1 3 4 1 1 1 4 1 - 2 2 4 5 3 0 0 0 6 2 - 1 1 1

∑ x^ i =^18 ∑ (^ xi − x )^ =^0 ∑ xi − x =^8 (^ )^16

2

∑ xi − x^ =

3 6 18 6 6 =^1 = =

i = x i x horas. A partir dos dados da segunda coluna calcula-se a média. A diferença entre um valor da amostra e a média dos valores da amostra é chamada de desvio. O desvio do i - ésimo

elemento é definido por xi −^ x. A soma dos desvios dos elementos de uma amostra é sempre

nula:

∑ (^ ) ∑ ∑ ∑ ∑ ∑ ∑ ∑

= = = = = = = =

N i N i N i N i N i N i i i i i i N i N i

i i x x x

N

x x x x x Nx x N

1 1 1 1 1 1 1 1

∑ (^ )^ ∑ (^ ) ∑ ∑ ∑ = = = = =

N i N i N i N i N i

xi x xi xix x xi x x i x

1 1 1 1 1 (^2 )

∑ ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = = =

N i N i i N i i i N i N i N i i i N i i i N x N x x N x x N N x x 1 2 1 2 2 1 2 1 1 2 1 1 2 2 1 1 2 2 1 1 2 2 1 −

∑ ∑ ∑ ∑ = = = = N

N

x x s N x x N i N i i N^ i i N i i i. Observe que esta fórmula para o cálculo do desvio padrão requer apenas o conhecimento dos valores dos dados, xi , e dos seus quadrados, xi 2

. Sendo assim, os únicos elementos que precisam ser listados na tabela de freqüência são os valores dos dados e os valores dos seus quadrados: N o da criança

N

o de horas ( xi ) xi 2 (hs 2 ) 1 6 36 2 2 4 3 4 16 4 1 1 5 3 9 6 2 4 ∑ xi^ =^18 ∑ =^70 2 x i A partir desta tabela, o cálculo da variância e do desvio padrão é direto: ( )

3 , 2 3 , 2 1 , 79 horas.

2 1 2 2 1 2

∑ ∑ = =

s

N

N

x

x

s

N i N i i i

O desvio padrão é uma medida de dispersão. Quando temos dois conjuntos de dados e o primeiro tem uma variação em torno da média menor do que a do segundo, o desvio padrão do primeiro conjunto será menor que o do segundo conjunto. A maneira como o desvio padrão mede dispersão é mais ou menos a mesma do desvio médio, isto é, medindo o afastamento médio dos dados em relação à média do conjunto. A diferença é que ao tomar o quadrado dos desvios, o desvio padrão faz uma espécie de média ponderada desses desvios, pois os desvios maiores entram na soma com pesos maiores que os desvios menores. O desvio padrão, conforme foi definido, é o chamado desvio padrão amostral. Ele é obtido tomando-se a raiz quadrada da soma dos quadrados dos desvios dividida por ( N − 1), o número de elementos na amostra menos um. Existe outra definição de desvio padrão, válida para quando estamos trabalhando com uma população, ou seja, com o conjunto total de valores sendo estudado. Neste caso, o desvio padrão populacional é definido como a raiz quadrada da soma dos quadrados dos desvios dividida por N , o número total de dados na população, ( )

N

x x

N i i 2 1 ∑ =

ou

N

N

x

x

N i N i ii ∑ = =

1 2 2 1 σ (^).

Exemplo : Para um grupo de indivíduos, a temperatura corporal média é igual a 36,8°C com desvio padrão de 0,27°C e a pulsação média é igual a 78 batidas/min com desvio padrão de 9 batidas/min. Portanto, os coeficientes de variação para a temperatura e a pulsação dos indivíduos são: 100 11 , 5 % 78 9 100 0 , 7 %; CV 36 , 8 0 , 27 CVtemp. = ⋅ = pulso= ⋅ = Vemos então que a variabilidade relativa da pulsação é bem maior que a variabilidade relativa da temperatura. O coeficiente de dispersão é útil quando se quer analisar como a dispersão de um conjunto de dados varia no tempo, dado que a média dos dados também varia. Exemplo : Suponhamos que uma pesquisa tenha sido feita comparando-se o aumento no preço de um cafezinho em seis diferentes bares da cidade entre 1994 e 2000 e os resultados sejam os dados abaixo (valores em reais). Bar A B C D E F x s CV 1994 0,30 0,40 0,40 0,50 0,60 0,70 0,48 0,15 30,45% 2000 0,60 0,80 0,80 1,00 1,20 1,40 0,97 0,29 30,45% Note que todos os valores dobraram de 1994 para 2000. O desvio padrão para a amostra também dobrou, indicando que a dispersão dos valores aumentou. Porém, o preço médio do cafezinho também dobrou, de maneira que o coeficiente de variação permaneceu constante. Podemos dizer que, de maneira absoluta, a dispersão dos preços do cafezinho dobrou entre 1994 e 2000; porém, de maneira relativa, ela permaneceu constante.

O Escore Padrão Uma medida de dispersão relativa usada para caracterizar a variação de um dado em relação à media é o chamado escore padrão z , ou simplesmente escore z. Ele dá o desvio de um dado xi em relação à média x^ medido em unidades de desvio padrão. Seja um conjunto de dados com média (^) x e desvio padrão s. O escore zi do dado i é definido por . s x x z i i − = Exemplo : Suponha que dois departamentos diferentes de uma empresa – por exemplo, de marketing e de recursos humanos – façam avaliações dos seus funcionários. Sejam as notas médias e os desvios padrões das avaliações dadas abaixo: Marketing Recursos Humanos xM = 6 , 5 xRH = 5 , 5 sM = 1 , 4 sRH = 0 , 8 Suponha que um funcionário do Departamento de Marketing tenha recebido nota 8 e que um funcionário do Departamento de Recursos Humanos tenha recebido nota 7. Em termos absolutos, o funcionário do Departamento de Marketing teve nota mais alta, mas em termos relativos (ou seja, em comparação com os funcionários do seu próprio departamento) o funcionário do Departamento de Recursos Humanos teve um desempenho melhor, conforme atestado pelos escores z abaixo: Funcionário do Departamento de Marketing Funcionário do Departamento de RH 1 , 07 1 , 4 8 , 0 6 , 5 = − z (^) FM = 1 , 875 0 , 8 7 , 0 5 , 5 = − zFRH =

Usando a fórmula para o desvio padrão para dados agrupados, temos: ( )

2 ` 1 2 2 1

∑ ∑ = =

N

N

f PM

f PM

s

N i N i i i min. Exemplo Geral (medidas de tendência central e de dispersão): Um estudo para se determinar o perfil da renda dos universitários paulistanos resultou na seguinte tabela. Faixa de Renda Exatas Humanas Biológicas Até 1 sal. mínimo 19% 19% 44% 1 a 3 sal. mínimos 18% 18% 24% 3 a 5 sal. mínimos 19% 21% 12% Acima de 5 sal. mínimos

Fonte: Perfil Sócio-Econômico do Universitário Paulista. Fórum dos Jovens Empresários (http://www.fjeacsp.com.br/SiteFJE/economico/economico.htm). Vamos calcular a média, a mediana, a moda e o desvio padrão para os universitários da área de humanas. Deixamos os cálculos para os universitários das áreas de exatas e biológicas como exercício para casa. A primeira coisa que devemos fazer para calcular os dados pedidos é reescrever a tabela acima colocando a informação que nos interessa, como pontos médios, freqüências acumuladas etc. Devemos notar que a tabela não nos dá o número de estudantes pesquisados, ou seja, o valor de N. Portanto, não teremos como calcular o desvio padrão usando a fórmula para uma amostra, pois para isto teríamos que conhecer o valor de ( N − 1).

Porém, se supusermos que o número de estudantes na amostra foi muito grande isto não deverá causar maiores problemas, pois divisões por N ou por ( N − 1) resultarão em valores aproximadamente iguais. Note que embora o valor de N seja desconhecido, os valores da média e do desvio padrão podem ser calculados usando-se as fórmulas escritas em termos das freqüências relativas f r = f / N. Outro ponto importante sobre o qual devemos tomar uma decisão antes de montar a nova tabela é a definição de qual será o ponto médio do último intervalo usado. Note que este intervalo foi definido como “acima de 5 sal. mínimos”. Portanto, só conhecemos o seu limite inferior. O limite superior, ou seja, a maior renda de um universitário, não é fornecido. Este é um exemplo em que a amplitude total dos dados não foi considerada relevante por quem fez a pesquisa. No entanto, para calcularmos a média e o desvio padrão temos que ter um valor para o ponto médio do último intervalo. Em um caso como este, a única alternativa é estimar um valor para o limite superior do último intervalo. Tal estimativa requer bom senso, pois o valor superior estimado não pode ser exageradamente alto (lembre-se que a média e o desvio padrão são bastante influenciados por valores muito altos). Para o caso em questão, vamos usar como limite superior do último intervalo o valor de 10 salários mínimos. Pode ser que existam universitários com rendas acima deste valor (com certeza existem), mas estamos supondo que eles não são muitos e não estamos querendo dar um peso muito grande a eles. Procure fazer, como exercício para casa, este mesmo exercício usando valores diferentes para o limite superior do último intervalo; por exemplo 7 salários mínimos, 20 salários mínimos e 30 salários mínimos. Uma vez feitas as definições acima, vamos agora montar a tabela de dados para os estudantes de humanas.