Dispersão e desvio padrão. Variância: geral, amostra, corrigida

Instruções

Que haja vários números caracterizando -ou quantidades homogêneas. Por exemplo, os resultados de medições, pesagens, observações estatísticas, etc. Todas as grandezas apresentadas devem ser medidas com a mesma medição. Para encontrar o desvio padrão, siga estas etapas.

Determine a média aritmética de todos os números: some todos os números e divida a soma pelo número total de números.

Determine a variância (dispersão) dos números: some os quadrados dos desvios encontrados anteriormente e divida a soma resultante pelo número de números.

Há sete pacientes na enfermaria com temperatura de 34, 35, 36, 37, 38, 39 e 40 graus Celsius.

É necessário determinar o desvio médio da média.
Solução:
"Na enfermaria": (34 + 35 + 36 + 37 + 38 + 39 + 40) / 7 = 37 ºС;

Desvios de temperatura da média (neste caso, o valor normal): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, resulta: -3, -2, -1, 0, 1, 2, 3 (ºС);

Divida a soma dos números recebidos antecipadamente pelo seu número. Para a precisão do cálculo, é melhor usar uma calculadora. O resultado da divisão é a média aritmética da soma dos números.

Preste atenção em todas as etapas do cálculo, pois um erro em pelo menos um dos cálculos levará a um indicador final incorreto. Verifique os cálculos recebidos em cada etapa. A média aritmética tem a mesma medida que os adendos do número, ou seja, se você determinar a média de atendimento, todos os indicadores que você terá serão "pessoas".

Este método de cálculo é usado apenas em cálculos matemáticos e estatísticos. Assim, por exemplo, a média aritmética em ciência da computação tem um algoritmo de cálculo diferente. A média aritmética é um indicador muito arbitrário. Mostra a probabilidade de um determinado evento, desde que tenha apenas um fator ou indicador. Para uma análise mais aprofundada, muitos fatores devem ser levados em consideração. Para isso, utiliza-se o cálculo de valores mais gerais.

A média aritmética é uma das medidas da tendência central amplamente utilizada em matemática e cálculos estatísticos. É muito fácil encontrar a média aritmética para vários valores, mas cada tarefa tem suas próprias nuances, que são simplesmente necessárias para saber para realizar cálculos corretos.

Resultados quantitativos de experimentos semelhantes.

Como encontrar a média aritmética

Encontrar a média aritmética para uma matriz de números deve começar com a determinação da soma algébrica desses valores. Por exemplo, se a matriz contém números 23, 43, 10, 74 e 34, então sua soma algébrica será 184. Ao escrever, a média aritmética é denotada pela letra μ (mu) ou x (x com uma barra). Em seguida, a soma algébrica deve ser dividida pelo número de números na matriz. Neste exemplo, havia cinco números, então a média aritmética será 184/5 e será 36,8.

Características de trabalhar com números negativos

Se a matriz contém números negativos, a média aritmética é encontrada usando um algoritmo semelhante. A diferença é apenas no cálculo no ambiente de programação, ou se houver condições adicionais no problema. Nesses casos, encontrar a média aritmética de números com sinais diferentes é reduzido a três etapas:

1. Encontrar a média aritmética total pelo método padrão;
2. Encontrar a média aritmética de números negativos.
3. Cálculo da média aritmética de números positivos.

As respostas para cada ação são separadas por vírgulas.

Frações naturais e decimais

Se a matriz de números for representada por frações decimais, a solução é realizada pelo método de cálculo da média aritmética dos inteiros, mas o resultado é reduzido de acordo com os requisitos do problema para a precisão da resposta.

Ao trabalhar com frações naturais, elas devem ser reduzidas a um denominador comum, que é multiplicado pelo número de números na matriz. O numerador da resposta será a soma dos numeradores dados dos elementos fracionários originais.

Lição número 4

Tópico: “Estatísticas descritivas. Indicadores da diversidade do traço no agregado "

Os principais critérios para a diversidade de uma característica em uma população estatística são: limite, amplitude, desvio padrão, coeficiente de oscilação e coeficiente de variação. Na lição anterior, foi discutido que os valores médios fornecem apenas uma característica generalizante do traço estudado no agregado e não levam em consideração os valores de suas variantes individuais: os valores mínimo e máximo, acima da média, abaixo da média, etc.

Exemplo. Valores médios de duas sequências de números diferentes: -100; -vinte; 100; 20 e 0,1; -0,2; 0.1 são absolutamente iguais e iguaisO.No entanto, os intervalos de dispersão dessas sequências de média relativa são muito diferentes.

A definição dos critérios listados para a diversidade de uma característica é realizada principalmente levando em consideração o seu valor para elementos individuais da população estatística.

Os indicadores para medir a variação de uma característica são absoluto e relativo... Os indicadores absolutos de variação incluem: a faixa de variação, limite, desvio padrão, variância. O coeficiente de variação e o coeficiente de oscilação referem-se a medidas relativas de variação.

Limite (lim) - este é um critério que é determinado pelos valores extremos da variante na série de variação. Em outras palavras, este critério é limitado aos valores mínimo e máximo do recurso:

Amplitude (Am) ou gama de variação - esta é a diferença entre as opções extremas. O cálculo deste critério é realizado subtraindo o seu valor mínimo do valor máximo da característica, o que nos permite estimar o grau de variação da opção:

A desvantagem do limite e da amplitude como critério de variabilidade é que eles dependem completamente dos valores extremos do traço na série de variação. Nesse caso, as flutuações nos valores da característica dentro da série não são levadas em consideração.

A caracterização mais completa da diversidade de uma característica em uma população estatística é dada por desvio padrão(sigma), que é uma medida geral do desvio de uma variante de sua média. O desvio padrão é frequentemente referido como desvio padrão.

O desvio padrão é baseado na comparação de cada opção com a média aritmética da população dada. Uma vez que no agregado sempre haverá opções tanto menos como mais do que ele, a soma dos desvios que têm o sinal "" será reembolsada pela soma dos desvios que têm o sinal "", ou seja, a soma de todos os desvios é zero. Para evitar a influência dos sinais das diferenças, os desvios são tomados da média aritmética ao quadrado, ou seja, ... A soma dos quadrados dos desvios não é zero. Para obter um coeficiente que possa medir a variabilidade, tire a média da soma dos quadrados - este valor é chamado variância:

De acordo com o significado, a variância é o quadrado médio dos desvios dos valores individuais de uma característica de sua média. Dispersão o quadrado do desvio padrão.

A variação é uma dimensão (nomeada). Portanto, se as variantes da série numérica são expressas em metros, a variância resulta em metros quadrados; se as opções são expressas em quilogramas, a variância dá o quadrado desta medida (kg 2), etc.

Desvio padrão- raiz quadrada da variância:

, então, ao calcular a variância e o desvio padrão no denominador da fração em vez deé necessário colocar.

O cálculo do desvio padrão pode ser dividido em seis etapas, que devem ser realizadas em uma sequência específica:

Aplicação do desvio padrão:

a) julgar a variabilidade das séries de variações e uma avaliação comparativa da tipicidade (representatividade) dos valores médios aritméticos. Isso é necessário em diagnósticos diferenciais ao determinar a estabilidade dos recursos.

b) para reconstruir a série de variação, ou seja, restauração de sua resposta de frequência com base em três regras sigma. No intervalo (M ± 3σ) 99,7% de todas as variantes da série são encontradas, no intervalo (M ± 2σ) - 95,5% e no intervalo (M ± 1σ) - Variante de linha de 68,3%(Figura 1).

c) para identificar a opção "pop-up"

d) determinar os parâmetros de norma e patologia usando estimativas sigma

e) calcular o coeficiente de variação

f) calcular o erro médio da média aritmética.

Para caracterizar qualquer população em geral que tenhatipo de distribuição normal , basta conhecer dois parâmetros: a média aritmética e o desvio padrão.

Figura 1. A Regra dos Três Sigma

Exemplo.

Em pediatria, o desvio padrão é usado para avaliar o desenvolvimento físico das crianças, comparando os dados de uma criança em particular com os indicadores padrão correspondentes. Os indicadores de média aritmética do desenvolvimento físico de crianças saudáveis ​​são tomados como padrão. A comparação dos indicadores com os padrões é realizada de acordo com tabelas especiais, nas quais os padrões são dados junto com suas escalas sigma correspondentes. Acredita-se que se o indicador de desenvolvimento físico da criança estiver dentro do padrão (média aritmética) ± σ, então o desenvolvimento físico da criança (para este indicador) corresponde à norma. Se o indicador estiver dentro do padrão ± 2σ, haverá um ligeiro desvio da norma. Se o indicador ultrapassar esses limites, o desenvolvimento físico da criança difere agudamente da norma (a patologia é possível).

Além dos indicadores de variação, expressos em valores absolutos, o estudo estatístico utiliza indicadores de variação, expressos em valores relativos. Coeficiente de oscilação -é a razão entre o intervalo de variação e o valor médio da característica. O coeficiente de variação -é a razão entre o desvio padrão e o valor médio do recurso. Normalmente, esses valores são expressos como uma porcentagem.

Fórmulas para calcular os índices relativos de variação:

Pode-se ver nas fórmulas acima que quanto maior o coeficiente V próximo de zero, menor será a variação nos valores do recurso. O mais V, mais mutável é o sinal.

Na prática estatística, o coeficiente de variação é o mais usado. É usado não apenas para a avaliação comparativa da variação, mas também para caracterizar a homogeneidade da população. A população é considerada homogênea se o coeficiente de variação não ultrapassar 33% (para distribuições próximas do normal). Aritmeticamente, a razão de σ e a média aritmética elimina a influência do valor absoluto dessas características, e a razão percentual torna o coeficiente de variação um valor adimensional (sem nome).

O valor obtido do coeficiente de variação é estimado de acordo com as gradações aproximadas do grau de diversidade do traço:

Fraco - até 10%

Média - 10 - 20%

Forte - mais de 20%

O uso do coeficiente de variação é aconselhável nos casos em que é necessário comparar características que são diferentes em tamanho e dimensão.

A diferença entre o coeficiente de variação e outros critérios de dispersão demonstra claramente exemplo.

tabela 1

A composição dos trabalhadores em uma empresa industrial

Com base nas características estatísticas apresentadas no exemplo, pode-se concluir que a composição etária e o nível de escolaridade dos empregados da empresa são relativamente homogêneos com baixa estabilidade profissional do contingente pesquisado. É fácil ver que uma tentativa de julgar essas tendências sociais pelo desvio padrão levaria a uma conclusão errônea, e uma tentativa de comparar as credenciais "experiência de trabalho" e "idade" com a credencial "educação" seria geralmente incorreta devido à heterogeneidade dessas características.

Mediana e percentis

Para distribuições ordinais (classificação), onde o critério para o meio da série é a mediana, o desvio padrão e a variância não podem servir como características da variante de espalhamento.

O mesmo é verdadeiro para séries de variação aberta. Essa circunstância se deve ao fato de que os desvios pelos quais a variância e o σ são calculados são contados a partir da média aritmética, que não é calculada nas séries variacionais abertas e nas séries de distribuições de características qualitativas. Portanto, para uma descrição concisa das distribuições, outro parâmetro de dispersão é usado - quantil(sinônimo - "nercentil"), adequado para descrever características qualitativas e quantitativas em qualquer forma de sua distribuição. Este parâmetro também pode ser usado para traduzir características quantitativas em qualitativas. Nesse caso, tais estimativas são atribuídas dependendo da ordem do quantil que corresponde a uma determinada opção.

Na prática da pesquisa biomédica, os seguintes quantis são usados ​​com mais frequência:

É a mediana;

, - quartis (quartos), onde é o quartil inferior, quartil superior.

Os quantis dividem a área de variação possível de uma variante em uma série de variação em determinados intervalos. A mediana (quantil) é uma variante que está no meio da série de variação e divide essa série pela metade, em duas partes iguais ( 0,5 e 0,5 ) O quartil divide a linha em quatro partes: a primeira parte (quartil inferior) são as opções que separam as opções, cujos valores numéricos não ultrapassam 25% do máximo possível na linha dada, o quartil separa as opções com o valor numérico até 50% do máximo possível. O quartil superior () separa as opções em até 75% dos valores máximos possíveis.

No caso de distribuição assimétrica uma variável relativa à média aritmética, a mediana e os quartis são usados ​​para caracterizá-la. Neste caso, a seguinte forma de exibição do valor médio é usada - Mim (;). Por exemplo, o sinal estudado - "período em que a criança começou a andar de forma independente" - no grupo de estudo tem distribuição assimétrica. Ao mesmo tempo, o quartil inferior () corresponde ao início da caminhada - 9,5 meses, a mediana - 11 meses e o quartil superior () - 12 meses. Dessa forma, a característica da tendência média do sinal indicado será apresentada como 11 (9,5; 12) meses.

Avaliação da significância estatística dos resultados da pesquisa

A significância estatística dos dados é entendida como o grau em que eles correspondem à realidade exibida, ou seja, dados estatisticamente significativos são aqueles que não distorcem e refletem corretamente a realidade objetiva.

Avaliar a significância estatística dos resultados da pesquisa significa determinar com que probabilidade é possível transferir os resultados obtidos na população amostral para toda a população geral. Avaliar a significância estatística é necessário para entender o quanto do fenômeno pode ser julgado sobre o fenômeno como um todo e suas regularidades.

A avaliação da significância estatística dos resultados da pesquisa consiste em:

1. erros de representatividade (erros de valores médios e relativos) - m;

2. limites de confiança de valores médios ou relativos;

3. a confiabilidade da diferença entre os valores médios ou relativos de acordo com o critério t.

Erro padrão da média aritmética ou erro de representatividade caracteriza flutuações na média. Deve-se notar que quanto maior o tamanho da amostra, menor é a dispersão dos valores médios. O erro padrão da média é calculado pela fórmula:

Na literatura científica moderna, a média aritmética é escrita junto com o erro de representatividade:

ou junto com o desvio padrão:

Como exemplo, considere os dados de 1.500 policlínicas urbanas do país (população geral). O número médio de pacientes atendidos em uma policlínica é de 18150 pessoas. Uma seleção aleatória de 10% dos objetos (150 policlínicas) dá um número médio de pacientes igual a 20051 pessoas. O erro de amostragem, obviamente relacionado ao fato de que nem todas as 1.500 policlínicas foram incluídas na amostra, é igual à diferença entre essas médias - a média geral ( M gene) e média da amostra ( M selecione). Se formarmos outra amostra do mesmo tamanho de nossa população geral, isso dará uma quantidade diferente de erro. Todas essas médias amostrais para amostras suficientemente grandes são distribuídas normalmente em torno da média geral com um número suficientemente grande de repetições de uma amostra do mesmo número de objetos da população geral. Erro padrão da média mé a dispersão inevitável das médias da amostra em torno da média geral.

No caso em que os resultados da pesquisa são apresentados em valores relativos (por exemplo, percentagens) - é calculado compartilhar o erro padrão:

onde P é o indicador em%, n é o número de observações.

O resultado é exibido como (P ± m)%. Por exemplo, a porcentagem de recuperação entre os pacientes foi (95,2 ± 2,5)%.

No caso de o número de elementos da população, então, ao calcular os erros padrão da média e a fração no denominador da fração em vez deé necessário colocar.

Para uma distribuição normal (a distribuição das médias da amostra é normal), sabe-se quanto da população se enquadra em qualquer intervalo em torno da média. Em particular:

Na prática, o problema é que não conhecemos as características da população em geral, e a amostra é feita justamente para fins de avaliá-las. Isso significa que se fizermos amostras do mesmo tamanho n da população em geral, então em 68,3% dos casos o intervalo conterá o valor M(estará no intervalo em 95,5% dos casos e no intervalo em 99,7% dos casos).

Uma vez que apenas uma amostra é realmente feita, esta afirmação é formulada em termos de probabilidade: com uma probabilidade de 68,3%, o valor médio de uma característica na população em geral está contido em um intervalo, com uma probabilidade de 95,5% - no intervalo, etc.

Na prática, um intervalo é construído em torno do valor da amostra, o que seria, com uma determinada probabilidade (suficientemente alta) - nível de confiança -“Cobriria” o verdadeiro valor deste parâmetro na população em geral. Este intervalo é chamado intervalo de confiança.

Probabilidade de confiançaP é o grau de confiança de que o intervalo de confiança realmente conterá o valor verdadeiro (desconhecido) do parâmetro na população geral.

Por exemplo, se o nível de confiança Ré igual a 90%, isso significa que 90 amostras em 100 darão uma estimativa correta do parâmetro na população em geral. Consequentemente, a probabilidade de erro, ou seja, a estimativa incorreta da média geral para a amostra é igual em porcentagem a :. Para este exemplo, isso significa que 10 amostras em 100 darão uma estimativa incorreta.

Obviamente, o grau de confiança (nível de confiança) depende do tamanho do intervalo: quanto mais amplo for o intervalo, maior será a confiança de que um valor desconhecido para a população em geral cairá nele. Na prática, para construir o intervalo de confiança, toma-se pelo menos o dobro do erro amostral para garantir uma confiança de pelo menos 95,5%.

A determinação dos limites de confiança dos valores médios e relativos permite encontrar os seus dois valores extremos - o mínimo possível e o máximo possível, dentro dos quais o indicador estudado pode ser encontrado em toda a população geral. Com base nisso, limites de confiança (ou intervalo de confiança)- estes são os limites dos valores médios ou relativos, indo além dos quais devido a flutuações aleatórias tem uma probabilidade desprezível.

O intervalo de confiança pode ser reescrito como :, onde t- critério de confiança.

Os limites de confiança da média aritmética na população geral são determinados pela fórmula:

M gene = M selecionar + t m M

para o valor relativo:

R gene = P selecionar + t m R

Onde M gene e R gene- valores médios e relativos para a população em geral; M selecionar e R selecionar- os valores dos valores médios e relativos obtidos na população amostral; m M e m P- erros de valores médios e relativos; t- critério de confiança (critério de precisão, que é definido no planejamento de um estudo e pode ser igual a 2 ou 3); t mé o intervalo de confiança ou Δ é o erro marginal do indicador obtido no estudo amostral.

Deve-se notar que o valor do critério t em certa medida relacionada à probabilidade de uma previsão sem erros (p), expressa em%. É escolhido pelo próprio pesquisador, norteado pela necessidade de se obter um resultado com o grau de precisão exigido. Portanto, para a probabilidade de uma previsão sem erros de 95,5%, o valor do critério té 2, para 99,7% - 3.

As estimativas fornecidas do intervalo de confiança são aceitáveis ​​apenas para populações estatísticas com mais de 30 observações. Com um tamanho de população menor (pequenas amostras), tabelas especiais são usadas para determinar o critério t. Nessas tabelas, o valor desejado está na interseção da linha correspondente ao tamanho da população (n-1), e uma coluna correspondente ao nível de probabilidade de uma previsão infalível (95,5%; 99,7%) escolhida pelo pesquisador. Na pesquisa médica, ao estabelecer limites de confiança para qualquer indicador, a probabilidade de uma previsão sem erros é aceita como 95,5% ou mais. Isso significa que o valor do indicador obtido na população amostral deve ser encontrado na população geral em pelo menos 95,5% dos casos.

    Perguntas sobre o tema da aula:

    A relevância dos indicadores da diversidade da característica na população estatística.

    Características gerais dos indicadores absolutos de variação.

    Desvio padrão, cálculo, aplicação.

    Indicadores relativos de variação.

    Mediana, estimativa de quartil.

    Avaliação da significância estatística dos resultados da pesquisa.

    Erro padrão da média aritmética, fórmula de cálculo, exemplo de uso.

    Cálculo da ação e seu erro padrão.

    Conceito de nível de confiança, exemplo de uso.

10. O conceito de intervalo de confiança, sua aplicação.

    Tarefas de teste sobre o tópico com exemplos de respostas:

1. OS INDICADORES ABSOLUTOS DE VARIAÇÃO RELACIONADOS A

1) coeficiente de variação

2) coeficiente de oscilação

4) mediana

2. INDICADORES RELATIVOS DE VARIAÇÃO RELACIONADOS A

1) variância

4) coeficiente de variação

3. CRITÉRIO QUE É DETERMINADO PELOS VALORES EXTREMOS DA OPÇÃO NA FAIXA DE VARIAÇÃO

2) amplitude

3) variância

4) coeficiente de variação

4. A DIFERENÇA DAS OPÇÕES EXTREMAS É

2) amplitude

3) desvio padrão

4) coeficiente de variação

5. O QUADRADO MÉDIO DOS DESVIOS DOS VALORES INDIVIDUAIS DA CARÁTER A PARTIR DE SEUS VALORES MÉDIOS É

1) coeficiente de oscilação

2) mediana

3) variância

6. A RELAÇÃO DA VELOCIDADE DE VARIAÇÃO COM O VALOR MÉDIO DO SINAL É

1) coeficiente de variação

2) desvio padrão

4) coeficiente de oscilação

7. A RELAÇÃO DO DESVIO DO QUADRADO MÉDIO AO VALOR MÉDIO DO SINAL É

1) variância

2) coeficiente de variação

3) coeficiente de oscilação

4) amplitude

8. OPÇÃO, QUE ESTÁ NO MEIO DA FAIXA DE VARIAÇÃO E A DIVIDE EM DUAS PARTES IGUAIS - ESTA É

1) mediana

3) amplitude

9. EM PESQUISA MÉDICA, AO ESTABELECER LIMITES CONFIDENCIAIS PARA QUALQUER INDICADOR, A PROBABILIDADE DE UMA PREVISÃO SEM ERROS É ACEITA

10. SE 90 AMOSTRAS EM 100 FORNECEM A ESTIMATIVA CORRETA DO PARÂMETRO NO TOTAL GERAL, ISSO SIGNIFICA QUE A CONFIANÇA P IGUAL

11. NO CASO DE 10 AMOSTRAS EM 100 FORNECEM UMA ESTIMATIVA INCORRETA, A PROBABILIDADE DE UM ERRO É IGUAL

12. LIMITES DE VALORES MÉDIOS OU RELATIVOS, FORA QUE, DEVIDO A VIBRAÇÕES ALEATÓRIAS, TEM UMA PROBABILIDADE SIGNIFICATIVA É

1) intervalo de confiança

2) amplitude

4) coeficiente de variação

13. UMA PEQUENA AMOSTRA É ESSA COLEÇÃO EM QUE

1) n é menor ou igual a 100

2) n é menor ou igual a 30

3) n é menor ou igual a 40

4) n é próximo de 0

14. PARA 95% DE PROBABILIDADE DE VALOR DO CRITÉRIO DE PREVISÃO SEM ERROS t FAZ

15. PARA 99% DE PROBABILIDADE DE UM CRITÉRIO DE VALOR DE PREVISÃO SEM ERROS t FAZ

16. PARA DISTRIBUIÇÕES PERTO DO NORMAL, A COLETA É CONSIDERADA UNIFORME A MENOS QUE O COEFICIENTE DE VARIAÇÃO NÃO EXCEDA

17. VARIANTE OPÇÕES DE SEPARAÇÃO QUE OS VALORES NUMÉRICOS NÃO EXCEDEM 25% DO MÁXIMO POSSÍVEL NESTA GAMA É

2) quartil inferior

3) quartil superior

4) quartil

18. OS DADOS QUE NÃO DISTORTAM E REFLETEM CORRETAMENTE A REALIDADE OBJETIVA SÃO CHAMADOS

1) impossível

2) igualmente possível

3) confiável

4) aleatório

19. DE ACORDO COM A REGRA "TRÊS SIGMA", COM A DISTRIBUIÇÃO NORMAL DO RECURSO NOS LIMITES
SERÁ LOCALIZADO

1) opção de 68,3%

$ X $. Para começar, lembre-se da seguinte definição:

Definição 1

População geral- um conjunto de objetos selecionados aleatoriamente de um determinado tipo, sobre os quais são feitas observações a fim de obter valores específicos de uma variável aleatória, realizadas em condições constantes no estudo de uma variável aleatória de um determinado tipo.

Definição 2

Variância geral- a média aritmética dos quadrados dos desvios dos valores da variante da população geral em relação à sua média.

Deixe que os valores da variante $ x_1, \ x_2, \ dots, x_k $ tenham, respectivamente, as frequências $ n_1, \ n_2, \ dots, n_k $. Em seguida, a variância geral é calculada pela fórmula:

Vamos considerar um caso especial. Deixe todas as opções $ x_1, \ x_2, \ dots, x_k $ serem diferentes. Neste caso $ n_1, \ n_2, \ dots, n_k = 1 $. Percebemos que, neste caso, a variância geral é calculada pela fórmula:

O conceito de desvio padrão geral também está associado a este conceito.

Definição 3

Desvio quadrático médio geral

\ [(\ sigma) _r = \ sqrt (D_r) \]

Variância da amostra

Vamos receber um conjunto de amostra com relação a uma variável aleatória $ X $. Para começar, lembre-se da seguinte definição:

Definição 4

População de amostra- parte dos objetos selecionados da população em geral.

Definição 5

Variância da amostra- a média aritmética da variante da população de amostra.

Deixe que os valores da variante $ x_1, \ x_2, \ dots, x_k $ tenham, respectivamente, as frequências $ n_1, \ n_2, \ dots, n_k $. Em seguida, a variação da amostra é calculada pela fórmula:

Vamos considerar um caso especial. Deixe todas as opções $ x_1, \ x_2, \ dots, x_k $ serem diferentes. Neste caso $ n_1, \ n_2, \ dots, n_k = 1 $. Percebemos que, neste caso, a variância da amostra é calculada pela fórmula:

Também relacionado a este conceito está a noção de desvio padrão da amostra.

Definição 6

Desvio padrão da amostraé a raiz quadrada da variação geral:

\ [(\ sigma) _w = \ sqrt (D_w) \]

Variância corrigida

Para encontrar a variância corrigida $ S ^ 2 $, é necessário multiplicar a variância da amostra pela fração $ \ frac (n) (n-1) $, ou seja

Este conceito também está associado ao conceito de desvio padrão corrigido, que é encontrado pela fórmula:

No caso em que os valores da variante não são discretos, mas representam intervalos, então nas fórmulas para calcular as variâncias gerais ou amostrais, o valor do meio do intervalo ao qual $ x_i pertence é tomado como o valor de $ x_i $.

Um exemplo de um problema para encontrar a variância e o desvio padrão

Exemplo 1

A população da amostra é definida pela seguinte tabela de distribuição:

Imagem 1.

Vamos encontrar para ele a variância da amostra, o desvio padrão da amostra, a variância corrigida e o desvio padrão corrigido.

Para resolver este problema, primeiro faremos uma tabela de cálculo:

Figura 2.

O valor de $ \ overline (x_v) $ (média da amostra) na tabela é encontrado pela fórmula:

\ [\ overline (x_v) = \ frac (\ sum \ limits ^ k_ (i = 1) (x_in_i)) (n) \]

\ [\ overline (x_v) = \ frac (\ sum \ limits ^ k_ (i = 1) (x_in_i)) (n) = \ frac (305) (20) = 15,25 \]

Vamos encontrar a variação da amostra pela fórmula:

Desvio padrão da amostra:

\ [(\ sigma) _v = \ sqrt (D_v) \ aproximadamente 5,12 \]

Variância corrigida:

\ [(S ^ 2 = \ frac (n) (n-1) D) _b = \ frac (20) (19) \ cdot 26,1875 \ aproximadamente 27,57 \]

Desvio padrão corrigido.

Uma das principais ferramentas de análise estatística é o cálculo do desvio padrão. Este indicador permite fazer uma estimativa do desvio padrão para uma amostra ou para a população em geral. Vamos aprender como usar a fórmula de desvio padrão no Excel.

Vamos determinar imediatamente qual é o desvio padrão e como é sua fórmula. Este valor é a raiz quadrada da média aritmética dos quadrados da diferença de todos os valores da série e sua média aritmética. Há um nome idêntico para este indicador - desvio padrão. Ambos os nomes são completamente equivalentes.

Mas, claro, no Excel, o usuário não precisa calcular isso, já que o programa faz tudo por ele. Vamos descobrir como calcular o desvio padrão no Excel.

Cálculo em Excel

Você pode calcular o valor especificado no Excel usando duas funções especiais STDEV.B(para a amostra) e STDEV.G(para a população em geral). O princípio de seu funcionamento é absolutamente o mesmo, mas podem ser causados ​​de três maneiras, das quais falaremos a seguir.

Método 1: assistente de função


Método 2: a guia "Fórmulas"


Método 3: inserir manualmente uma fórmula

Também existe uma maneira pela qual você não precisará invocar a janela de argumentos. Para fazer isso, você deve inserir a fórmula manualmente.


Como você pode ver, o mecanismo de cálculo do desvio padrão no Excel é muito simples. O usuário só precisa inserir números da população ou referências às células que os contêm. Todos os cálculos são realizados pelo próprio programa. É muito mais difícil entender o que é o indicador calculado e como os resultados do cálculo podem ser aplicados na prática. Mas compreender isso já pertence mais ao domínio da estatística do que aprender a trabalhar com software.

Expectativa e variação

Vamos medir uma variável aleatória N vezes, por exemplo, medimos a velocidade do vento dez vezes e queremos encontrar o valor médio. Como a média está relacionada à função de distribuição?

Vamos lançar os dados um grande número de vezes. O número de pontos que cairão no dado a cada lançamento é uma variável aleatória e pode assumir qualquer valor natural de 1 a 6. A média aritmética dos pontos perdidos calculados para todos os lançamentos de dados também é um valor aleatório, mas para grande N tende a um número muito específico - a expectativa matemática M x... Nesse caso M x = 3,5.

Como surgiu esse valor? Deixe entrar N as tentativas uma vez caíram 1 ponto, uma vez - 2 pontos e assim por diante. Então para N→ ∞ o número de resultados em que um ponto foi descartado, Da mesma forma, portanto

Modelo 4.5. Dados

Suponha agora que conhecemos a lei de distribuição de uma variável aleatória x, isto é, sabemos que a variável aleatória x pode assumir valores x 1 , x 2 , ..., x k com probabilidades p 1 , p 2 , ..., p k.

Valor esperado M x variável aleatória xé igual a:

Responder. 2,8.

A expectativa matemática nem sempre é uma estimativa razoável de alguma variável aleatória. Assim, para estimar o salário médio, é mais razoável usar o conceito de mediana, ou seja, um valor tal que o número de pessoas que recebem menos e mais do que o salário mediano seja o mesmo.

Mediana variável aleatória é chamada de número x 1/2 tal que p (x < x 1/2) = 1/2.

Em outras palavras, a probabilidade p 1 que a variável aleatória x será menos x 1/2, e a probabilidade p 2 que a variável aleatória x será maior x 1/2 são iguais e iguais a 1/2. A mediana não é determinada exclusivamente para todas as distribuições.

Vamos voltar a uma variável aleatória x, que pode levar os valores x 1 , x 2 , ..., x k com probabilidades p 1 , p 2 , ..., p k.

Dispersão variável aleatória xé o valor médio do quadrado do desvio de uma variável aleatória de sua expectativa matemática:

Exemplo 2

Sob as condições do exemplo anterior, calcule a variância e o desvio padrão de uma variável aleatória x.

Responder. 0,16, 0,4.

Modelo 4.6. Alvo de tiro

Exemplo 3

Encontre a distribuição de probabilidade do número de pontos perdidos no dado desde o primeiro lançamento, a mediana, a média, a variância e o desvio padrão.

Cair de qualquer rosto é igualmente provável, então a distribuição será assim:

Desvio RMS Vê-se que o desvio do valor da média é muito grande.

Propriedades de expectativa matemática:

  • A expectativa matemática da soma das variáveis ​​aleatórias independentes é igual à soma de suas expectativas matemáticas:

Exemplo 4

Encontre a expectativa matemática da soma e do produto dos pontos lançados em dois dados.

No exemplo 3, descobrimos que para um cubo M (x) = 3,5. Então, para dois cubos

Propriedades de dispersão:

  • A variância da soma das variáveis ​​aleatórias independentes é igual à soma das variâncias:

D x + y = D x + D y.

Deixar para N dados rolados y pontos. Então

Este resultado não é válido apenas para lançamentos de dados. Em muitos casos, ele determina a precisão de medir a expectativa matemática empiricamente. Percebe-se que com o aumento do número de medições N a dispersão dos valores em torno da média, ou seja, o desvio padrão, diminui proporcionalmente

A variância de uma variável aleatória está relacionada à expectativa matemática do quadrado dessa variável aleatória pela seguinte relação:

Vamos encontrar as expectativas matemáticas de ambos os lados dessa igualdade. Priorado,

A expectativa matemática do lado direito da igualdade pela propriedade das expectativas matemáticas é igual a

Desvio padrão

Desvio padrãoé igual à raiz quadrada da variação:
Ao determinar o desvio padrão com um volume suficientemente grande da população estudada (n> 30), as seguintes fórmulas são usadas:

Informações semelhantes.