Expresso em porcentagem, a razão entre o desvio padrão. Desvio linear médio

A característica mais perfeita da variação é o desvio quadrático médio, chamado padrão (ou desvio padrão). Desvio padrão() é igual à raiz quadrada do desvio quadrático médio dos valores individuais do atributo da média aritmética:

O desvio padrão é simples:

O desvio padrão ponderado é aplicado aos dados agrupados:

A seguinte relação ocorre entre o quadrado médio e os desvios lineares médios em condições de distribuição normal: ~ 1,25.

O desvio padrão, sendo a principal medida absoluta de variação, é utilizado na determinação dos valores ordenados de uma curva de distribuição normal, nos cálculos relacionados à organização da observação da amostra e no estabelecimento da precisão das características da amostra, bem como na avaliação do limites de variação de uma característica em uma população homogênea.

Dispersão, seus tipos, desvio padrão.

Variância de uma variável aleatória— uma medida do spread de uma determinada variável aleatória, ou seja, seu desvio da expectativa matemática. Nas estatísticas, a notação ou é frequentemente usada. A raiz quadrada da variância é chamada de desvio padrão, desvio padrão ou spread padrão.

Variância total (σ2) mede a variação de uma característica em sua totalidade sob a influência de todos os fatores que causaram essa variação. Ao mesmo tempo, graças ao método de agrupamento, é possível identificar e medir a variação devido à característica do agrupamento e a variação que surge sob a influência de fatores não contabilizados.

Variância intergrupo (σ 2 m.gr) caracteriza a variação sistemática, ou seja, diferenças no valor da característica estudada que surgem sob a influência da característica - fator que forma a base do grupo.

Desvio padrão(sinônimos: desvio padrão, desvio padrão, desvio quadrado; termos relacionados: desvio padrão, spread padrão) - na teoria das probabilidades e nas estatísticas, o indicador mais comum da dispersão dos valores de uma variável aleatória em relação à sua expectativa matemática. Com matrizes limitadas de amostras de valores, em vez da expectativa matemática, é utilizada a média aritmética do conjunto de amostras.

O desvio padrão é medido em unidades da própria variável aleatória e é utilizado no cálculo erro padrão média aritmética, ao construir intervalos de confiança, ao testar hipóteses estatisticamente, ao medir uma relação linear entre variáveis ​​​​aleatórias. Definido como raiz quadrada da variância da variável aleatória.


Desvio padrão:

Desvio Padrão(estimativa média desvio quadrado variável aleatória x em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância):

onde está a dispersão; - eu o elemento da seleção; — tamanho da amostra; — média aritmética da amostra:

Deve-se notar que ambas as estimativas são tendenciosas. No caso geral, é impossível construir uma estimativa imparcial. No entanto, a estimativa baseada na estimativa de variância imparcial é consistente.

Essência, escopo e procedimento para determinação de moda e mediana.

Além das médias de poder nas estatísticas para as características relativas do valor de uma característica variável e estrutura interna as séries de distribuição utilizam médias estruturais, que são representadas principalmente por moda e mediana.

Moda- Esta é a variante mais comum da série. A moda é utilizada, por exemplo, para determinar o tamanho das roupas e sapatos mais procurados pelos compradores. O modo para uma série discreta é aquele com maior frequência. Ao calcular a moda para uma série de variação de intervalo, você deve primeiro determinar o intervalo modal (com base na frequência máxima) e, em seguida, o valor do valor modal do atributo usando a fórmula:

- - valor da moda

- — limite inferior do intervalo modal

- — tamanho do intervalo

- — frequência de intervalo modal

- — frequência do intervalo anterior ao modal

- — frequência do intervalo seguindo o modal

Mediana - este é o valor do atributo que fundamenta a série classificada e divide esta série em duas partes iguais.

Para determinar a mediana em uma série discreta na presença de frequências, primeiro calcule a meia soma das frequências e depois determine qual valor da variante recai sobre ela. (Se a série classificada contiver um número ímpar de recursos, o número mediano será calculado usando a fórmula:

M e = (n (número de recursos no total) + 1)/2,

no caso de um número par de características, a mediana será igual à média das duas características do meio da linha).

Ao calcular medianas para uma série de variação de intervalo, primeiro determine o intervalo mediano dentro do qual a mediana está localizada e, em seguida, determine o valor da mediana usando a fórmula:

- — a mediana necessária

- - limite inferior do intervalo que contém a mediana

- — tamanho do intervalo

- — soma das frequências ou número de termos da série

Soma das frequências acumuladas dos intervalos anteriores à mediana

- — frequência do intervalo mediano

Exemplo. Encontre a moda e a mediana.

Solução:
EM neste exemplo o intervalo modal está dentro da faixa etária de 25 a 30 anos, pois esse intervalo é responsável pela maior frequência (1.054).

Vamos calcular a magnitude da moda:

Isso significa que a idade modal dos alunos é de 27 anos.

Vamos calcular a mediana. O intervalo mediano está em faixa etária 25-30 anos, pois dentro deste intervalo existe uma opção que divide a população em duas partes iguais (Σf i /2 = 3462/2 = 1731). A seguir, substituímos os dados numéricos necessários na fórmula e obtemos o valor da mediana:

Isto significa que metade dos alunos tem menos de 27,4 anos e a outra metade tem mais de 27,4 anos.

Além da moda e da mediana, podem ser utilizados indicadores como quartis, dividindo a série ordenada em 4 partes iguais, decis- 10 partes e percentis - por 100 partes.

O conceito de observação seletiva e seu alcance.

Observação seletiva aplica-se quando o uso de vigilância contínua fisicamente impossível devido a uma grande quantidade de dados ou não é economicamente viável. A impossibilidade física ocorre, por exemplo, ao estudar fluxos de passageiros, preços de mercado, orçamentos familiares. A inadequação econômica ocorre ao avaliar a qualidade dos bens associada à sua destruição, por exemplo, degustação, teste de resistência de tijolos, etc.

As unidades estatísticas selecionadas para observação constituem a base amostral ou amostra, e todo o seu conjunto constitui a população geral (GS). Neste caso, o número de unidades na amostra é denotado por n, e em todo o HS - N. Atitude n/N chamado de tamanho relativo ou proporção da amostra.

A qualidade dos resultados da observação amostral depende da representatividade da amostra, ou seja, do quão representativa ela é no SG. Para garantir a representatividade da amostra, é necessário cumprir princípio da seleção aleatória de unidades, que pressupõe que a inclusão de uma unidade de HS na amostra não pode ser influenciada por nenhum outro fator que não seja o acaso.

Existe 4 formas de seleção aleatória para provar:

  1. Na verdade aleatório seleção ou "método de loteria", quando são atribuídos valores estatísticos números de série, colocados em determinados objetos (por exemplo, barris), que são então misturados em algum recipiente (por exemplo, em um saco) e selecionados aleatoriamente. Na prática, este método é realizado por meio de um gerador números aleatórios ou tabelas matemáticas de números aleatórios.
  2. Mecânico seleção de acordo com a qual cada ( N/n)-ésimo valor da população geral. Por exemplo, se contiver 100.000 valores e você precisar selecionar 1.000, então cada 100.000/1000 = 100º valor será incluído na amostra. Além disso, se não forem classificados, o primeiro será selecionado aleatoriamente entre os primeiros cem, e os números dos demais serão cem maiores. Por exemplo, se a primeira unidade foi a nº 19, a próxima deverá ser a nº 119, depois a nº 219, depois a nº 319, etc. Se as unidades populacionais forem classificadas, então o número 50 será selecionado primeiro, depois o número 150, depois o número 250 e assim por diante.
  3. A seleção de valores de uma matriz de dados heterogênea é realizada estratificado método (estratificado), quando a população é primeiro dividida em grupos homogêneos aos quais é aplicada seleção aleatória ou mecânica.
  4. Um método de amostragem especial é serial seleção, na qual eles selecionam aleatória ou mecanicamente não valores individuais, mas suas séries (sequências de algum número a algum número consecutivo), dentro das quais é realizada uma observação contínua.

A qualidade das observações da amostra também depende tipo de amostra: repetido ou irrepetível.

No re-seleção Os valores estatísticos ou suas séries incluídos na amostra são devolvidos à população geral após utilização, tendo a chance de serem incluídos em uma nova amostra. Além disso, todos os valores da população têm a mesma probabilidade de inclusão na amostra.

Seleção sem repetição significa que os valores estatísticos ou suas séries incluídos na amostra não retornam à população em geral após o uso e, portanto, para os demais valores desta última a probabilidade de serem incluídos na próxima amostra aumenta.

A amostragem não repetitiva fornece resultados mais precisos, por isso é usada com mais frequência. Mas há situações em que não pode ser aplicado (estudo de fluxos de passageiros, demanda de consumo, etc.) e então é feita uma seleção repetida.

Erro máximo de amostragem de observação, erro médio de amostragem, procedimento para seu cálculo.

Consideremos detalhadamente os métodos de formação de uma população amostral listados acima e os erros que surgem ao fazê-lo. representatividade .
Adequadamente aleatório a amostragem baseia-se na seleção aleatória de unidades da população, sem quaisquer elementos sistemáticos. Tecnicamente, a seleção aleatória real é realizada por sorteio (por exemplo, loterias) ou por meio de uma tabela de números aleatórios.

Na verdade, seleção aleatória “em forma pura“na prática da observação seletiva raramente é utilizado, mas é o original entre outros tipos de seleção que implementa os princípios básicos da observação seletiva; Consideremos algumas questões da teoria do método de amostragem e da fórmula de erro para uma amostra aleatória simples.

Viés de amostragemé a diferença entre o valor do parâmetro na população geral e seu valor calculado a partir dos resultados da observação amostral. Para uma característica quantitativa média, o erro amostral é determinado por

O indicador é chamado de erro marginal de amostragem.
A média amostral é uma variável aleatória que pode levar significados diferentes dependendo de quais unidades foram incluídas na amostra. Portanto, os erros amostrais também são variáveis ​​aleatórias e podem assumir valores diferentes. Portanto, determine a média de possíveis erros - erro médio de amostragem, que depende de:

Tamanho da amostra: quanto maior o número, menor o erro médio;

O grau de alteração da característica em estudo: quanto menor for a variação da característica e, consequentemente, da dispersão, menor será o erro amostral médio.

No re-seleção aleatória o erro médio é calculado:
.
Praticamente variação geral não se sabe exatamente, mas teoria da probabilidade está provado que
.
Como o valor para n suficientemente grande é próximo de 1, podemos assumir que. Então o erro médio de amostragem pode ser calculado:
.
Mas em casos de uma amostra pequena (com n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

No amostragem aleatória não repetitiva as fórmulas fornecidas são ajustadas pelo valor. Então o erro médio de amostragem não repetitivo é:
E .
Porque é sempre menor, então o multiplicador () é sempre menor que 1. Isso significa que o erro médio durante a seleção não repetitiva é sempre menor do que durante a seleção repetida.
Amostragem mecânicaé usado quando a população em geral está ordenada de alguma forma (por exemplo, listas de eleitores em ordem alfabética, números de telefone, números de casas, números de apartamentos). A seleção das unidades é realizada em um determinado intervalo, que é igual ao inverso do percentual de amostragem. Assim, com uma amostra de 2%, cada 50 unidades = 1/0,02 é selecionada, com uma amostra de 5%, cada 1/0,05 = 20 unidades da população geral.

O ponto de referência é selecionado de diferentes maneiras: aleatoriamente, a partir do meio do intervalo, com mudança no ponto de referência. O principal é evitar erros sistemáticos. Por exemplo, com uma amostra de 5%, se a 13ª for escolhida como primeira unidade, então as próximas serão 33, 53, 73, etc.

Em termos de precisão, a seleção mecânica está próxima da amostragem aleatória real. Portanto, para determinar o erro médio da amostragem mecânica, são utilizadas fórmulas adequadas de seleção aleatória.

No seleção típica a população pesquisada é preliminarmente dividida em grupos homogêneos e semelhantes. Por exemplo, ao pesquisar empresas, estas podem ser indústrias, subsetores, quando se estuda a população, podem ser regiões, grupos sociais ou etários; Em seguida, uma seleção independente de cada grupo é feita mecanicamente ou de forma puramente aleatória.

A amostragem típica produz resultados mais precisos do que outros métodos. A digitação da população geral garante que cada grupo tipológico esteja representado na amostra, o que permite eliminar a influência da variância intergrupos no erro amostral médio. Conseqüentemente, ao encontrar o erro de uma amostra típica de acordo com a regra de adição de variâncias (), é necessário levar em consideração apenas a média das variâncias do grupo. Então o erro amostral médio é:
após a re-seleção
,
com seleção não repetitiva
,
Onde - a média das variações dentro do grupo na amostra.

Seleção serial (ou aninhada) utilizado quando a população é dividida em séries ou grupos antes do início do inquérito amostral. Essas séries podem ser embalagens de produtos acabados, grupos de estudantes, equipes. As séries para exame são selecionadas mecanicamente ou de forma puramente aleatória e, dentro das séries, é realizado um exame contínuo das unidades. Portanto, o erro amostral médio depende apenas da variância intergrupos (interséries), que é calculada pela fórmula:

onde r é o número de séries selecionadas;
- média da i-ésima série.

O erro médio de amostragem serial é calculado:

na re-seleção:
,
com seleção não repetitiva:
,
onde R é o número total de episódios.

Combinado seleçãoé uma combinação dos métodos de seleção considerados.

O erro amostral médio para qualquer método de amostragem depende principalmente do tamanho absoluto da amostra e, em menor grau, da percentagem da amostra. Suponhamos que sejam feitas 225 observações no primeiro caso a partir de uma população de 4.500 unidades e no segundo a partir de uma população de 225.000 unidades. As variâncias em ambos os casos são iguais a 25. Então, no primeiro caso, com uma seleção de 5%, o erro amostral será:

No segundo caso, com seleção de 0,1%, será igual a:


Por isso, com uma diminuição do percentual de amostragem em 50 vezes, o erro amostral aumentou ligeiramente, uma vez que o tamanho da amostra não mudou.
Vamos supor que o tamanho da amostra aumente para 625 observações. Neste caso, o erro amostral é:

Aumentar a amostra em 2,8 vezes com o mesmo tamanho populacional reduz o tamanho do erro amostral em mais de 1,6 vezes.

Métodos e métodos de formação de uma população amostral.

Na estatística, são utilizados vários métodos de formação de populações amostrais, que são determinados pelos objetivos do estudo e dependem das especificidades do objeto de estudo.

A principal condição para a realização de um inquérito por amostragem é evitar a ocorrência de erros sistemáticos que surjam em consequência da violação do princípio da igualdade de oportunidades para cada unidade da população geral a incluir na amostra. A prevenção de erros sistemáticos é alcançada através do uso de métodos com base científica para formar uma amostra populacional.

Existem os seguintes métodos para selecionar unidades da população:

1) seleção individual - são selecionadas unidades individuais para a amostra;

2) seleção de grupos - a amostra inclui grupos ou séries de unidades qualitativamente homogêneas em estudo;

3) a seleção combinada é uma combinação de seleção individual e de grupo.
Os métodos de seleção são determinados pelas regras de formação de uma população amostral.

A amostra poderia ser:

  • na verdade aleatório consiste no fato de que a população amostral é formada a partir da seleção aleatória (não intencional) de unidades individuais da população geral. Neste caso, o número de unidades selecionadas na população amostral é geralmente determinado com base na proporção amostral aceita. A proporção da amostra é a razão entre o número de unidades na população amostral n e o número de unidades na população geral N, ou seja,
  • mecânico consiste no fato de a seleção das unidades da população amostral ser feita a partir da população geral, dividida em intervalos iguais (grupos). Nesse caso, o tamanho do intervalo na população é igual ao inverso da proporção da amostra. Assim, com uma amostra de 2%, a cada 50 unidades é selecionada (1:0,02), com uma amostra de 5%, a cada 20 unidades (1:0,05), etc. Assim, de acordo com a proporção de selecção aceite, a população geral é, por assim dizer, mecanicamente dividida em grupos de igual tamanho. De cada grupo, apenas uma unidade é selecionada para a amostra.
  • típico - em que a população geral é primeiro dividida em grupos típicos homogêneos. Então, de cada grupo típico, uma amostra puramente aleatória ou mecânica é usada para selecionar individualmente unidades na população amostral. Uma característica importante de uma amostra típica é que ela fornece resultados mais precisos em comparação com outros métodos de seleção de unidades na população amostral;
  • serial- em que a população geral é dividida em grupos de igual tamanho - séries. As séries são selecionadas na população da amostra. Dentro da série é realizada observação contínua das unidades incluídas na série;
  • combinado- a amostragem pode ser em dois estágios. Neste caso, a população é primeiro dividida em grupos. Em seguida, os grupos são selecionados e, dentro destes, as unidades individuais são selecionadas.

Nas estatísticas, os seguintes métodos são diferenciados para selecionar unidades em uma amostra populacional::

  • estágio único amostragem - cada unidade selecionada é imediatamente estudada de acordo com um determinado critério (amostragem aleatória e seriada adequada);
  • multiestágio amostragem - uma seleção é feita a partir da população geral de grupos individuais, e unidades individuais são selecionadas a partir dos grupos (amostragem típica com um método mecânico de seleção de unidades na população amostral).

Além disso, existem:

  • re-seleção- de acordo com o esquema da bola devolvida. Nesse caso, cada unidade ou série incluída na amostra é devolvida à população geral e, portanto, tem chance de ser incluída novamente na amostra;
  • repetir seleção- de acordo com o esquema da bola não devolvida. Possui resultados mais precisos com o mesmo tamanho de amostra.

Determinar o tamanho da amostra necessário (usando uma tabela t de Student).

Um dos princípios científicos da teoria da amostragem é garantir que um número suficiente de unidades seja selecionado. Teoricamente, a necessidade de cumprimento deste princípio se apresenta nas provas dos teoremas do limite da teoria das probabilidades, que permitem estabelecer qual volume de unidades deve ser selecionado da população para que seja suficiente e garanta a representatividade da amostra.

Uma diminuição do erro amostral padrão e, portanto, um aumento na precisão da estimativa, está sempre associada a um aumento no tamanho da amostra, portanto, já na fase de organização da observação amostral, é necessário decidir qual o tamanho de a população da amostra deve ser a fim de garantir a precisão necessária dos resultados da observação. O cálculo do tamanho amostral necessário é construído por meio de fórmulas derivadas das fórmulas dos erros amostrais máximos (A), correspondentes a um determinado tipo e método de seleção. Portanto, para um tamanho de amostra aleatório repetido (n), temos:

A essência desta fórmula é que, com uma seleção aleatória repetida do número necessário, o tamanho da amostra é diretamente proporcional ao quadrado do coeficiente de confiança (t2) e variância da característica variacional (?2) e é inversamente proporcional ao quadrado do erro amostral máximo (?2). Em particular, com um aumento no erro máximo por um fator de dois, o tamanho da amostra necessário pode ser reduzido por um fator de quatro. Dos três parâmetros, dois (t e?) são definidos pelo pesquisador.

Ao mesmo tempo, o pesquisador, com base em A partir da finalidade e dos objetivos do inquérito por amostragem, a questão deve ser resolvida: em que combinação quantitativa é melhor incluir estes parâmetros para garantir a opção ótima? Num caso, ele pode ficar mais satisfeito com a confiabilidade dos resultados obtidos (t) do que com a medida de precisão (?), em outro - vice-versa. É mais difícil resolver a questão do valor do erro amostral máximo, uma vez que o pesquisador não possui esse indicador na fase de desenho da observação amostral, portanto na prática é costume definir o valor do erro amostral máximo, geralmente dentro de 10% do nível médio esperado do atributo. O estabelecimento da média estimada pode ser abordado de diferentes maneiras: utilizando dados de inquéritos semelhantes realizados anteriormente, ou utilizando dados da base de amostragem e conduzindo uma pequena amostra piloto.

A coisa mais difícil de estabelecer ao projetar uma observação amostral é o terceiro parâmetro na fórmula (5.2) - a dispersão da população amostral. Neste caso, é necessário utilizar todas as informações à disposição do pesquisador, obtidas em pesquisas semelhantes e piloto realizadas anteriormente.

Pergunta sobre definição o tamanho da amostra exigido torna-se mais complicado se o inquérito amostral envolver o estudo de diversas características das unidades amostrais. Neste caso, os níveis médios de cada uma das características e a sua variação, via de regra, são diferentes e, portanto, decidir qual a variância de qual das características dar preferência só é possível tendo em conta a finalidade e os objetivos do enquete.

Ao projetar uma observação amostral, um valor predeterminado do erro amostral permitido é assumido de acordo com os objetivos de um determinado estudo e a probabilidade de conclusões com base nos resultados da observação.

Em geral, a fórmula do erro máximo da média amostral permite determinar:

A magnitude dos possíveis desvios dos indicadores da população geral em relação aos indicadores da amostra da população;

O tamanho da amostra exigido, garantindo a precisão exigida, na qual os limites de possível erro não ultrapassarão um determinado valor especificado;

A probabilidade de que o erro na amostra tenha um limite especificado.

Distribuição de alunos na teoria das probabilidades, é uma família de um parâmetro de distribuições absolutamente contínuas.

Séries dinâmicas (intervalo, momento), fechando séries dinâmicas.

Série dinâmica- são os valores dos indicadores estatísticos que se apresentam numa determinada sequência cronológica.

Cada série temporal contém dois componentes:

1) indicadores de períodos de tempo (anos, trimestres, meses, dias ou datas);

2) indicadores que caracterizam o objeto em estudo por períodos de tempo ou em datas correspondentes, denominados níveis de série.

Os níveis da série são expressos valores absolutos e médios ou relativos. Dependendo da natureza dos indicadores, são construídas séries temporais de valores absolutos, relativos e médios. Séries dinâmicas de valores relativos e médios são construídas com base em séries derivadas de valores absolutos. Existem séries de dinâmicas de intervalo e momento.

Série de intervalo dinâmico contém valores de indicadores para determinados períodos de tempo. Numa série intervalar, os níveis podem ser somados para obter o volume do fenômeno em um período mais longo, ou os chamados totais acumulados.

Série de momentos dinâmicos reflete os valores dos indicadores em um determinado momento (data). Nas séries de momentos, o pesquisador pode estar interessado apenas na diferença de fenômenos que reflete a mudança no nível da série entre determinadas datas, uma vez que a soma dos níveis aqui não tem conteúdo real. Os totais acumulados não são calculados aqui.

A condição mais importante para a correta construção das séries temporais é a comparabilidade dos níveis das séries pertencentes a diferentes períodos. Os níveis devem ser apresentados em quantidades homogêneas e deve haver igual abrangência de cobertura das diferentes partes do fenômeno.

A fim de Para evitar distorções da dinâmica real, num estudo estatístico são realizados cálculos preliminares (fechamento da série dinâmica), que precedem a análise estatística da série temporal. O encerramento de séries dinâmicas é entendido como a combinação numa série de duas ou mais séries, cujos níveis são calculados com metodologia diferente ou não correspondem aos limites territoriais, etc. O fechamento das séries dinâmicas também pode implicar trazer os níveis absolutos das séries dinâmicas para uma base comum, o que neutraliza a incomparabilidade dos níveis das séries dinâmicas.

O conceito de comparabilidade de séries dinâmicas, coeficientes, crescimento e taxas de crescimento.

Série dinâmica— trata-se de uma série de indicadores estatísticos que caracterizam a evolução dos fenómenos naturais e sociais ao longo do tempo. As coleções estatísticas publicadas pelo Comitê Estatal de Estatística da Rússia contêm um grande número de séries dinâmicas em forma tabular. As séries dinâmicas permitem identificar padrões de desenvolvimento dos fenômenos em estudo.

As séries dinâmicas contêm dois tipos de indicadores. Indicadores de tempo(anos, trimestres, meses, etc.) ou momentos pontuais (no início do ano, no início de cada mês, etc.). Indicadores de nível de linha. Os indicadores dos níveis das séries dinâmicas podem ser expressos em valores absolutos (produção do produto em toneladas ou rublos), valores relativos ( gravidade específica população urbana em%) e valores médios (média remunerações trabalhadores da indústria por ano, etc.). Na forma tabular, uma série temporal contém duas colunas ou duas linhas.

A construção correta de séries temporais requer o cumprimento de uma série de requisitos:

  1. todos os indicadores de uma série de dinâmicas devem ser cientificamente fundamentados e confiáveis;
  2. os indicadores de uma série de dinâmicas devem ser comparáveis ​​ao longo do tempo, ou seja, devem ser calculados para os mesmos períodos ou nas mesmas datas;
  3. os indicadores de uma série de dinâmicas devem ser comparáveis ​​em todo o território;
  4. os indicadores de uma série de dinâmicas devem ser comparáveis ​​​​em conteúdo, ou seja, calculado segundo uma metodologia única, da mesma forma;
  5. os indicadores de uma série de dinâmicas devem ser comparáveis ​​em toda a gama de explorações consideradas. Todos os indicadores de uma série de dinâmicas devem ser dados nas mesmas unidades de medida.

Indicadores estatísticos pode caracterizar os resultados do processo que está sendo estudado durante um período de tempo ou o estado do fenômeno que está sendo estudado em um determinado momento, ou seja, os indicadores podem ser intervalares (periódicos) e momentâneos. Assim, inicialmente as séries dinâmicas podem ser intervalares ou momentâneas. As séries dinâmicas de momentos, por sua vez, podem ser com intervalos de tempo iguais ou desiguais.

A série inicial de dinâmicas pode ser transformada em uma série de valores médios e em uma série de valores relativos (em cadeia e básicos). Essas séries temporais são chamadas de séries temporais derivadas.

A metodologia de cálculo do nível médio nas séries dinâmicas é diferente, dependendo do tipo de série dinâmica. Usando exemplos, consideraremos os tipos de séries dinâmicas e fórmulas para cálculo do nível médio.

Aumentos absolutos (Δy) mostram quantas unidades o nível subsequente da série mudou em comparação com o anterior (gr. 3. - aumentos absolutos em cadeia) ou em comparação com o nível inicial (gr. 4. - aumentos absolutos básicos). As fórmulas de cálculo podem ser escritas da seguinte forma:

Quando os valores absolutos da série diminuem, haverá uma “diminuição” ou “diminuição”, respectivamente.

Os indicadores de crescimento absoluto indicam que, por exemplo, em 1998, a produção do produto “A” aumentou 4 mil toneladas face a 1997, e 34 mil toneladas face a 1994; para os demais anos, ver tabela. 11,5 gr. 3 e 4.

Taxa de crescimento mostra quantas vezes o nível da série mudou em relação ao anterior (gr. 5 - coeficientes de crescimento ou declínio em cadeia) ou em relação ao nível inicial (gr. 6 - coeficientes básicos de crescimento ou declínio). As fórmulas de cálculo podem ser escritas da seguinte forma:

Taxa de crescimento mostrar qual a porcentagem do próximo nível da série em relação ao anterior (gr. 7 - taxas de crescimento em cadeia) ou comparado ao nível inicial (gr. 8 - taxas básicas de crescimento). As fórmulas de cálculo podem ser escritas da seguinte forma:

Assim, por exemplo, em 1997, o volume de produção do produto “A” em relação a 1996 foi de 105,5% (

Taxa de crescimento mostrar em que porcentagem o nível do período coberto pelo relatório aumentou em relação ao anterior (coluna 9 - taxas de crescimento em cadeia) ou em relação ao nível inicial (coluna 10 - taxas básicas de crescimento). As fórmulas de cálculo podem ser escritas da seguinte forma:

T pr = T r - 100% ou T pr = crescimento absoluto/nível do período anterior * 100%

Assim, por exemplo, em 1996, em comparação com 1995, o produto “A” foi produzido em 3,8% (103,8% - 100%) ou (8:210)x100% mais, e em comparação com 1994 - em 9% (109% - 100%).

Se os níveis absolutos da série diminuírem, então a taxa será inferior a 100% e, consequentemente, haverá uma taxa de declínio (a taxa de aumento com sinal negativo).

Valor absoluto de aumento de 1%(coluna 11) mostra quantas unidades devem ser produzidas em um determinado período para que o nível do período anterior aumente 1%. No nosso exemplo, em 1995 foi necessário produzir 2,0 mil toneladas, e em 1998 - 2,3 mil toneladas, ou seja, muito mais.

O valor absoluto do crescimento de 1% pode ser determinado de duas maneiras:

O nível do período anterior é dividido por 100;

Divida os aumentos absolutos da cadeia pelas taxas de crescimento da cadeia correspondentes.

Valor absoluto de aumento de 1% =

Na dinâmica, especialmente durante um longo período, é importante uma análise conjunta da taxa de crescimento com o conteúdo de cada aumento ou diminuição percentual.

Observe que a metodologia considerada para análise de séries temporais é aplicável tanto para séries temporais, cujos níveis são expressos em valores absolutos (t, mil rublos, número de funcionários, etc.), quanto para séries temporais, cujos níveis são são expressos em indicadores relativos (% de defeitos, % teor de cinzas do carvão, etc.) ou valores médios (rendimento médio em c/ha, salário médio, etc.).

Juntamente com os indicadores analíticos considerados, calculados para cada ano em comparação com o nível anterior ou inicial, na análise das séries dinâmicas, é necessário calcular os indicadores analíticos médios do período: o nível médio da série, o aumento absoluto médio anual (diminuição) e a taxa média anual de crescimento e taxa de crescimento.

Os métodos para calcular o nível médio de uma série de dinâmicas foram discutidos acima. Nas séries de dinâmica intervalar que estamos considerando, o nível médio da série é calculado usando a fórmula da média aritmética simples:

Volume médio anual de produção do produto no período 1994-1998. totalizou 218,4 mil toneladas.

O crescimento absoluto médio anual também é calculado usando a fórmula da média aritmética simples:

Os aumentos absolutos anuais variaram ao longo dos anos de 4 a 12 mil toneladas (ver coluna 3), e o aumento médio anual na produção para o período 1995-1998. totalizou 8,5 mil toneladas.

Os métodos para calcular a taxa média de crescimento e a taxa média de crescimento requerem uma consideração mais detalhada. Vamos considerá-los usando o exemplo dos indicadores de nível das séries anuais apresentados na tabela.

Nível médio da série dinâmica.

Série dinâmica (ou série temporal)- estes são os valores numéricos de um determinado indicador estatístico em momentos ou períodos de tempo sucessivos (ou seja, organizados em ordem cronológica).

Os valores numéricos de um ou outro indicador estatístico que compõe a série dinâmica são chamados níveis de série e geralmente é denotado pela letra sim. Primeiro termo da série e 1 chamado inicial ou nível básico, e o último sim - final. Os momentos ou períodos de tempo a que os níveis se referem são designados por t.

As séries dinâmicas são geralmente apresentadas na forma de uma tabela ou gráfico, e uma escala de tempo é construída ao longo do eixo das abcissas t, e ao longo do eixo das ordenadas - a escala dos níveis da série sim.

Indicadores médios da série dinâmica

Cada série de dinâmicas pode ser considerada como um determinado conjunto n indicadores variantes no tempo que podem ser resumidos como médias. Tais indicadores generalizados (médios) são especialmente necessários ao comparar mudanças num determinado indicador durante diferentes períodos, em diferentes países, etc.

Uma característica generalizada das séries dinâmicas pode servir, em primeiro lugar, nível da linha do meio. O método de cálculo do nível médio depende se a série é momentânea ou intervalar (periódica).

Em caso intervalo de uma série, seu nível médio é determinado pela fórmula de uma média aritmética simples dos níveis da série, ou seja,

=
Se disponível momento linha contendo n níveis ( y1, y2,…, yn) com intervalos iguais entre datas (horas), então tal série pode ser facilmente convertida em uma série de valores médios. Neste caso, o indicador (nível) do início de cada período é simultaneamente o indicador do final do período anterior. Então o valor médio do indicador para cada período (intervalo entre as datas) pode ser calculado como metade da soma dos valores no no início e no final do período, ou seja, Como . O número dessas médias será . Conforme afirmado anteriormente, para séries de valores médios, o nível médio é calculado utilizando a média aritmética.

Portanto, podemos escrever:
.
Depois de transformar o numerador obtemos:
,

Onde A1 E Sim— primeiro e último níveis da linha; Sim— níveis intermediários.

Essa média é conhecida nas estatísticas como média cronológica para séries de momentos. Recebeu o nome da palavra “cronos” (tempo, latim), pois é calculado a partir de indicadores que mudam ao longo do tempo.

Em caso de desigualdade intervalos entre datas, a média cronológica para uma série de momentos pode ser calculada como a média aritmética dos valores médios dos níveis para cada par de momentos, ponderados pelas distâncias (intervalos de tempo) entre as datas, ou seja,
.
Nesse caso presume-se que nos intervalos entre as datas os níveis assumiram valores diferentes, e somos um dos dois conhecidos ( sim E sim+1) determinamos as médias, a partir das quais calculamos a média geral de todo o período analisado.
Se for assumido que cada valor sim permanece inalterado até o próximo (eu + 1)- o momento, ou seja, Se a data exata da mudança nos níveis for conhecida, o cálculo pode ser realizado usando a fórmula da média aritmética ponderada:
,

onde é o tempo durante o qual o nível permaneceu inalterado.

Além do nível médio da série dinâmica, são calculados outros indicadores médios - a variação média dos níveis da série (métodos básico e em cadeia), a taxa média de variação.

Linha de base significa mudança absolutaé o quociente da última alteração absoluta subjacente dividido pelo número de alterações. Aquilo é

Cadeia significa mudança absoluta níveis da série é o quociente da divisão da soma de todas as mudanças absolutas da cadeia pelo número de mudanças, ou seja

O sinal das mudanças médias absolutas também é usado para julgar a natureza da mudança em um fenômeno em média: crescimento, declínio ou estabilidade.

Da regra para controlar as mudanças absolutas básicas e em cadeia, segue-se que as mudanças médias básicas e em cadeia devem ser iguais.

Juntamente com a variação média absoluta, a média relativa também é calculada usando os métodos básico e em cadeia.

Mudança relativa média da linha de base determinado pela fórmula:

Mudança relativa média da cadeia determinado pela fórmula:

Naturalmente, as variações relativas médias básicas e em cadeia devem ser iguais e, comparando-as com o valor do critério 1, chega-se à conclusão sobre a natureza da alteração do fenómeno em média: crescimento, declínio ou estabilidade.
Ao subtrair 1 da variação relativa da média básica ou da cadeia, o valor correspondente taxa média de mudança, por cujo sinal também se pode julgar a natureza da mudança no fenômeno em estudo, refletida por esta série de dinâmicas.

Flutuações sazonais e índices de sazonalidade.

As flutuações sazonais são flutuações intra-anuais estáveis.

O princípio básico da gestão para obter o efeito máximo é maximizar as receitas e minimizar os custos. Ao estudar as flutuações sazonais, o problema da equação máxima é resolvido em cada nível do ano.

Ao estudar as flutuações sazonais, dois problemas inter-relacionados são resolvidos:

1. Identificação das especificidades do desenvolvimento do fenómeno na dinâmica intra-anual;

2. Medir as flutuações sazonais com a construção de um modelo de ondas sazonais;

Para medir a variação sazonal, geralmente são contados os perus sazonais. Em geral, são determinadas pela razão entre as equações iniciais das séries dinâmicas e as equações teóricas, que servem de base de comparação.

Como os desvios aleatórios se sobrepõem às flutuações sazonais, é calculada a média dos índices de sazonalidade para eliminá-los.

Neste caso, para cada período do ciclo anual, são determinados indicadores generalizados na forma de índices sazonais médios:

Os índices médios de flutuação sazonal estão livres da influência de desvios aleatórios da principal tendência de desenvolvimento.

Dependendo da natureza da tendência, a fórmula do índice médio de sazonalidade pode assumir as seguintes formas:

1.Para séries de dinâmicas intra-anuais com uma tendência principal de desenvolvimento claramente expressa:

2. Para séries de dinâmica intra-anual em que não há tendência crescente ou decrescente ou é insignificante:

Onde está a média geral;

Métodos de análise da tendência principal.

O desenvolvimento dos fenômenos ao longo do tempo é influenciado por fatores de diferentes naturezas e forças de influência. Alguns deles são de natureza aleatória, outros têm um impacto quase constante e formam uma certa tendência de desenvolvimento na dinâmica.

Uma tarefa importante das estatísticas é identificar a dinâmica das tendências nas séries, livres da influência de vários fatores aleatórios. Para tanto, as séries temporais são processadas pelos métodos de ampliação de intervalos, média móvel e nivelamento analítico, etc.

Método de ampliação de intervalo baseia-se na ampliação de períodos de tempo, que incluem os níveis de uma série de dinâmicas, ou seja, é a substituição de dados relativos a pequenos períodos de tempo por dados de períodos maiores. É especialmente eficaz quando os níveis iniciais da série referem-se a curtos períodos de tempo. Por exemplo, séries de indicadores relacionados a eventos diários são substituídas por séries relacionadas a eventos semanais, mensais, etc. Isso mostrará mais claramente “eixo de desenvolvimento do fenômeno”. A média, calculada em intervalos alargados, permite identificar a direção e a natureza (aceleração ou desaceleração do crescimento) da principal tendência de desenvolvimento.

Método de média móvel semelhante ao anterior, mas neste caso os níveis reais são substituídos por níveis médios calculados para intervalos ampliados em movimento sequencial (deslizante) cobrindo eu níveis de série.

Por exemplo, se aceitarmos m=3, então, primeiro é calculada a média dos três primeiros níveis da série, depois - a partir do mesmo número de níveis, mas a partir do segundo, depois - a partir do terceiro, etc. Assim, a média “desliza” ao longo da série dinâmica, movendo-se um termo. Calculado a partir de eu membros, as médias móveis referem-se ao meio (centro) de cada intervalo.

Este método elimina apenas flutuações aleatórias. Se a série tiver uma onda sazonal, ela persistirá mesmo após a suavização pelo método da média móvel.

Alinhamento analítico. Para eliminar flutuações aleatórias e identificar uma tendência, utiliza-se o nivelamento dos níveis das séries por meio de fórmulas analíticas (ou nivelamento analítico). Sua essência é substituir os níveis empíricos (reais) pelos teóricos, que são calculados a partir de uma determinada equação adotada como modelo matemático de tendência, onde os níveis teóricos são considerados em função do tempo: . Neste caso, cada nível real é considerado como a soma de dois componentes: , onde é um componente sistemático e expresso por uma determinada equação, e é uma variável aleatória que provoca flutuações em torno da tendência.

A tarefa do alinhamento analítico se resume ao seguinte:

1. Determinação, com base em dados reais, do tipo de função hipotética que mais adequadamente pode refletir a tendência de desenvolvimento do indicador em estudo.

2. Encontrar os parâmetros da função especificada (equação) a partir de dados empíricos

3. Cálculo usando a equação encontrada de níveis teóricos (alinhados).

A escolha de uma determinada função é feita, via de regra, com base em uma representação gráfica de dados empíricos.

Os modelos são equações de regressão cujos parâmetros são calculados pelo método dos mínimos quadrados

Abaixo estão as equações de regressão mais comumente usadas para alinhar séries temporais, indicando quais tendências de desenvolvimento elas são mais adequadas para refletir.

Para encontrar os parâmetros das equações acima, existem algoritmos especiais e programas de computador. Em particular, para encontrar os parâmetros de uma equação linear, o seguinte algoritmo pode ser usado:

Se os períodos ou momentos de tempo forem numerados de forma que St = 0, então os algoritmos acima serão significativamente simplificados e se transformarão em

Os níveis alinhados no gráfico estarão localizados em uma linha reta, passando o mais próximo possível dos níveis reais desta série dinâmica. A soma dos desvios quadrados é um reflexo da influência de fatores aleatórios.

Usando-o, calculamos o erro médio (padrão) da equação:

Aqui n é o número de observações e m é o número de parâmetros na equação (temos dois deles - b 1 e b 0).

A tendência principal (tendência) mostra como os fatores sistemáticos influenciam os níveis de uma série de dinâmicas, e a flutuação dos níveis em torno da tendência () serve como medida da influência dos fatores residuais.

Para avaliar a qualidade do modelo de série temporal utilizado, também é utilizado Teste F de Fisher. É a razão entre duas variâncias, ou seja, a razão entre a variância causada pela regressão, ou seja, o fator em estudo, à variância causada por razões aleatórias, ou seja, dispersão residual:

De forma ampliada, a fórmula para este critério pode ser apresentada da seguinte forma:

onde n é o número de observações, ou seja, número de níveis de linha,

m é o número de parâmetros na equação, y é o nível real da série,

Nível de linha alinhado - nível de linha intermediária.

Um modelo que é mais bem sucedido do que outros pode nem sempre ser suficientemente satisfatório. Só pode ser reconhecido como tal no caso em que o seu critério F ultrapassa o limite crítico conhecido. Este limite é estabelecido usando tabelas de distribuição F.

Essência e classificação dos índices.

Nas estatísticas, um índice é entendido como um indicador relativo que caracteriza a mudança na magnitude de um fenômeno no tempo, no espaço ou em comparação com qualquer padrão.

O elemento principal da relação de índice é o valor indexado. Entende-se por valor indexado o valor de uma característica de uma população estatística, cuja alteração é objeto de estudo.

Usando índices, três tarefas principais são resolvidas:

1) avaliação das mudanças em um fenômeno complexo;

2) determinar a influência de fatores individuais nas mudanças de um fenômeno complexo;

3) comparação da magnitude de um fenômeno com a magnitude do período passado, a magnitude de outro território, bem como com padrões, planos e previsões.

Os índices são classificados de acordo com 3 critérios:

2) de acordo com o grau de cobertura dos elementos da população;

3) de acordo com métodos de cálculo de índices gerais.

Por conteúdo quantidades indexadas, os índices são divididos em índices de indicadores quantitativos (de volume) e índices de indicadores qualitativos. Índices de indicadores quantitativos - índices de volume físico de produtos industriais, volume físico de vendas, número de funcionários, etc. Índices de indicadores qualitativos - índices de preços, custos, produtividade do trabalho, salários médios, etc.

De acordo com o grau de cobertura das unidades populacionais, os índices são divididos em duas classes: individuais e gerais. Para caracterizá-los, apresentamos as seguintes convenções adotadas na prática de utilização do método de índice:

q- quantidade (volume) de qualquer produto em termos físicos ; R- preço unitário; z- custo unitário de produção; t— tempo gasto na produção de uma unidade de produto (intensidade de trabalho) ; c- produção de produtos em termos de valor por unidade de tempo; v- produção em termos físicos por unidade de tempo; T— tempo total gasto ou número de funcionários.

Para distinguir a qual período ou objeto pertencem os valores indexados, costuma-se colocar subscritos no canto inferior direito do símbolo correspondente. Assim, por exemplo, em índices dinâmicos, via de regra, o subscrito 1 é utilizado para os períodos comparados (corrente, reporte) e para os períodos com os quais a comparação é feita,

Índices individuais servem para caracterizar mudanças em elementos individuais de um fenômeno complexo (por exemplo, uma mudança no volume de produção de um tipo de produto). Representam valores relativos de dinâmica, cumprimento de obrigações, comparação de valores indexados.

O índice individual do volume físico dos produtos é determinado

Do ponto de vista analítico, os índices de dinâmica individual dados são semelhantes aos coeficientes (taxas) de crescimento e caracterizam a variação do valor indexado no período atual em relação ao período base, ou seja, mostram quantas vezes aumentou (diminuiu) ou qual a porcentagem de crescimento (diminuição). Os valores dos índices são expressos em coeficientes ou porcentagens.

Índice geral (composto) reflete mudanças em todos os elementos de um fenômeno complexo.

Índice agregadoé a forma básica de um índice. É chamado agregado porque seu numerador e denominador são um conjunto de “agregados”

Índices médios, sua definição.

Além dos índices agregados, outra forma deles é usada nas estatísticas - índices de média ponderada. Recorre-se ao seu cálculo quando a informação disponível não permite calcular o índice agregado geral. Assim, se não há dados sobre preços, mas há informações sobre o custo dos produtos no período atual e são conhecidos os índices de preços individuais de cada produto, então o índice geral de preços não pode ser determinado de forma agregada, mas é possível calculá-lo como a média dos indivíduos. Da mesma forma, se as quantidades de tipos individuais de produtos produzidos não forem conhecidas, mas os índices individuais e o custo de produção do período base forem conhecidos, então o índice geral do volume físico de produção pode ser determinado como uma média ponderada valor.

Índice médio - Esse um índice calculado como a média dos índices individuais. Um índice agregado é a forma básica de um índice geral, portanto o índice médio deve ser idêntico ao índice agregado. Ao calcular índices médios, são utilizadas duas formas de médias: aritmética e harmônica.

O índice de média aritmética é idêntico ao índice agregado se os pesos dos índices individuais forem os termos do denominador do índice agregado. Somente neste caso o valor do índice calculado pela fórmula da média aritmética será igual ao índice agregado.

Expectativa e variação

Vamos medir uma variável aleatória N vezes, por exemplo, medimos a velocidade do vento dez vezes e queremos encontrar o valor médio. Como o valor médio está relacionado à função de distribuição?

Jogaremos os dados um grande número de vezes. O número de pontos que aparecerão nos dados a cada lançamento é uma variável aleatória e pode assumir qualquer valor natural de 1 a 6. A média aritmética dos pontos perdidos calculada para todos os lançamentos de dados também é uma variável aleatória, mas para grandes N tende para um número muito específico - expectativa matemática M x. Nesse caso M x = 3,5.

Como você conseguiu esse valor? Deixe entrar N testes, depois de obter 1 ponto, depois de obter 2 pontos e assim por diante. Então quando N→ ∞ número de resultados em que um ponto foi lançado, Da mesma forma, portanto

Modelo 4.5. Dados

Vamos agora supor que conhecemos a lei de distribuição da variável aleatória x, ou seja, sabemos que a variável aleatória x pode assumir valores x 1 , x 2 , ..., x k com probabilidades p 1 , p 2 , ..., pk.

Expectativa M x variável aleatória xé igual a:

Responder. 2,8.

A expectativa matemática nem sempre é uma estimativa razoável de alguma variável aleatória. Assim, para estimar o salário médio, é mais razoável utilizar o conceito de mediana, ou seja, um valor tal que coincida o número de pessoas que recebem um salário inferior à mediana e um superior.

Mediana variável aleatória é chamada de número x 1/2 é tal que p (x < x 1/2) = 1/2.

Em outras palavras, a probabilidade p 1 que a variável aleatória x será menor x 1/2 e probabilidade p 2 que a variável aleatória x será maior x 1/2 são idênticos e iguais a 1/2. A mediana não é determinada exclusivamente para todas as distribuições.

Vamos voltar para a variável aleatória x, que pode assumir valores x 1 , x 2 , ..., x k com probabilidades p 1 , p 2 , ..., pk.

Variância variável aleatória x O valor médio do desvio quadrático de uma variável aleatória de sua expectativa matemática é chamado:

Exemplo 2

Nas condições do exemplo anterior, calcule a variância e o desvio padrão da variável aleatória x.

Responder. 0,16, 0,4.

Modelo 4.6. Atirando em um alvo

Exemplo 3

Encontre a distribuição de probabilidade do número de pontos que aparecem nos dados no primeiro lançamento, a mediana, a expectativa matemática, a variância e o desvio padrão.

Qualquer aresta tem a mesma probabilidade de cair, então a distribuição ficará assim:

Desvio padrão Percebe-se que o desvio do valor em relação ao valor médio é muito grande.

Propriedades da expectativa matemática:

  • A expectativa matemática da soma das variáveis ​​​​aleatórias independentes é igual à soma de suas expectativas matemáticas:

Exemplo 4

Encontre a expectativa matemática da soma e do produto dos pontos lançados em dois dados.

No exemplo 3 descobrimos que para um cubo M (x) = 3,5. Então, para dois cubos

Propriedades de dispersão:

  • A variância da soma das variáveis ​​​​aleatórias independentes é igual à soma das variâncias:

Dx + sim = Dx + Dy.

Deixe por N rola nos dados rolados sim pontos. Então

Este resultado é verdadeiro não apenas para lançamentos de dados. Em muitos casos, determina a precisão da medição empírica da expectativa matemática. Pode-se perceber que com o aumento do número de medições N a dispersão dos valores em torno da média, ou seja, o desvio padrão, diminui proporcionalmente

A variância de uma variável aleatória está relacionada com a expectativa matemática do quadrado desta variável aleatória pela seguinte relação:

Vamos encontrar as expectativas matemáticas de ambos os lados desta igualdade. Por definição,

A expectativa matemática do lado direito da igualdade, de acordo com a propriedade das expectativas matemáticas, é igual a

Desvio padrão

Desvio padrão igual à raiz quadrada da variância:
Ao determinar o desvio padrão para um volume suficientemente grande da população em estudo (n > 30), são utilizadas as seguintes fórmulas:

Informações relacionadas.


A raiz quadrada da variância é chamada de desvio padrão da média, que é calculado da seguinte forma:

Uma transformação algébrica elementar da fórmula do desvio padrão leva-a à seguinte forma:

Esta fórmula muitas vezes acaba sendo mais conveniente na prática de cálculo.

O desvio padrão, assim como o desvio linear médio, mostra o quanto, em média, os valores específicos de uma característica se desviam de seu valor médio. O desvio padrão é sempre maior que o desvio linear médio. Existe a seguinte relação entre eles:

Conhecendo essa relação, você pode usar os indicadores conhecidos para determinar o desconhecido, por exemplo, mas (EU calcule a e vice-versa. O desvio padrão mede o tamanho absoluto da variabilidade de uma característica e é expresso nas mesmas unidades de medida que os valores da característica (rublos, toneladas, anos, etc.). É uma medida absoluta de variação.

Para sinais alternativos, por exemplo presença ou ausência ensino superior, as fórmulas de seguro, dispersão e desvio padrão são as seguintes:

Mostremos o cálculo do desvio padrão de acordo com os dados de uma série discreta que caracteriza a distribuição dos alunos de uma das faculdades da universidade por idade (Tabela 6.2).

Tabela 6.2.

Os resultados dos cálculos auxiliares são apresentados nas colunas 2 a 5 da tabela. 6.2.

A idade média de um aluno, anos, é determinada pela fórmula da média aritmética ponderada (coluna 2):

Os desvios quadrados da idade individual do aluno em relação à média estão contidos nas colunas 3-4, e os produtos dos desvios quadrados e as frequências correspondentes estão contidos na coluna 5.

Encontramos a variância da idade dos alunos, anos, usando a fórmula (6.2):

Então o = l/3,43 1,85 *oda, ou seja, Cada valor específico da idade de um aluno se desvia da média em 1,85 anos.

Coeficiente de variação

No seu valor absoluto, o desvio padrão depende não só do grau de variação da característica, mas também dos níveis absolutos das opções e da média. Portanto, é impossível comparar diretamente os desvios-padrão das séries de variação com diferentes níveis médios. Para poder fazer tal comparação, é necessário encontrar a participação do desvio médio (linear ou quadrático) na média aritmética, expressa em porcentagem, ou seja, calcular medidas relativas de variação.

Coeficiente de variação linear calculado pela fórmula

Coeficiente de variação determinado pela seguinte fórmula:

Nos coeficientes de variação, elimina-se não só a incomparabilidade associada às diferentes unidades de medida da característica em estudo, mas também a incomparabilidade que surge devido às diferenças no valor das médias aritméticas. Além disso, os indicadores de variação caracterizam a homogeneidade da população. A população é considerada homogênea se o coeficiente de variação não ultrapassar 33%.

De acordo com a tabela. 6.2 e os resultados dos cálculos obtidos acima, determinamos o coeficiente de variação, %, conforme fórmula (6.3):

Se o coeficiente de variação ultrapassar 33%, isso indica a heterogeneidade da população estudada. O valor obtido no nosso caso indica que a população de alunos por idade é homogênea em composição. Assim, uma função importante da generalização dos indicadores de variação é avaliar a confiabilidade das médias. Quanto menos c1, a2 e V, quanto mais homogêneo for o conjunto de fenômenos resultante e mais confiável for a média resultante. De acordo com a “regra dos três sigma” considerada pela estatística matemática, em séries normalmente distribuídas ou próximas a elas, desvios da média aritmética não superiores a ±3 ocorrem em 997 casos em 1000. Assim, sabendo X e a, você pode ter uma ideia inicial geral da série de variações. Se, por exemplo, o salário médio de um funcionário de uma empresa for 25.000 rublos e a for igual a 100 rublos, então com uma probabilidade próxima da certeza, podemos dizer que os salários dos funcionários da empresa flutuam dentro da faixa (25.000 ± ± 3 x 100), ou seja, de 24.700 a 25.300 rublos.

Para calcular a média geométrica simples, utiliza-se a fórmula:

Ponderação geométrica

Para determinar a média geométrica ponderada, é utilizada a fórmula:

Os diâmetros médios das rodas, tubos e os lados médios dos quadrados são determinados usando o quadrado médio.

Os valores da raiz quadrada média são utilizados para calcular alguns indicadores, por exemplo, o coeficiente de variação, que caracteriza o ritmo de produção. Aqui, o desvio padrão da produção planejada para um determinado período é determinado usando a seguinte fórmula:

Estes valores caracterizam com precisão a variação dos indicadores económicos face ao seu valor base, tomado no seu valor médio.

Quadrático simples

A raiz quadrada média é calculada usando a fórmula:

Ponderada quadrática

O quadrado médio ponderado é igual a:

22. Os indicadores absolutos de variação incluem:

faixa de variação

desvio linear médio

dispersão

desvio padrão

Faixa de variação (r)

Faixa de variação- é a diferença entre os valores máximo e mínimo do atributo

Mostra os limites dentro dos quais o valor de uma característica muda na população em estudo.

A experiência profissional dos cinco candidatos em trabalhos anteriores é: 2,3,4,7 e 9 anos. Solução: faixa de variação = 9 - 2 = 7 anos.

Para uma descrição generalizada das diferenças nos valores dos atributos, os indicadores de variação média são calculados com base nos desvios da média aritmética. A diferença é considerada um desvio da média.

Neste caso, para evitar que a soma dos desvios das variantes de uma característica da média chegue a zero (propriedade zero da média), deve-se ignorar os sinais do desvio, ou seja, tomar esta soma módulo, ou eleve ao quadrado os valores do desvio

Desvio médio linear e quadrado

Desvio linear médioé a média aritmética dos desvios absolutos dos valores individuais de uma característica em relação à média.

O desvio linear médio é simples:

A experiência profissional dos cinco candidatos em trabalhos anteriores é: 2,3,4,7 e 9 anos.

No nosso exemplo: anos;

Resposta: 2,4 anos.

Desvio linear médio ponderado aplica-se a dados agrupados:

Devido à sua convenção, o desvio linear médio é utilizado na prática relativamente raramente (nomeadamente, para caracterizar o cumprimento das obrigações contratuais relativas à uniformidade de entrega; na análise da qualidade do produto, tendo em conta as características tecnológicas de produção).

Desvio padrão

A característica mais perfeita da variação é o desvio quadrático médio, chamado padrão (ou desvio padrão). Desvio padrão() é igual à raiz quadrada do desvio quadrático médio dos valores individuais da característica média aritmética:

O desvio padrão é simples:

O desvio padrão ponderado é aplicado aos dados agrupados:

A seguinte relação ocorre entre o quadrado médio e os desvios lineares médios em condições de distribuição normal: ~ 1,25.

O desvio padrão, sendo a principal medida absoluta de variação, é utilizado na determinação dos valores ordenados de uma curva de distribuição normal, nos cálculos relacionados à organização da observação da amostra e no estabelecimento da precisão das características da amostra, bem como na avaliação do limites de variação de uma característica em uma população homogênea.

X eu - variáveis ​​aleatórias (atuais);

o valor médio das variáveis ​​​​aleatórias da amostra é calculado pela fórmula:

Então, variância é o quadrado médio dos desvios . Ou seja, o valor médio é primeiro calculado e depois obtido a diferença entre cada valor original e médio é elevada ao quadrado , é somado e depois dividido pelo número de valores da população.

A diferença entre um valor individual e a média reflete a medida do desvio. Elevado ao quadrado de modo que todos os desvios se tornem exclusivamente números positivos e evitar a destruição mútua de desvios positivos e negativos ao resumi-los. Então, dados os desvios quadrados, simplesmente calculamos a média aritmética.

Solução palavra mágica“dispersão” consiste apenas nestas três palavras: desvios médios – quadrados.

Desvio padrão (MSD)

Tirando a raiz quadrada da variância, obtemos o chamado “ desvio padrão". Existem nomes "desvio padrão" ou "sigma" (do nome da letra grega σ .). A fórmula para o desvio padrão é:

Então, a dispersão é sigma ao quadrado ou é o desvio padrão ao quadrado.

O desvio padrão, obviamente, também caracteriza a medida de dispersão dos dados, mas agora (ao contrário da dispersão) pode ser comparado com os dados originais, uma vez que possuem as mesmas unidades de medida (isso fica claro na fórmula de cálculo). A faixa de variação é a diferença entre valores extremos. O desvio padrão, como medida de incerteza, também está envolvido em muitos cálculos estatísticos. Com sua ajuda, é determinado o grau de precisão de várias estimativas e previsões. Se a variação for muito grande, então o desvio padrão também será grande e, portanto, a previsão será imprecisa, o que será expresso, por exemplo, em intervalos de confiança muito amplos.

Portanto, nos métodos de processamento estatístico de dados em avaliações imobiliárias, dependendo da precisão exigida da tarefa, é utilizada a regra de dois ou três sigma.

Para comparar a regra dos dois sigma e a regra dos três sigma, usamos a fórmula de Laplace:

F-F,

onde Ф(x) é a função de Laplace;



Valor mínimo

β = valor máximo

s = valor sigma (desvio padrão)

a = média

Neste caso é usado visualização privada Fórmula de Laplace quando os limites α e β dos valores da variável aleatória X são igualmente espaçados do centro da distribuição a = M(X) por um certo valor d: a = a-d, b = a+d. Ou (1) A fórmula (1) determina a probabilidade de um determinado desvio d de uma variável aleatória X com uma lei de distribuição normal a partir de sua expectativa matemática M(X) = a.

Se na fórmula (1) tomarmos sequencialmente d = 2s e d = 3s, obtemos: (2), (3).

Regra de dois sigma

Pode ser quase confiável (com uma probabilidade de confiança de 0,954) que todos os valores de uma variável aleatória X com uma lei de distribuição normal se desviem de sua expectativa matemática M(X) = a por um valor não superior a 2s (dois desvios padrão ). Probabilidade de confiança (Pd) é a probabilidade de eventos que são convencionalmente aceitos como confiáveis ​​(sua probabilidade é próxima de 1).

Vamos ilustrar a regra dos dois sigmas geometricamente. Na Fig. A Figura 6 mostra uma curva gaussiana com centro de distribuição a. A área delimitada por toda a curva e pelo eixo do Boi é igual a 1 (100%), e a área do trapézio curvilíneo entre as abcissas a–2s e a+2s, segundo a regra dos dois sigma, é igual para 0,954 (95,4% da área total). A área das áreas sombreadas é 1-0,954 = 0,046 (»5% da área total). Essas áreas são chamadas de região crítica da variável aleatória. Os valores de uma variável aleatória que cai na região crítica são improváveis ​​​​e, na prática, são convencionalmente aceitos como impossíveis.

A probabilidade de valores condicionalmente impossíveis é chamada de nível de significância de uma variável aleatória. O nível de significância está relacionado à probabilidade de confiança pela fórmula:

onde q é o nível de significância expresso em percentagem.

Regra dos três sigma Na resolução de questões que requerem maior confiabilidade, quando a probabilidade de confiança (Pd) é considerada igual a 0,997 (mais precisamente, 0,9973), ao invés da regra de dois sigma, conforme fórmula (3), utiliza-se a regra



três sigmas De acordo com regra dos três sigma

com uma probabilidade de confiança de 0,9973, a área crítica será a área dos valores dos atributos fora do intervalo (a-3s, a+3s). O nível de significância é de 0,27%.

Por outras palavras, a probabilidade de o valor absoluto do desvio exceder três vezes o desvio padrão é muito pequena, nomeadamente 0,0027 = 1-0,9973. Isso significa que apenas 0,27% dos casos isso acontecerá. Tais eventos, baseados no princípio da impossibilidade de eventos improváveis, podem ser considerados praticamente impossíveis. Aqueles. a amostragem é altamente precisa.

Esta é a essência da regra dos três sigma:

Na prática, a regra dos três sigma é aplicada da seguinte forma: se a distribuição da variável aleatória em estudo for desconhecida, mas a condição especificada na regra acima for atendida, então há razões para supor que a variável em estudo é normalmente distribuída ; caso contrário, não é normalmente distribuído.

O nível de significância é determinado dependendo do grau de risco permitido e da tarefa em questão. Para avaliação imobiliária costuma-se adotar uma amostra menos precisa, seguindo a regra dos dois sigma.