Диаграмма ( от греческого diagramma - изображение, чертеж, рисунок) - это графическое изображение, наглядно показывающее соотношение между сравниваемыми величинами. Диаграммы бывают различных видов: полосовые (ленточные), столбиковые, квадратные, круговые, секторные, фигурные, радиальные, знак Варзара.
пример 1.
Данные по классификации безработных в США (средние по месяцам)
Год
ищут работу
частично занятые
нет работы
1989
6.5
4.9
0.9
1990
6.9
5.1
0.8
1991
8.4
6.0
1.1
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основанием которых служат частотные интервалы длины h, а высоты равны отношению Mi/h - плотность частоты. Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними на расстоянии Mi/h проводят отрезки параллельные основанию. Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основанием которых случат частичные интервалы длиной h, а высоты равны Wi/h.
Гистограмма относительных частот - аналог плотности распределения непрерывной случайной величины. Иногда высоты прямоугольников в гистограмме не делят на h, но указывают над столбиками значение высоты и над осью ординат пишут, что ее значение надо делить на h. Такую гистограмму называют масштабированной.
пример.
пример. Сравнение грузооборота. В СНГ в 1990 г. грузооборот железнодорожного транспорта составил 3505,2 тыс. т, морского - 853.9, автомобильного - 458.9. (Вычислить корни квадратные - сторона квадрата)
примеры.
С целью обеспечения обработки частотных распределений и свертки информации, заключенной в статистических данных, вариационные ряды описывают с помощью определенных числовых характеристик. Такими характеристиками для одномерных статистических рядов являются следующие:
Схематично средние величины можно представить следующим образом:
Степенная средняя
Эта формула задает не взвешенную или простую среднюю степенную. Она применяется для не сгруппированных данных. Для сгруппированных данных применяется следующая формула
Рассмотрим различные значения q.
q =-1 получаем среднее гармоническое
q =0 среднее геометрическое
q = 1 среднее арифметическое
q = 2 среднее квадратичное
Справедливо следующее неравенство для средних величин
Рассмотрим среднее арифметическое:
Отметим наиболее важные свойства среднего арифметического:
если из всех значений признака вычесть некоторую константу С,
, разность между этими суммами равна .
Рассмотрим среднее гармоническое q=-1.
Свойства среднего гармонического:
Применение того или иного вида весов зависит от представления значений признака.
Примеры.
Таким образом, если между показателями существует обратная зависимость как например между числом изготовленных деталей и затратами времени на одно изделие, то надо использовать среднее гармоническое. А если между показателями существует прямая зависимость, например между индивидуальными зарплатами и фондом зарплат, то применяется среднее арифметическое.
Рассмотрим геометрическое среднее:
Вычислим предел:
Среднее геометрическое применяется для расчета среднего коэффициента или среднего темпа роста
Пусть известно, что за 5 лет выпуск промышленной продукции предприятия вырос в 1.5 раза, тогда средний ежегодный коэффициент роста , т.е. 108,4 %, а средний ежегодный прирост равен 8,4%.
Среднее квадратическое q=2.
Обычно применяются, если в качестве берутся отклонения значений признака от среднеарифметических .
Если n<=30, то применяется исправленное среднеквадратичное отклонение .
Квантили - порядковые характеристики, то есть значения признака, занимающие определенное место в ранжированной совокупности (упорядоченной).
Медиана.
Медиана - значение изучаемого признака, приходящееся на середину ранжированной совокупности.
При вычислении медианы интервального вариационного ряда, сначала находят медианный интервал , где h - длина медианного интервала. Для этого можно использовать кумулятивное распределение частот или относительных частот. Медианному интервалу соответствует тот, в котором содержится накопленная равная 1/2.
Внутри найденного интервала расчет медианы производится по формуле:
, где - кумулятивная частота интервала, предшествующего медианному, - относительная частота медианного инетрвала.
Сумма взвешенных абсолютных отклонений вариант от медианы меньше аналогичной суммы отклонений вариант от любой другой меры положения вариационного ряда.
Это свойство можно использовать при проектировании оптимального (в некотором смысле) расположения остановок общественного транспорта, складских помещений, бензозаправок и т.д.
Прибыль компаний: Ме=500 +500*(50-44)/(76-44)=593.75 млн. Это означает, что 50% компаний имеет прибыль меньше 593.75 млн.
Оценки студентов: Ме=4
Квартили - порядковые характеристики, отделяющие четверти ранжированных совокупностей.
1 квартиль или нижний отделяет четверть ранжированной совокупности снизу и вычисляется по формуле:
(для интервального)
Медиану можно рассматривать как второй квартиль.
Верхний квартиль
Мода - наиболее часто встречающееся в совокупности значение признака. Для дискретного вариационного ряда мода определяется по частотам вариант и соответствует варианте с максимальной частотой. При определении моды обычно применяют следующие соглашения:
В случае интервального вариационного ряда с равными интервалами модальный интервал определяется по наибольшей частоте, а при неравных интервалах - по наибольшей плотности.
При равных интервалах мода внутри модального интервала может определяться по следующей формуле:
Данная формула получена исходя из допущения, что в модальном и двух соседних интервалах кривая распределения представляет собой параболу второго порядка. Тогда мода находится как вершина параболы. Для графического определения моды используют 3 соседних столбца гистограммы (самый высокий и 2 прилегающих к нему).
При вычислении моды в формуле можно иcпользовать не только относительные, но и другие частоты.
Прибыль 100 компаний - Мо=0+500*(41-1)/(41-1+41-32)=408.16 млн.
Оказывается, по расположению средней арифметической, моды и медианы можно судить о форме распределения. Если оно симметричное, то все три величины равны.
В практике мода и медиана иногда используются вместо средней арифметической или вместе с ней. Фиксируя средние цены товаров или продуктов на рынке записывают наиболее часто встречающуюся цену на рынке (моду цены).
В ряде случаев в изучаемой совокупности имеется небольшое число элементов с чрезвычайно большим или чрезмерно малым значением исследуемого признака.
В этих случаях в дополнение к среднему арифметическому целесообразно вычислить моду и медиану, которые в отличие от среднего не зависят от крайних, не характерных для совокупности значений признака. Мода и медиана относятся к классу так называемых "робастных характеристик", т.е. не чувствительных к аномальным значениям признака. Рассмотрим робастные характеристики, применяемые для оценки среднего арифметического:
Пусть имеем ряд значений признака, упорядоченный в возрастающем порядке
, упорядоченный в возрастающем порядке. Пусть первые x(1),...,x(m) - аномально маленькие, x(n-m+1),...,x(n) - аномально большие.
- указывает долю отбрасываемых значений признака.
Отличается от усеченного тем, что аномальные значения признака не отбрасываются, а полагаются крайним значениям, принимаемым на обработку.
x(1)=x(2)...=x(m)=x(m+1)
x(n)=x(n-1)=...=x(n-m+1)=x(n-m)
Средняя величина признака, а также его мода и медиана в двух совокупностях могут быть одинаковыми. но в одном случае значения признака могут мало отличаться от среднего, а в другом эти значения могут быть велики.
Пусть имеются данные о стаже работы в 2 бригадах.
стаж
1
2
3
4
5
6
7
8
9
10
средн.
1 бр.
12
13
15
7.2
2 бр.
18
Простейшим из показателей является вариационный размах R=Xmax-Xmin. Размах выборки дает лишь самое общее представление о размерах вариации, так как показывает насколько отчаются друг от друга крайние значения, но не указывают насколько велики отклонения вариант друг от друга внутри этого промежутка. Более точным будет такой показатель, который учитывает отклонение каждой из вариант от средней величины.
Выделяют среднее линейное отклонение , либо среднеквадратичное отклонение .
Если объем выборки невелик, то в качестве оценки дисперсии рассматривают .
Для вычисления дисперсии можно использовать формулу .
Основные свойства дисперсии:
Пусть ряд значений признака состоит из j однородных групп: x(1),...,X(n1),...X(n1+n2),...X(n),n=n1+n2+...+nj. Обозначим дисперсии групп D1,...Dj/
Надо найти общую дисперсию.
, т.е. общая дисперсия равна сумме внутригрупповой и внешне групповой дисперсий.
Таким образом общая дисперсия равна взвешенной сумме групповых дисперсий и взвешенной сумме квадратов отклонений групповых средних от общей средней. Первое слагаемое выражает величину дисперсии внутри частей совокупности, а второе- различие между этими частями.
Каждая из перечисленных дисперсий имеет вполне определенный смысл: общая дисперсия показывает величину вариации зарплаты, которая вызвана всеми факторами, влияющими на размер зарплаты. (число обслуживаемых станков, различия в опыте и т.д.) Групповые дисперсии показывают величину вариации, которая вызвана многими причинами кроме различий в числе обсуживаемых станков, так как внутри группы все рабочие обслуживают одинаковое количество станков. Средняя из групповых вариаций вызвана не различиями в числе обслуживаемых станков по всему числу рабочих, различия по числу станков.
Чем больше межгрупповая дисперсия по сравнению , тем больше влияние группировочного признака на величину исследуемого признака.
Если группировать рабочих внутри каждой группы по другому признаку, оказывающему влияние на заработок, например по уровню квалификации, то можно из внутригрупповых дисперсий выделить дисперсию, показывающую величину вариации, вызванной вторым группировочным признаком и дисперсию остаточную, характеризующую вариацию за счет всех причин, кроме 2 группировочных признаков. Теоретически такую комбинационную группировку можно продолжать до тех пор, пока не будут исчерпаны все причины, воздействующие на исследуемый признак. Общая дисперсия в этот случае будет представлена как сумма дисперсий, характеризующих вариацию, вызванную каждой из причин.
Кроме абсолютных для характеристики совокупности значений признаков применяются относительные показатели.
Коэффициент вариации .
Используется для сравнения размеров вариации в вариационных рядах с различными средними, а также для сравнения вариаций разных показателей в оной и той же совокупности. Он отражает состояние между вариацией выборки и ее центром.
Реже используются следующие коэффициенты:
Существуют 2 основных характеристики: коэффициент ассиметрии и коэффициент эксцессов, которые характеризуют соответсвенно скошенность и крутость распределения.
Моментом порядка р распределения вариационного ряда называется
В зависимости от значения а общая схема моментов разбивается на 3 подсистемы.
Центральные моменты 3 и 4 порядков используются для характеристики ассиметрии и эксцесса распределения вариационного ряда.
Пусть имеется вариационный ряд. Предположим, что признак Х распределен по некоторому вероятностному закону Р.
Р:
х
х1
х2
....
xk
р
p1
p2
.....
pk
По теоретическому распределению Р можно построить так называемое выравнивающие или теоретические частоты . Если отличия между теоретическими и эмпирическими частотами небольшое, то можно считать, что Х распределен по закону Р.
Объективную оценку близости эмпирических частот к теоретическим можно получить с помощью определенных критериев близости, называемых критериями согласия. Существует множество таких критериев. Критерий Пирсона основан на следующем:
.
Существуют значения (табличные) для соответствующего числа степеней свободы К и уровня значимости . По таблице находятся
K=k-1-r, где r - число общих характеристик теоретического распределения, принятых равными соответствующим эмпирическим.
1. требования к оценкам
Пусть требуется изучить количественный признак генеральной совокупности. Допустим из теоретических соображений удалось установить какое именно распределение имеет признак. Естественна задача оценки параметров этого распределения.
Требования к оценкам:
Требование состоятельности применяется к большим объемам.
Эффективной называют оценку, которая при заданном объеме выборки n имеет min дисперсию.
Оценку, определяемую одним числом называют точечной. При выборках малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т.е. приводить к грубым ошибкам. По этой причине при небольших объемах выборки пользуются интервальными оценками, которые определяются 2 числами - концами интервала. Эти оценки позволяют установить точность и надежность оценок.
Пусть =const, тем точнее определяет , чем меньше (-). Если есть величина >0, (-)<, то чем меньше , тем точнее оценка.
- надежность оценки. Обычно надежность задается наперед =95-99%. Величину называют уровнем значимости.
, интервал - доверительный. Концы этого интервала - случайные величины и называются доверительными границами, они могут меняться от выборки к выборке. Говорят, что наш доверительный интервал с вероятностью покрывает .
Страницы: 1, 2