15.10.2019

При построении интервальных вариационных рядов необходимо. Статистическая сводка и группировка. Статистический ряд распределения. Примеры решения задач


Лабораторная работа №1. Первичная обработка статистических данных

Построение рядов распределения

Упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку называется рядом распределения . При этом признак может быть как количественным, тогда ряд называется вариационным , так и качественным, тогда ряд называют атрибутивным . Так, например, население города может быть распределено по возрастным группам в вариационный ряд, или по профессиональной принадлежности в атрибутивный ряд (конечно, можно предложить еще множество качественных и количественных признаков для построения рядов распределения, выбор признака определяется задачей статистического исследования).

Любой ряд распределения характеризуется двумя элементами:

- варианта (х i ) – это отдельные значения признака единиц выборочной совокупности. Для вариационного ряда варианта принимает числовые значения, для атрибутивного – качественные (например, х=«государственный служащий»);

- частота (n i ) – число, показывающее, сколько раз встречается то или иное значение признака. Если частота выражена относительным числом (т.е. долей элементов совокупности, соответствующих данному значению варианты, в общем объеме совокупности), то она называется относительной частотой или частостью .

Вариационный ряд может быть:

- дискретным , когда изучаемый признак характеризуется определенным числом (как правило целым).

- интервальным , когда определены границы «от» и «до» для непрерывно варьируемого признака. Интервальный ряд также строят если множество значений дискретно варьируемого признака велико.

Интервальный ряд может строиться как с интервалами равной длины (равноинтервальный ряд) так и с неодинаковыми интервалами, если это диктуется условиями статистического исследования. Например, может рассматриваться ряд распределения доходов населения со следующими интервалами: <5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



где k – число интервалов, n – объем выборки. (Конечно, формула обычно дает число дробное, а в качестве числа интервалов выбирается ближайшее целое к полученному число.) Длина интервала в таком случае определяется по формуле

.

Графически вариационные ряды могут быть представлены в виде гистограммы (над каждым интервалом интервального ряда выстраивается «столбик» высоты, соответствующей частоте в этом интервале), полигона распределения (ломаная линия, соединяющая точки (х i ;n i ) либо кумуляты (строится по накопленным частотам, т.е. для каждого значения признака берется частота появления в совокупности объектов со значением признака меньшим данного).

При работе в Excel для построения вариационных рядов могут быть использованы следующие функции:

СЧЁТ(массив данных ) – для определения объема выборки. Аргументом является диапазон ячеек, в котором находятся выборочные данные.

СЧЁТЕСЛИ(диапазон; критерий ) – может быть использована для построения атрибутивного или вариационного ряда. Аргументами являются диапазон массива выборочных значений признака и критерий – числовое или текстовое значение признака или номер ячейки, в которой оно находится. Результатом является частота появления этого значения в выборке.

ЧАСТОТА(массив данных; массив интервалов ) – для построение вариационного ряда. Аргументами являются диапазон массива выборочных данных и столбец интервалов. Если требуется построить дискретный ряд, то здесь указываются значения варианты, если интервальный – то верхние границы интервалов (их еще называют «карманами»). Поскольку результатом является столбец частот, введение функции следует завершить нажатием сочетания клавиш CTRL+SHIFT+ENTER. Заметим, что задавая массив интервалов при введении функции, последнее значение в нем можно и не указывать – в соответствующий «карман» будут помещены все значения, не попавшие в предыдущие «карманы». Иногда это помогает избежать ошибки, состоящей в том, что наибольшее выборочное значение не помещается автоматически в последний «карман»

Кроме того, для сложных группировок (по нескольким признакам) используют инструмент «сводные таблицы». Для построения атрибутивных и вариационных рядов их тоже можно использовать, но это излишне усложняет задачу. Также для построения вариационного ряда и гистограммы существует процедура «гистограмма» из надстройки «Пакет анализа» (чтобы использовать надстройки в Excel, их нужно сначала загрузить, по умолчанию они не устанавливаются)

Проиллюстрируем процесс первичной обработки данных на следующих примерах.

Пример 1.1 . имеются данные о количественном составе 60 семей.

Построить вариационный ряд и полигон распределения

Решение .

Откроем таблицы Excel. Введем массив данных в диапазон А1:L5. Если Вы изучаете документ в электронной форме (в формате Word, например), для этого достаточно выделить таблицу с данными и скопировать ее в буфер, затем выделить ячейку А1 и вставить данные – они автоматически займут подходящий диапазон. Подсчитаем объем выборки n – число выборочных данных, для этого в ячейку В7 введем формулу =СЧЁТ(А1:L5). Заметим, что для того, чтобы в формулу ввести нужный диапазон, необязательно вводить его обозначение с клавиатуры, достаточно его выделить. Определим минимальное и максимальное значение в выборке, введя в ячейку В8 формулу =МИН(А1:L5), и в ячейку В9: =МАКС(А1:L5).

Рис.1.1 Пример 1. Первичная обработка статистических данных в таблицах Excel

Далее, подготовим таблицу для построения вариационного ряда, введя названия для столбца интервалов (значений варианты) и столбца частот. В столбец интервалов введем значения признака от минимального (1) до максимального (6), заняв диапазон В12:В17. Выделим столбец частот, введем формулу =ЧАСТОТА(А1:L5;В12:В17) и нажмем сочетание клавиш CTRL+SHIFT+ENTER

Рис.1.2 Пример 1. Построение вариационного ряда

Для контроля вычислим сумму частот при помощи функции СУММ (значок функции S в группе «Редактирование» на вкладке «Главная»), вычисленная сумма должна совпасть с ранее вычисленным объемом выборки в ячейке В7.

Теперь построим полигон: выделив полученный диапазон частот, выберем команду «График» на вкладке «Вставка». По умолчанию значениями на горизонтальной оси будут порядковые числа - в нашем случае от 1 до 6, что совпадает со значениями варианты (номерами тарифных разрядов).

Название ряда диаграммы «ряд 1» можно либо изменить, воспользовавшись той же опцией «выбрать данные» вкладки «Конструктор», либо просто удалить.

Рис.1.3. Пример 1. Построение полигона частот

Пример 1.2 . Имеются данные о выбросах загрязняющих веществ из 50 источников:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Составить равноинтервальный ряд, построить гистограмму

Решение

Внесем массив данных в лист Excel, он займет диапазон А1:J5 Как и в предыдущей задаче, определим объем выборки n, минимальное и максимальное значения в выборке. Поскольку теперь требуется не дискретный, а интервальный ряд, и число интервалов в задаче не задано, вычислим число интервалов k по формуле Стерджесса. Для этого в ячейку В10 введем формулу =1+3,322*LOG10(B7).

Рис.1.4. Пример 2. Построение равноинтервального ряда

Полученное значение не является целым, оно равно примерно 6,64. Поскольку при k=7 длина интервалов будет выражаться целым числом (в отличие от случая k=6) выберем k=7, введя это значение в ячейку С10. Длину интервала d вычислим в ячейке В11, введя формулу =(В9-В8)/С10.

Зададим массив интервалов, указывая для каждого из 7 интервалов верхнюю границу. Для этого в ячейке Е8 вычислим верхнюю границу первого интервала, введя формулу =B8+B11; в ячейке Е9 верхнюю границу второго интервала, введя формулу =E8+B11. Для вычисления оставшихся значений верхних границ интервалов зафиксируем номер ячейки В11 в введенной формуле при помощи знака $, так что формула в ячейке Е9 примет вид =E8+B$11, и скопируем содержимое ячейки Е9 в ячейки Е10-Е14. Последнее полученное значение равно вычисленному ранее в ячейке В9 максимальному значению в выборке.

Рис.1.5. Пример 2. Построение равноинтервального ряда


Теперь заполним массив «карманов» при помощи функции ЧАСТОТА, как это было сделано в примере 1.

Рис.1.6. Пример 2. Построение равноинтервального ряда

По полученному вариационном ряду построим гистограмму: выделим столбец частот и выберем на вкладке «Вставка» «Гистограмма». Получив гистограмму, изменим в ней подписи горизонтальной оси на значения в диапазоне интервалов, для этого выберем опцию «Выбрать данные» вкладки «Конструктор». В появившемся окне выберем команду «Изменить» для раздела «Подписи горизонтальной оси» и введем диапазон значений варианты, выделив его «мышью».

Рис.1.7. Пример 2. Построение гистограммы

Рис.1.8. Пример 2. Построение гистограммы

При построении интервального ряда распределения решаются три вопроса:

  • 1. Сколько надо взять интервалов?
  • 2. Какова длина интервалов?
  • 3. Каков порядок включения единиц совокупности в границы интервалов?
  • 1. Количество интервалов можно определить по формуле Стер- джесса :

2. Длина интервала, или шаг интервала , обычно определяется по формуле

где R - размах вариации.

3. Порядок включения единиц совокупности в границы интервала

может быть разным, но при построении интервального ряда распределения обязательно строго определен.

Например, такой: [), при котором единицы совокупности в нижние границы включаются, а в верхние - не включаются, а переносятся в следующий интервал. Исключение в этом правиле составляет последний интервал , верхняя граница которого включает последнее число ранжированного ряда.

Границы интервалов бывают:

  • закрытые - с двумя крайними значениями признака;
  • открытые - с одним крайним значением признака (до такого-то числа или свыше такого-то числа).

С целью усвоения теоретического материала введем исходную информацию для решения сквозной задачи.

Имеются условные данные по среднесписочной численности менеджеров по продажам, количеству проданного ими однокачественного товара, индивидуальной рыночной цене на этот товар, а также объему продаж 30 фирм в одном из регионов РФ в I квартале отчетного года (табл. 2.1).

Таблица 2.1

Исходная информация для сквозной задачи

Численность

менеджеров,

Цена, тыс. руб.

Объем продаж, млн руб.

Численность

менеджеров,

Количество проданного товара, шт.

Цена, тыс. руб.

Объем продаж, млн руб.

На базе исходной информации, а также дополнительной сделаем постановку отдельных заданий. Затем представим методику их решения и сами решения.

Сквозная задача. Задание 2.1

Используя исходные данные табл. 2.1, требуется построить дискретный ряд распределения фирм по количеству проданного товара (табл. 2.2).

Решение:

Таблица 2.2

Дискретный ряд распределения фирм по количеству проданного товара в одном из регионов РФ в I квартале отчетного года

Сквозная задача. Задание 2.2

требуется построить ранжированный ряд 30 фирм по среднесписочной численности менеджеров.

Решение:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Сквозная задача. Задание 2.3

Используя исходные данные табл. 2.1, требуется:

  • 1. Построить интервальный ряд распределения фирм по численности менеджеров.
  • 2. Рассчитать частости ряда распределения фирм.
  • 3. Сделать выводы.

Решение:

Рассчитаем по формуле Стерджесса (2.5) количество интервалов :

Таким образом, берем 6 интервалов (групп).

Длину интервала , или шаг интервала , рассчитаем по формуле

Примечание. Порядок включения единиц совокупности в границы интервала такой: I), при котором единицы совокупности в нижние границы включаются, а в верхние - не включаются, а переносятся в следующий интервал. Исключение в этом правиле составляет последний интервал I ], верхняя граница которого включает последнее число ранжированного ряда.

Строим интервальный ряд (табл. 2.3).

Интервальный ряд распределения фирм но среднесписочной численности менеджеров в одном из регионов РФ в I квартале отчетного года

Вывод. Наиболее многочисленной группой фирм является группа со среднесписочной численностью менеджеров 25- 30 человек, которая включает 8 фирм (27%); в самую малочисленную группу со среднесписочной численностью менеджеров 40-45 человек входит всего одна фирма (3%).

Используя исходные данные табл. 2.1, а также интервальный ряд распределения фирм по численности менеджеров (табл. 2.3), требуется построить аналитическую группировку зависимости между численностью менеджеров и объемом продаж фирм и на основании ее сделать вывод о наличии (или отсутствии) связи между указанными признаками.

Решение:

Аналитическая группировка строится по факторному признаку. В нашей задаче факторным признаком (х) является численность менеджеров, а результативным признаком (у) - объем продаж (табл. 2.4).

Построим теперь аналитическую группировку (табл. 2.5).

Вывод. На основании данных построенной аналитической группировки можно сказать, что с увеличением численности менеджеров по продажам средний в группе объем продаж фирмы также увеличивается, что свидетельствует о наличии прямой связи между указанными признаками.

Таблица 2.4

Вспомогательная таблица для построения аналитической группировки

Численность менеджеров, чел.,

Номер фирмы

Объем продаж, млн руб., у

» = 59 f = 9,97

Я-™ 4 - Ю.22

74 ’25 1ПЙ1

У4 = 7 = 10,61

у = ’ =10,31 30

Таблица 2.5

Зависимость объемов продаж от численности менеджеров фирм в одном из регионов РФ в I квартале отчетного года

КОНТРОЛЬНЫЕ ВОПРОСЫ
  • 1. В чем суть статистического наблюдения?
  • 2. Назовите этапы статистического наблюдения.
  • 3. Каковы организационные формы статистического наблюдения?
  • 4. Назовите виды статистического наблюдения.
  • 5. Что такое статистическая сводка?
  • 6. Назовите виды статистических сводок.
  • 7. Что такое статистическая группировка?
  • 8. Назовите виды статистических группировок.
  • 9. Что такое ряд распределения?
  • 10. Назовите конструктивные элементы ряда распределения.
  • 11. Каков порядок построения ряда распределения?

Во многих случаях, кота статистическая совокупность включает большое или тем более бесконечное число вариант, что чаще всего встречается при непрерывной вариации, практически невозможно и нецелесообразно формировать группу единиц для каждой варианты. В таких случаях объединение статистических единиц в группы возможно лишь на базе интервала, т.е. такой группы, которая имеет определенные пределы значений варьирующего признака. Эти пределы обозначаются двумя числами, указывающими верхнюю и нижнюю границы каждой группы. Применение интервалов приводит к формированию интервального ряда распределения.

Интервальный рад - это вариационный ряд, варианты которого представлены в виде интервалов.

Интервальный ряд может формироваться с равными инеравными ин­тервалами, при этом выбор принципа построения этого ряда зависит главным образом от степени представительности и удобности статистической совокупности. Если совокупность достаточно велика (представительна) по числу единиц и вполне однородна по своему составу, то в основу формирования интервального ряда целесообразно положить равенства интервалов. Обычно по этому принципу образуют интервальный ряд по тем совокупностям, где размах вариации сравнительно невелик, т.е. максимальная и минимальная варианты различаются между собой обычно в несколько раз. При этом величина равных интервалов рассчитывается отношением размаха вариации признака к заданному числу образуемых интервалов. Для определения равного и нтервала может быть ииспользована формула Стерджесса (обычно при небольшой вариации интервальных признаков и большом числе единиц в статистической совокупности):

где х i - величина равного интервала; X max, X min- максимальная и минимальная варианты в статистической совокупности; n. - число единиц в совокупности.

Пример . Целесообразно рассчитать размер равного интервала по плотности радиоактивного загрязнения цезием – 137 в 100 населенных пунктах Краснопольского района Могилевской области, если известно, что начальная (минимальная) варианта равна I км/км 2 , конечная (максимальная) - 65 ки/км 2 . Воспользовавшись формулой 5.1. получим:

Следовательно, чтобы сформировать интервальный ряд с равными интервалами по плотности загрязнения цезием - 137 населенных пунктов Краснопольского района, размер равного интервала может составить 8 ки/км 2 .

В условиях неравномерного распределения т.е. когда максимальная иминимальная варианты сотни раз, при формировании интервального ряда можно применить принцип неравных интервалов. Неравные интервалы обычно увеличиваются по мере перехода к большим значениям признака.

По форме интервалы могут быть закрытыми и открытыми. Закрытыми принято называть интервалы, у которых обозначены как нижняя, так и верхняя границы. Открытые интервалы имеют только одну границу: в первом интервале – верхняя, в последнем - нижняя граница.

Оценку интервальных рядов, особенно с неравным интервалами, целесообразно проводить с учетом плотности распределения , простейшим способом расчета которого является отношение локальной частоты (или частости) к размеру интервала.

Для практического формирования интервального ряда можно воспользоваться макетом табл. 5.3.

Т а б л и ц а 5.3. Порядок формирования интервального ряда населённых пунктов Краснопольского района по плотности радиоактивного загрязнения цезием –137

Основное преимущество интервального ряда - его предельная компактность. в то же время в интервальном ряду распределения индивидуальные варианты признака скрыты в соответствующих интервалах

При графическом изображении интервального ряда в системе прямоугольных координат на оси абсцисс откладывают верхние границы интервалов, на ос ординат - локальные частоты ряда. Графическое построение интервального ряда отличается от построения полигона распределения тем, что каждый интервал имеет нижнюю и верхнею границы, а одному какому- либо значению ординаты соответствуют две абсциссы. Поэтому на графике интервального ряда отмечается не точка, как в полигоне, а линия, соединяющая две точку. Эти горизонтальные линии соединяются друг с другом вертикальными линиями и получается фигура ступенчатого многоугольника, который принято называть гистограммой распределения (рис.5.3).

При графическом построении интервального ряда по достаточно большой статистической совокупности гистограмма приближается к симметричной форме распределения. В тех же случаях, где статистическая совокупность невелика, как правило, формируется асимметричная гистограмма.

В некоторых случаях имеется целесообразность в формировании ряда накопленных частот, т.е. кумулятивного ряда. Кумулятивный ряд можно образовать на основе дискретного либо интервального ряда распределения. При графическом изображении кумулятивного ряда в системе прямоугольных координат на оси абсцисс откладывают вариан­ты, на оси ординат - накопленные частоты (частости). Полученную при этом кривую линию принято называть кумулятой распределения (рис.5.4).

Формирование и графическое изображение различных видов вариационных рядов способствует упрощенному расчету основных статистических характеристик, которые подробно рассматриваются в теме 6, помогает лучше понять сущность законов распределения статистической совокупности. Анализ вариационного ряда приобретает особенное значение в тех случаях, когда необходимо выявить и проследить зависимость между вариантами и частотами (частостями). Эта зависимость проявляется в том, что число случаев, приходящихся на каждую варианту, определенным образом связано с величиной этой варианты, т.е. с возрастанием значений варьирующего признака частоты (частости) этих значений испытывают определенные, систематические изменения. Это означает, что числа в столбце частот (частостей) подвержены не хаотическим колебаниям, а изменяются в определенном направлении, в определенном порядке и последовательности.

Если частоты в своих изменениях обнаруживают определенную систематичность, то это означает, что мы находимся на пути к выявлению закономерности. Система, порядок, последовательность в изменении частот - это отражение общих причин, общих условий, характерных для всей совокупности.

Не следует считать, что закономерность распределения всегда дается в готовом виде. Встречается довольно много вариационных рядов, в которых частоты причудливо скачут, то возрастая, то уменьшаясь. В таких случаях целесообразно выяснить, с каким распределением имеет дело исследователь: то ли этому распределению вовсе не присущи закономерности, то его характер еще не выявлен: Первый случай встречается редко, второй же, второй же случай - явление довольно частое и весьма распространенное.

Так, при формировании интервального ряда общее число статистических единиц может быть небольшим, и в каждый интервал попадает малое число вариант (например, 1-3 единицы). В таких случаях рассчитывать на проявление какой-либо закономерности не приходится. Для того чтобы на основе случайных наблюдений получился закономерный результат, необходимо вступление в силу закона больших чисел, т.е. чтобы на каждый интервал приходилось бы не несколько, а десятки и сотни статистических единиц. С этой целью надо стараться, по возможности увеличивать число наблюдений. Это самый верный способ обнаружения закономерности в массовых процессах. Если же не представляется реальная возможность увеличить число наблюдений, то выявление закономерности может быть достигнуто уменьшением числа интервалов в ряду распределения. Уменьшая число интервалов в вариационном ряду, тем самым увеличивается численность частот в каждом интервале. Это означает, что случайные колебания каждой статистической единицы накладываются друг на друга, "сглаживается", превращаясь в закономерность.

Формирование и построение вариационных рядов позволяет получить лишь общую, приближенную картину распределения статистической совокупности. Например, гистограмма лишь в грубой форме выражает зависимость между значениями признака и его частотами (частостями) Поэтому вариационные ряды по существу являются лишь основой для дальнейшего, углубленного изучения внутренней закономерности статического распределения.

КОНТРОЛЬНЫЕ ВОПРОСЫ К ТЕМЕ 5

1. Что представляет собой вариация? Чем вызывается вариация признака в статистической совокупности?

2. Какие виды варьирующих признаков могут иметь место в статистике?

3. Что такое вариационный ряд? Какие могут быть виды вариационных рядов?

4. Что представляет собой ранжированный ряд? Какие его преимущества и недостатки?

5. Что такое дискретный ряд и какие его преимущества и недостатки?

6. Каков порядок формирования интервального ряда, какие его преимущества и недостатки?

7. Что представляет собой графическое изображение ранжированного, дискретного, интервального рядов распределения?

8. Что такое кумулята распределения и что она характеризует?

Условие:

Имеются данные о возрастном составе рабочих (лет): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28, 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Построить интервальный ряд распределения.
    2. Построить графическое изображение ряда.
    3. Графически определить моду и медиану.

Решение:

1) По формуле Стерджесса совокупность надо разделить на 1 + 3,322 lg 30 = 6 групп.

Максимальный возраст - 38, минимальный - 18.

Ширина интервала Так как концы интервалов должны быть целыми числами, разделим совокупность на 5 групп. Ширина интервала - 4.

Для облегчения подсчетов расположим данные в порядке возрастания: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Распределение возрастного состава рабочих

Графически ряд можно изобразить в виде гистограммы или полигона. Гистограмма - столбиковая диаграмма. Основание столбика - ширина интервала. Высота столбика равна частоте.

Полигон (или многоугольник распределения) - график частот. Чтобы его построить по гистограмме, соединяем середины верхних сторон прямоугольников. Многоугольник замыкаем на оси Ох на расстояниях, равных половине интервала от крайних значений х.

Мода (Мо) - это величина изучаемого признака, которая в данной совокупности встречается наиболее часто.

Чтобы определить моду по гистограмме, надо выбрать самый высокий прямоугольник, провести линию от правой вершины этого прямоугольника к правому верхнему углу предыдущего прямоугольника, и от левой вершины модального прямоугольника провести линию к левой вершине последующего прямоугольника. От точки пересечения этих линий провести перпендикуляр к оси х. Абсцисса и будет модой. Мо ≈ 27,5. Значит, наиболее часто встречаемый возраст в данной совокупности 27-28 лет.

Медиана (Mе) - это величина изучаемого признака, которая находится в середине упорядоченного вариационного ряда.

Медиану находим по кумуляте. Кумулята - график накопленных частот. Абсциссы - варианты ряда. Ординаты - накопленные частоты.

Для определения медианы по кумуляте находим по оси ординат точку, соответствующую 50% накопленных частот (в нашем случае 15), проводим через неё прямую, параллельно оси Ох, и от точки её пересечения с кумулятой проводим перпендикуляр к оси х. Абсцисса является медианой. Ме ≈ 25,9. Это означает, что половина рабочих в данной совокупности имеет возраст менее 26 лет.

Представляются в виде рядов распределения и оформляются в виде .

Ряд распределния является одним из видов группировок.

Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

  • Атрибутивными — называют ряды распределения, построенные по качественными признакам.
  • Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .
Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта — выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:
  • Полигона
  • Гистограммы
  • Кумуляты
  • Огивы

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.

Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.

6.1. Распределение домохозяйств по размеру

Условие : Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача : Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение :
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Полигон используется для дискретных вариационных рядов.

Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

Статистическая таблица

Условие : Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача : Построить интервальный вариационный ряд с равными интервалами.
Решение :

  1. Исходная совокупность состоит из 20 единиц (N = 20).
  2. По формуле Стерджесса определим необходимое количество используемых групп: n=1+3,322*lg20=5
  3. Вычислим величину равного интервала: i=(152 — 2) /5 = 30 тыс.руб
  4. Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
  5. Результаты группировки представим в таблице:

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис. 6.2. Распределение населения России по возрастным группам

Условие : Приводится распределение 30 работников фирмы по размеру месячной заработной платы

Задача : Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение :

  1. Неизвестная граница открытого (первого) интервала определяется по величине второго интервала: 7000 — 5000 = 2000 руб. С той же величиной находим нижнюю границу первого интервала: 5000 — 2000 = 3000 руб.
  2. Для построения гистограммы в прямоугольной системе координат по оси абсцисс откладываем отрезки, величины которых соответствуют интервалам варицонного ряда.
    Эти отрезки служат нижним основанием, а соответствующая частота (частость) — высотой образуемых прямоугольников.
  3. Построим гистограмму:

Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Кумулята

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 6.3).

Рис. 6.3. Кумулята распределения домохозяйств по размеру

4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

Огива

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 6.4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

6.4. Кривая концентрации