• Лабораторна робота №1
  • Формули розрахунку.


  • Дата конвертації25.03.2017
    Розмір22.01 Kb.
    ТипЛабораторна робота

    Скачати 22.01 Kb.

    Аналіз емпіричного розподілу

    Федеральне агентство з освіти

    Державна освітня установа вищої професійної освіти

    «Санкт-Петербурзький державний політехнічний університет»

    Факультет економіки і менеджменту

    Кафедра «Підприємництво і комерція»

    Лабораторна робота №1

    З дисципліни «Статистика»

    На тему «Аналіз емпіричного розподілу»

    Санкт-Петербург 2008

    Вступ

    Ряд розподілу - це розподіл одиниць сукупності за значенням тієї чи іншої ознаки. Комплексний аналіз ряду розподілу включає:

    - Табличне і графічне представлення ряду розподілу;

    - Розрахунок і аналіз показників центру і структури розподілу;

    - Розрахунок і аналіз показників варіації;

    - Характеристику форми розподілу;

    - Вибір теоретичного розподілу, якому відповідав би досліджуване емпіричне [1].

    Ряди розподілу можуть бути:

    1) варіаційної;

    2) Атрибутивними.

    Одна з найважливіших цілей вивчення рядів розподілу полягає в тому, щоб виявити закономірність розподілу і визначити її характер. Закономірності розподілу найбільш виразно проявляються лише при великій кількості спостережень (т.зв. закон великих чисел).

    Вихідними даними для аналізу базується на інформації, отримана зі збірки Росстату Регіони Росії [2], а саме статистична інформація про кількість власних легкових автомобілів на 1000 чоловік населення в різних регіонах Росії в 1990 році. Обсяг вихідної сукупності - 87 одиниць.


    1. Табличне і графічне представлення варіаційного ряду

    Аналіз розподілів спрямований на виявлення закономірності зміни частот в залежності від значень варьирующего ознаки і аналіз різних характеристик досліджуваного розподілу. Перш, ніж приступити до обчислення спеціальних статистичних показників, необхідно з вихідної сукупності виключити одиниці, що не підкоряються загальної закономірності розподілу, так звані викиди. Викиди - це значення ознаки, що різко відрізняються як в більшу, так і в меншу сторону, від значень ознаки основної частини одиниць сукупності [3].

    Для локалізації і усунення викидів необхідно, перш за все, ранжувати вихідні дані. Потім, в ППП Statistica будується графік Boxplot на підставі ранжированого сукупності. Одиниці сукупності, позначені на графіку зірочками (*), є викидами, які необхідно виключити з досліджуваної сукупності.

    Варіаційним називається ряд розподілу, побудований за кількісною ознакою. Він може бути представлений у вигляді таблиці і графічно. Табличне представлення дозволяє не тільки виявити ту чи іншу закономірність розподілу, а й докладно охарактеризувати структуру досліджуваної сукупності.

    Таблиці варіаційних рядів будуються за принципами угруповання. Відомі проблеми виникають при визначенні числа груп, оскільки формула Стерджеса (1.1), рекомендована для цих цілей, дає прийнятні результати тільки в умовах великих статистичних сукупностей. Процес визначення числа виділяються груп, в значній мірі, носить творчий характер і вимагає від дослідника застосування не тільки теоретичних знань, але і практичного досвіду і інтуїції.

    Формула Стерджеса:


    , (1.1)

    де k- число груп; N - обсяг сукупності.

    Використання ППП значно спрощує завдання табличного представлення варіаційного ряду, оскільки дозволяє з малими тимчасовими витратами переглянути кілька таблиць з різним числом груп і розміром группировочного інтервалу. Кінцевий варіант таблиці повинен відповідати наступним вимогам: в таблиці не повинно бути малонаповнених і нульових груп; потрібно прагнути до отримання мономодальні розподілу (тобто по обидві сторони від максимальної частоти повинно спостерігатися закономірне спадання частот). Якщо не вдається позбутися від Многовершінний в розподілі, це, як правило, означає, що вивчається статистична сукупність неоднорідна і вимагає більш детального вивчення. У цих умовах слід або працювати з викидами, або, якщо одиниці сукупності не підкоряються єдиній закономірності розподілу, розбити сукупність на об'єктивно існуючі групи, і аналізувати їх окремо [3].

    Далі представлені таблиці варіаційного ряду, побудовані з використанням різного числа інтервалів.

    Таблиця 1.1. Розподіл регіонів Росії за кількістю власних легкових автомобілів на 1000 чоловік населення в 1990 році. k = 8


    Таблиця 1.2. Розподіл регіонів Росії за кількістю власних легкових автомобілів на 1000 чоловік населення в 1990 році. k = 6

    При k = 8 отримано багато малонаповнених груп, що є небажаним для аналізу ряду розподілу. Вибираючи остаточний варіант табличного представлення варіаційного ряду в роботі, слід зупинитися на угрупованню з використанням 6 груп. Тоді величина группировочного інтервалу складе 14,6.

    Необхідно підвести попередні підсумки (на прикладі третього рядка): тільки в тридцяти регіонах Росії, що становить 35,71% від загального числа регіонів, кількість автомобілів на 1000 чоловік населення в 1990 році становило від 46,3 до 60,9 штук. У п'ятдесяти п'яти регіонах Росії (65,47% від усіх регіонів) кількість автомобілів на 1000 чоловік населення в 1990 році становило менш 60,9 штук.

    Табличне представлення варіаційного ряду дозволяє отримати детальну інформацію про склад і структуру досліджуваної сукупності, тобто визначити скільки одиниць досліджуваної сукупності володіє тим чи іншим значенням ознаки і яка частка цієї групи одиниць в загальному обсязі сукупності, а також виявити закономірність зміни частот.

    На основі таблиць будуються графіки, які відображають закономірність розподілу аналізованої статистичної сукупності. Графічне представлення може бути здійснено як використанням абсолютних, так і відносних частот [3].


    Мал. 1.1. Полігон розподілу регіонів Росії за кількістю власних легкових автомобілів на 1000 чоловік населення в 1990 році

    Мал. 1.2. Кумулята розподілу регіонів Росії за кількістю власних легкових автомобілів на 1000 чоловік населення в 1990 році


    Мал. 1.3 Гістограма розподілу регіонів Росії за кількістю власних легкових автомобілів на 1000 чоловік населення в 1990 році


    2. Характеристика центральної тенденції розподілу

    Середнє значення ознак сукупності, мода і медіана характеризують центральну тенденцію розподілу, вказують той рівень ознаки, який є типовим, характерним для даної сукупності. Використання того чи іншого показника розподілу залежить від типу вихідних даних і мети дослідження. Оскільки середня величина розраховується на одиницю сукупності, але з використанням всіх індивідуальних значень ознаки, вона є узагальненою характеристикою всієї сукупності [1].

    Формули розрахунку. Середня арифметична проста:

    ,


    де - Значення ознаки у i-ої одиниці сукупності, n - обсяг сукупності.

    медіана:

    ,

    де - Нижня межа медіанного інтервалу, - Величина группировочного інтервалу, - Сума частот ( ), - Накопичена частота інтервалу, що передує медіанного; - Частота медіанного інтервалу.

    Мода:

    ,

    де - Нижня межа модального інтервалу, - Величина группировочного інтервалу, - Частота модального інтервалу,

    / - Частота інтервалу, що передує / наступного за модальним.

    Таблиця 2.1. Показники центру і структури розподілу

    показник центру значення
    Середнє значення 55,70595
    медіана 56,15000
    Мода 52,87000

    В середньому в регіонах Росії кількість автомобілів на 1000 чоловік населення в 1990 році становило 55,71 штуку. У 50% регіонів Росії кількість автомобілів на 1000 чоловік населення в 1990 році було менше 56,15 штук, а в іншій половині - більше.


    3. Оцінка варіації досліджуваного ознаки

    Варіація - розбіжності у індивідуального значення ознаки досліджуваної сукупності. Розрахунок показників центру супроводжується розрахунком показників варіації. Показники варіації бувають:

    - Абсолютні (розмах варіації, середнє лінійне відхилення, дисперсія, середньоквадратичне відхилення);

    - Відносні (коефіцієнт осциляції, відносне лінійне відхилення, коефіцієнт варіації) [1].

    Формули розрахунку. Розмах варіації:

    ,

    де і - Максимальне і мінімальне значення ознаки сукупності.

    дисперсія:

    ,


    де - Значення ознаки у i-ої одиниці сукупності, - Середня арифметична, - Частота у i-ої одиниці сукупності, - Сума частот ( ).

    Середнє квадратичне (стандартне) відхилення:

    .

    Коефіцієнт варіації:

    Таблиця 3.1. показники варіації

    показник варіації значення
    Розмах варіації R 73
    Дисперсія s 2 227,8647
    Середнє квадратичне отклоненіеs 15,0952
    Коефіцієнт варіації V 27,0980%

    Розмах варіації, різниця між максимальним і мінімальним значеннями сукупності, становить 73 одиниці. Дисперсія змістовно не тлумачиться, проте є найважливішим показником варіації, на основі якого розраховується ряд статистичних показників, в тому числі і коефіцієнт варіації, в даному випадку рівний 27,0980%. Коефіцієнт варіації оцінює ступінь кількісної однорідності досліджуваної сукупності. В даному випадку сукупність можна визнати однорідною, тому що коефіцієнт варіації менше 33%.

    У 1990 році в регіонах Росії число автомобілів на 1000 чоловік населення відрізнялося від середнього по країні на 15,0952 штук.


    4. Характеристика структури розподілу

    До показників структури, крім медіани, також відносять квартили, які ділять сукупність на чотири частини, децили (10 частин) та інші показники. Використання тих чи інших характеристик залежить від мети дослідження і від обсягу досліджуваної сукупності (зі збільшенням обсягу росте число груп). У даній роботі необхідно підрахувати тільки медіану і квартили [1].

    Формули розрахунку. Нижній квартиль:

    .

    Верхній квартиль:

    .

    Таблиця 4.1. показники структури

    показник структури значення
    Нижній квартиль 44,80
    медіана 56,15
    верхній квартиль 65,80

    У 50% регіонів Росії кількість автомобілів на 1000 чоловік населення в 1990 році становило від 44,80 до 65,80 штук.


    5. Характеристика форми розподілу

    Форма розподілу має такі характеристики:

    - Асиметрія;

    - Ексцес (куртозіс).

    Відповідно існують коефіцієнти асиметрії та ексцесу і стандартні помилки для цих коефіцієнтів. Коефіцієнт асиметрії оцінює, наскільки розподіл симетрично щодо центру. Коефіцієнт ексцесу оцінює крутизну розподілу, тобто ступінь випаду вершини розподілу щодо кривої нормального розподілу. Ексцес має сенс оцінювати тільки тоді, коли в емпіричному розподілі присутній несуттєва асиметрія.

    Формули розрахунку. Коефіцієнт асиметрії:

    .

    Стандартна помилка:

    .

    Коефіцієнт ексцесу:

    .


    Стандартна помилка:

    .

    Таблиця 5.1. показники форми

    показник форми значення
    Коефіцієнт асиметрії As 0,032687
    Стандартна помилка s As 0,262651
    Коефіцієнт ексцесу Es -0,377168
    Стандартна ошібкаs Es 0,519660

    За результатами підрахунків робляться такі висновки: розподіл має дуже незначну правостороннім асиметрію, крім того є незначний негативний ексцес, це означає, що в сукупності не сформувалося «ядро» розподілу.


    6. Згладжування емпіричного розподілу. Перевірка гіпотези про закон розподілу

    Процедура вирівнювання, згладжування аналізованого розподілу полягає в заміні емпіричних частот теоретичними, що визначаються за формулою теоретичного розподілу, але з урахуванням фактичних значень змінної. На основі зіставлення емпіричних і теоретичних частот розраховуються критерії згоди, які використовуються для перевірки гіпотези про відповідність досліджуваного розподілу того чи іншого типу теоретичних розподілі.

    Вибір конкретного типу модельного розподілу здійснюється виходячи з найбільш загальних міркувань, що спираються на візуальний аналіз побудованих графіків розподілу. У практичному аналізі обов'язковою є перевірка відповідності досліджуваного розподілу нормальному закону розподілу. Необхідність цього пов'язана з тим, що умовою застосування значного числа статистичних характеристик і оцінок є наявність нормального розподілу.

    Перевірка гіпотези про нормальний розподіл регіонів Росії за кількістю автомобілів на душу населення в 1990 році засновується на розрахунку критерію

    ,

    де - Емпіричні абсолютні частоти, - Абсолютні частоти теоретичного розподілу, k - число інтервалів.

    Таблиця 6.1. Перевірка гіпотези про нормальний розподіл регіонів Росії за кількістю автомобілів на душу населення в 1990 році

    Формули, за якими розраховується щільність модельного розподілу, а також формули для розрахунку теоретичних частот розподілу можуть бути легко знайдені в загальнодоступній довідкової та навчальної літератури. У даній лабораторній роботі використовуються формули для нормального розподілу.

    Функція нормального розподілу: , Щільність нормального розподілу:


    ,

    де - Значення досліджуваного ознаки, - Середня арифметична величина, - Середньоквадратичне відхилення досліджуваного ознаки, e, π - математичні константи, - Нормоване відхилення.

    Теоретичні частоти нормального відхилення розраховуються за такою формулою:

    ,

    де N - обсяг сукупності, h k - величина інтервалу. У моєму випадку варіаційний ряд побудований з використанням рівних інтервалів, отже: .

    Мал. 6.1. Гістограма і розрахункова крива розподілу регіонів Росії за кількістю власних легкових автомобілів на 1000 чоловік населення в 1990 р


    У шапці таблиці знаходяться наступні показники: , (Уточнене значення числа ступенів свободи,

    ,

    де k - число інтервалів варіаційного ряду, n - число параметрів теоретичного розподілу, що визначаються за дослідними даними, для нормального закону n = 2, p - розрахунковий рівень значущості).

    Ухвалення рішення про справедливість гіпотези про закон розподілу можна здійснити, орієнтуючись на емпіричне значення критерію , Який порівнюється з табличним значенням . Остаточні висновки щодо перевірки гіпотези про закон розподілу: так як , То гіпотеза про нормальний розподіл регіонів Росії за кількістю власних легкових автомобілів на 1000 чоловік населення в 1990 року не суперечить істині.


    висновок

    Тільки в тридцяти регіонах Росії, що становить 35,71% від загального числа регіонів, кількість автомобілів на 1000 чоловік населення в 1990 році становило від 46,3 до 60,9 штук. У п'ятдесяти п'яти регіонах Росії (65,47% від усіх регіонів) кількість автомобілів на 1000 чоловік населення в 1990 році становило менш 60,9 штук.

    В середньому в регіонах Росії кількість автомобілів на 1000 чоловік населення в 1990 році становило 55,71 штуку. У 50% регіонів Росії кількість автомобілів на 1000 чоловік населення в 1990 році було менше 56,15 штук, а в іншій половині - більше.

    Розмах варіації, різниця між максимальним і мінімальним значеннями сукупності, становить 73 одиниці. У 1990 році в регіонах Росії число автомобілів на 1000 чоловік населення відрізнялося від середнього по країні на 15,0952 штук. Коефіцієнт варіації оцінює ступінь кількісної однорідності досліджуваної сукупності. В даному випадку сукупність можна визнати однорідною, т. К. Коефіцієнт варіації менше 33% (V = 27,098%).

    У 50% регіонів Росії кількість автомобілів на 1000 чоловік населення в 1990 році становило від 44,80 до 65,80 штук.

    Розподіл має дуже незначну правостороннім асиметрію, крім того є незначний негативний ексцес, це означає, що в сукупності не сформувалося «ядро» розподілу.

    Даний розподіл відповідає нормальному закону розподілу за критерієм Пірсона.


    Список використаних джерел

    1. Лекції з дисципліни статистика. Лектор - доц. О.А. Пономарьова, 2008.

    2. Збірник Росстату Регіони Росії. Соціально-економічні показники. 2006.

    3. Навчальний посібник. Статистика. Методи аналізу розподілів. Вибіркове спостереження. Н.В. Купрієнко, О.А. Пономарьова, Д.В. Тихонов. 132 с. - 2008.