• Зміст завдань.
  • Перевезено вантажів, тис. Тонн


  • Дата конвертації24.03.2017
    Розмір18.95 Kb.
    Типконтрольна робота

    Скачати 18.95 Kb.

    Виконання кореляційного і регресійного аналізу

    Контрольна робота

    з дисципліни "Економетрика"

    студента гр. ВФ-108

    Звягіної Марії Михайлівни


    Розділ I. Практична частина

    Зміст завдань.


    Завдання 1

    1. За вихідними даними виконати кореляційний аналіз:

    Таблиця 9

    Основні показники роботи вантажних автомобілів великих і середніх організацій автомобільного транспорту в 2006 році

    Перевезено вантажів, тис. Тонн Витрати, млн, крб
    Володимирська 594,6 258,3
    Брянська 3178,9 656,5
    Білгородська 523,8 824,4
    Воронежская 2572,3 220,1
    Івановська 308,5 73,8
    Костромська 580,5 82,7
    Рязанська 203,7 65,4
    Смоленська 389,3 86,6
    Тульська 225,8 36,5
    Ярославська 693,4 279,9

    Основним завданням кореляційного аналізу є - виявлення зв'язку між випадковими змінними і оцінка її тісноти. Показником тісноти лінійного зв'язку є коефіцієнт кореляції r.

    1.1. Побудувати кореляційне поле і запропонувати гіпотезу про зв'язок досліджуваних факторів

    Для трактування лінійного зв'язку між змінної X ( "Перевезено вантажів") і Y ( "Витрати") за допомогою вбудованих можливостей MicrosoftExcelпостроім поле кореляції заданої вибірки спостережень (діаграма 1).

    кореляційний регресійний аналіз

    Характер розташування точок на діаграмі дозволяє зробити попередній висновок про те, що зв'язок між змінними пряма, тобто збільшення однієї з змінних веде збільшення умовної (груповий) середньої інший.

    Зв'язок між змінними в діапазоні досить тісний, однак в діапазоні є точки викиду, тобто точки, що знаходяться на досить віддаленій відстані від загального масиву точок. Їм відповідають дані по Брянській, Білгородській і Воронезькій областях.

    Діаграма 1.

    Зробимо припущення, що:

    1. дані по Брянській області є точкою викиду;

    2. дані по Білгородській області є точкою викиду;

    3. дані по Воронезькій області є точкою викиду;

    4. дані по Брянській і Бєлгородської областей є точками викиду;

    5. дані по Брянській і Воронезькій областях є точками викиду;

    6. дані по Бєлгородській та Воронезькій областях є точками викиду

    7. дані по Брянській, Білгородській і Воронезькій областях є точками викиду.

    1.2. Визначити коефіцієнти кореляції

    Для заданого масиву змінних коефіцієнт кореляції r = 0,454 (розрахований за допомогою функції MicrosoftExcelКОРРЕЛ).

    Коефіцієнт кореляції r> 0, отже, кореляційний зв'язок між змінними пряма, що підтверджує попередній висновок, зроблений в п.1.1.

    Коефіцієнт кореляції r прийняв значення на відрізку [-1; 1], отже, ми можемо оцінити тісноту зв'язку випадкових величин, заданих масивами, за допомогою шкали Чеддока:

    тіснота зв'язку Значення коефіцієнта кореляції при наявності:
    прямого зв'язку зворотнього зв'язку
    слабка 0,1 - 0,3 (-0,1) - (-0,3)
    помірна 0,3 - 0,5 (-0,3) - (-0,5)
    помітна 0,5 - 0,7 (-0,5) - (-0,7)
    висока 0,7 - 0,9 (-0,7) - (-0,9)
    вельми висока 0,9 - 0,99 (-0,9) - (-0,99)

    Коефіцієнт кореляції r належить інтервалу (0,3; 0,5), отже, зв'язок між змінними помірна.

    Розрахуємо коефіцієнти кореляції, виключаючи дані по суб'єктах РФ відповідно до висунутим припущенням:

    r = 0,116
    r = 0,821
    r = 0,578
    r = 0,511
    r = 0,455
    r = 0,949
    r = 0,824

    Аналіз отриманих коефіцієнтів показує, що припущення 5 вірно, тобто дані по Брянській і Бєлгородської областей є точками викиду (виняток точок, відповідних зазначеним суб'єктам РФ, з кореляційного поля не спричинило за собою внесення суттєвих змін до коефіцієнта кореляції). Всі інші припущення вважаємо невірними. Крім того, відзначається значне збільшення тісноти зв'язку між змінними при виключенні з кореляційного поля точок, які відповідають даним по Бєлгородській та Воронезькій областях (припущення 6), і її значне зменшення при виключенні даних по Брянській області.

    1.3. Оцінити статистичну значущість обчислених коефіцієнтів кореляції

    Оцінку статистичної значущості коефіцієнтів кореляції будемо проводити за допомогою t-критерію Стьюдента на рівні значущості α = 0,05.

    Парний двухвиборочний t-тест для середніх
    r = 0,454
    Мінлива 1 Мінлива 2
    середнє 927,08 258,42
    дисперсія +1101362,746 +73524,47289
    спостереження 10 10
    кореляція Пірсона 0,454062283
    Гіпотетична різниця середніх 0
    df 9
    t-статистика 2, 208 751 921
    P (T <= t) однобічне 0,027278104
    t критичне однобічне 1,833112923
    P (T <= t) двостороннє 0,054556208
    t критичне двостороннє 2,262157158

    Розрахункове значення критерію Стьюдента t р = 2,21 менше критичного t КРИТ = 2,306 (взято з таблиці t-розподілів Стьюдента при числі ступенів свободи n -2 = 8 і величиною похибки α = 0,05), з чого робимо висновок про незначущість коефіцієнта кореляції.

    Так як виняток даних по Брянській і Бєлгородської областей згідно з раніше проведеним аналізом не суттєво впливає на коефіцієнт кореляції, то при знаходженні t-критерію Стьюдента для вибірки вихідних даних при припущенні 5 отримаємо практично аналогічний результат.

    Парний двухвиборочний t-тест для середніх
    r = 0,455
    Мінлива 1 Мінлива 2
    середнє 696,0125 137,9125
    дисперсія +607399,8755 +9534,678393
    спостереження 8 8
    кореляція Пірсона 0,510547416
    Гіпотетична різниця середніх 0
    df 7
    t-статистика 2,149664636
    P (T <= t) однобічне 0,034323806
    t критичне однобічне 1,894578604
    P (T <= t) двостороннє 0,068647613
    t критичне двостороннє 2,364624251

    Розрахункове значення критерію Стьюдента t р = 2,15 менше критичного t КРИТ = 2,45 (взято з таблиці t-розподілів Стьюдента при числі ступенів свободи n -2 = 6 і величиною похибки α = 0,05). Коефіцієнт кореляції незначну.

    1.4. Зробити підсумкові висновки.

    Між показниками роботи вантажних автомобілів великих і середніх організацій автомобільного транспорту в 2006 році існує помірна статистична взаємозв'язок. Для проведення аналізу дані по Брянській і Бєлгородської областей можна не враховувати.


    завдання 2

    2. За вихідними даними виконати регресійний аналіз:

    2.1. Розрахувати параметри рівняння лінійної парної регресії;

    Лінійне рівняння парної регресії має вигляд:

    ,

    де - Оцінка умовного математичного очікування y;

    b 0, b 1 - емпіричні коефіцієнти регресії, що підлягають визначенню.

    Емпіричні коефіцієнти регресії b 0, b 1 визначатимемо за допомогою інструменту Регресія MS Excel.

    ВИСНОВОК ПІДСУМКІВ
    регресійна статистика
    множинний R 0,454062283
    R-квадрат 0, 206172557
    Нормований R-квадрат 0,106944127
    стандартна помилка +991,7552465
    спостереження 10
    дисперсійний аналіз
    df SS MS F значимість F
    регресія 1 +2043636,965 +2043636,965 2,078 0,187
    залишок 8 +7868627,751 983578,469
    Разом 9 +9912264,716
    коефіцієнти стандартна помилка
    Y-перетин 472,939 444,546
    Мінлива X 1 1,757 1,219

    Таким чином, емпіричні коефіцієнти регресії відповідно рівні b 0 = 472,94, b 1 = 1,76.

    Тоді рівняння парної лінійної регресії, що зв'язує обсяги перевезених вантажними автомобілями великих і середніх організацій автомобільного транспорту в 2006 році, y з величиною витрат на перевезення x, має вигляд:

    2.2. Дати за допомогою загального (середнього) коефіцієнта еластичності порівняльну оцінку сили зв'язку фактора з результатом

    Оцінимо тісноту статистичного зв'язку між витратами на перевезення, що здійснюються вантажними автомобілями великих і середніх організацій в 2006 році, x і їх обсягами y. Ця оцінку проводиться за допомогою коефіцієнта кореляції r xy.

    Величина цього коефіцієнта розрахована в п.1.2 і дорівнює r = 0,454.Як говорилося вище, зв'язок між змінними помірна пряма.

    Параметр R-квадрат є квадрат коефіцієнта кореляції r xy 2 і називається коефіцієнтом детермінації. Величина даного коефіцієнта характеризує частку дисперсії залежної змінної y, пояснення регресією (пояснює змінної x).

    Відповідно величина 1 - r xy 2 характеризує частку дисперсії змінної y, викликану впливом всіх інших, неврахованих в економетричної моделі пояснюють змінних.

    Таким чином, частка всіх неврахованих в отриманої економетричної моделі пояснюють змінних приблизно становить: 1 - 0, 206 = 0,794 або 79,4%. Ступінь зв'язку пояснює змінної x з залежною змінною y визначається за допомогою коефіцієнта еластичності, який для моделі парної лінійної регресії визначається у вигляді:

    .

    тоді

    Отже, при зміні величини витрат на вантажоперевезення на 1% їх обсяг змінюється на 0,49%.

    2.3. Оцінити якість рівняння з допомогою середньої помилки апроксимації.

    Середня помилка апроксимації оцінюється по залежності:

    Для цього вихідну таблицю доповнюємо двома колонками, в яких визначаємо значення , Розраховані з використанням залежності і значення різниці .

    Перевезено вантажів, тис. Тонн Витрати, млн, крб
    Володимирська 594,6 258,3 926,869 0,559
    Брянська 3178,9 656,5 1626,656 0,488
    Білгородська 523,8 824,4 1921,720 2,669
    Воронежская 2572,3 220,1 859,737 0,666
    Івановська 308,5 73,8 602,633 0,953
    Костромська 580,5 82,7 618,274 0,065
    Рязанська 203,7 65,4 587,871 1,886
    Смоленська 389,3 86,6 625,128 0,606
    Тульська 225,8 36,5 537,083 1,379
    Ярославська 693,4 279,9 964,828 0,391
    сума = 9,662

    Середня помилка апроксимації становить:

    Практично вважають, що значення середньої помилки апроксимації не повинно перевищувати 12-15% для грубого наближення регресії до реальної залежності. У нашому випадку помилка надмірна велика.

    Скористаємося результатами дослідження, проведеного в п.1, т. Е виключимо з даної вибірки дані по Брянській і Бєлгородської областей.

    У цьому випадку рівняння парної регресії набуде вигляду:

    .

    Частка неврахованих в отриманої економетричної моделі пояснюють змінних складе: 1 - 0,260 = 0,74 або 74%.

    Коефіцієнт еластичності складе:

    ,

    а середня помилка апроксимації:

    Виняток точок викиду з даної вибірки знизило помилку апроксимації, проте її значення перевищує допустиме значення.

    2.4. Оцінити статистичну надійність результатів регресивного моделювання за допомогою критерію Ст'юдента і F-критерію Фішера.

    Проведемо більш сувору оцінку статистичної надійності моделювання за допомогою F-критерію Фішера.

    Для цього перевіримо нульову гіпотезу H 0 про статистичної незначущості отриманого рівняння регресії за умовою: якщо при заданому рівні значущості α = 0,05 теоретичне (розрахункове) значення F-критерію (F) більше його критичного значення (F КРИТ), то нульова гіпотеза відкидається і отримане рівняння регресії приймається значущим.

    Розрахункове значення F, певне за допомогою інструменту Регресія MS Excel, склало F = 2,078.

    Критичне значення F КРИТ визначимо за допомогою статистичної функції FРАСПОБР. Вхідними параметрами функції є рівень значущості (ймовірність) і число ступенів свободи 1 і 2. Для моделі парної регресії число ступенів свободи відповідно дорівнює 1 (одна пояснює змінна) і n - 2 = 10 - 2 = 8.

    F КРИТ = 5,318.

    Розрахункове значення F = 2,078 менше критичного F КРИТ = 5,318, тому нульова гіпотеза H 0 про статистичної незначущості рівняння регресії приймається, що підтверджує висновок, зроблений в п.2.3.

    При розрахунку критеріїв Фішера для скороченою вибірки (виключаючи дані по Брянській і Бєлгородської областей) отримуємо аналогічний результат.

    F = 2,115 КРИТ = 5,987.

    2.5. Зробити підсумкові висновки.

    1. Рівняння парної лінійної регресії, що зв'язує обсяги перевезених вантажними автомобілями великих і середніх організацій автомобільного транспорту в 2006 році, y з величиною витрат на перевезення x, має вигляд:

    При цьому частка всіх неврахованих в отриманої економетричної моделі пояснюють змінних приблизно становить 79,4%, тобто врахованими залишаються лише 20,6% параметрів.

    Величина коефіцієнта еластичності говорить про те, що при зміні величини витрат на вантажоперевезення на 1% їх обсяг повинен змінитися на 0,49%.

    Розрахунок середньої помилки апроксимації = 96,62%), а також аналіз за допомогою критерію Фішера показав, що отримане рівняння регресії не відповідає реальній залежності (в силу великої частки неврахованих в залежності параметрів).

    2. Рівняння парної лінійної регресії для вибірки вихідних даних, що виключає дані по Брянській і Бєлгородської областей, які за результатами виконання завдання 1 визнані точками викиду, має вигляд:

    При цьому частка всіх неврахованих в отриманої економетричної моделі пояснюють змінних приблизно становить 74%.

    Величина коефіцієнта еластичності говорить про те, що при зміні величини витрат на вантажоперевезення на 1% їх обсяг повинен змінитися на 0,81%.

    Розрахунок середньої помилки апроксимації = 56,25%), а також аналіз за допомогою критерію Фішера показав, що отримане рівняння регресії також не відповідає реальній залежності (в силу великої частки неврахованих в залежності параметрів).

    Результати регресійного моделювання не надійні.