• РОЗДІЛ 2. КОМПОНЕНТНИЙ І Факторний аналіз
  • Другий фактор
  • РАЗДЕЛ 3. КЛАСТЕРНЫЙ АНАЛИЗ
  • РАЗДЕЛ 4. ДИСКРИМИНАНТНЫЙ АНАЛИЗ


  • Дата конвертації30.05.2017
    Розмір160.21 Kb.
    Типкурсова робота

    Скачати 160.21 Kb.

    Багатовимірні статистичні методи і економетрика

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    1

    0

    2,4

    2,21

    2,06

    1,78

    1,74

    2,79

    2,42

    2,01

    2,09

    2,4

    2,17

    1,91

    7,82

    1,38

    2,43

    1,65

    2,77

    1,45

    2,3

    2

    2,4

    0

    3,07

    2,98

    2,94

    2,73

    3,42

    3,59

    3,38

    3,11

    3,57

    4,19

    3,93

    7,55

    3,18

    2,25

    2,49

    4,23

    3,19

    3,48

    3

    2,21

    3,07

    0

    , 33

    , 8

    , 5

    , 74

    , 75

    , 86

    3,34

    1,07

    3,32

    2,8

    8,12

    1,62

    1,36

    1,16

    2,16

    1,56

    , 73

    4

    2,06

    2,98

    , 33

    0

    , 69

    , 52

    , 75

    , 69

    , 8

    3,2

    , 89

    3,09

    2,66

    7,86

    1,38

    1,24

    , 92

    1,96

    1,46

    , 72

    5

    1,78

    2,94

    , 8

    , 69

    0

    , 67

    1,21

    , 81

    , 46

    2,59

    , 85

    2,66

    2,08

    7,92

    1,09

    1,44

    , 72

    1,68

    , 86

    , 61

    6

    1,74

    2,73

    , 5

    , 52

    , 67

    0

    1,2

    1,05

    , 88

    2,98

    1,27

    3,07

    2,54

    8,1

    1,4

    1,39

    , 98

    2,25

    1,28

    , 94

    7

    2,79

    3,42

    , 74

    , 75

    1,21

    1,2

    0

    , 77

    1,21

    3,72

    , 96

    3,59

    3,17

    7,89

    1,95

    1,33

    1,41

    2,04

    2,03

    , 92

    8

    2,42

    3,59

    , 75

    , 69

    , 81

    1,05

    , 77

    0

    , 56

    3,29

    , 44

    2,97

    2,5

    8,

    1,41

    1,72

    1,26

    1,49

    1,43

    , 3

    9

    2,01

    3,38

    , 86

    , 8

    , 46

    , 88

    1,21

    , 56

    0

    2,82

    , 69

    2,64

    2,03

    8,07

    1,12

    1,8

    1,09

    1,5

    , 89

    , 35

    10

    2,09

    3,11

    3,34

    3,2

    2,59

    2,98

    3,72

    3,29

    2,82

    0

    3,11

    2,26

    1,7

    7,84

    2,42

    3,2

    2,47

    2,98

    2,06

    3,08

    11

    2,4

    3,57

    1,07

    , 89

    , 85

    1,27

    , 96

    , 44

    , 69

    3,11

    0

    2,71

    2,34

    7,68

    1,24

    1,69

    1,13

    1,12

    1,4

    , 57

    12

    2,17

    4,19

    3,32

    3,09

    2,66

    3,07

    3,59

    2,97

    2,64

    2,26

    2,71

    0

    1,17

    7,37

    1,72

    3,6

    2,61

    2,14

    2,06

    2,92

    13

    1,91

    3,93

    2,8

    2,66

    2,08

    2,54

    3,17

    2,5

    2,03

    1,7

    2,34

    1,17

    0

    8,02

    1,53

    3,26

    2,24

    1,96

    1,29

    2,35

    14

    7,82

    7,55

    8,12

    7,86

    7,92

    8,1

    7,89

    8

    8,07

    7,84

    7,68

    7,37

    8,02

    0

    7,47

    7,32

    7,3

    7,47

    8,1

    8,11

    15

    1,38

    3,18

    1,62

    1,38

    1,09

    1,4

    1,95

    1,41

    1,12

    2,42

    1,24

    1,72

    1,53

    7,47

    0

    2,08

    1,09

    1,46

    , 92

    1,38

    16

    2,43

    2,25

    1,36

    1,24

    1,44

    1,39

    1,33

    1,72

    1,8

    3,2

    1,69

    3,6

    3,26

    7,32

    2,08

    0

    1,05

    2,56

    2,19

    1,7

    17

    1,65

    2,49

    1,16

    , 92

    , 72

    , 98

    1,41

    1,26

    1,09

    2,4

    1,13

    2,61

    2,24

    7,3

    1,09

    1,05

    0

    1,83

    1,24

    1,19

    18

    2,77

    4,23

    2,16

    1,96

    1,68

    2,25

    2,04

    1,49

    1,5

    2,98

    1,12

    2,14

    1,96

    7,47

    1,46

    2,56

    1,83

    0

    1,71

    1,54

    19

    1,45

    3,19

    1,56

    1,46

    , 86

    1,28

    2,03

    1,43

    , 89

    2,06

    1,4

    2,06

    1,29

    8,1

    , 92

    2,19

    1,24

    1,71

    0

    1,22

    20

    2,3

    3,48

    , 73

    , 72

    , 61

    , 94

    , 92

    , 3

    , 35

    3,08

    , 57

    2,92

    2,35

    8,11

    1,38

    1,7

    1,19

    1,54

    1,22

    0

    Відстань між першим і двадцятим об'єктами, розраховане за формулою евклидова відстані:

    - одно 2,3.

    2. Розглянемо перші п'ять рядків протоколу об'єднання:

    порядок агломерації

    крок

    Об'єднання в кластери

    коефіцієнти

    Крок, на якому кластер з'являється вперше

    Наступний крок

    кластер 1

    кластер 2

    кластер 1

    кластер 2

    1

    8

    20

    , 303

    0

    0

    3

    2

    3

    4

    , 326

    0

    0

    6

    3

    8

    9

    , 346

    1

    0

    4

    4

    8

    11

    , 443

    3

    0

    5

    5

    5

    8

    , 455

    0

    4

    7

    6

    3

    6

    , 498

    2

    0

    7

    7

    3

    5

    , 669

    6

    5

    8

    8

    3

    17

    , 715

    7

    0

    9

    9

    3

    7

    , 743

    8

    0

    10

    10

    3

    19

    , 863

    9

    0

    11

    11

    3

    15

    , 919

    10

    0

    12

    12

    3

    16

    1,050

    11

    0

    13

    13

    3

    18

    1,122

    12

    0

    15

    14

    12

    13

    1,171

    0

    0

    15

    15

    3

    12

    1,286

    13

    14

    16

    16

    1

    3

    1,377

    0

    15

    17

    17

    1

    10

    1,698

    16

    0

    18

    18

    1

    2

    2,252

    17

    0

    19

    19

    1

    14

    7,295

    18

    0

    0

    На першому кроці об'єднуються спостереження під номерами 8 і 20 на рівні 0,303. Ці 2 регіону максимально схожі один на одного і віддалені на дуже малу відстань. Далі цей кластер зустрічається на 3-му кроці під номером 8. На другому кроці, на рівні 0,326 об'єднуються кластери 3 і 4. На третьому - 8-й і 9-й на рівні 0,346. На четвертому - 8 і 11 на 0,443. На 5-му - 5 і 8 кластери на рівні 0,455.

    Наведемо алгоритм перерахунку матриці відстаней між об'єктами на кожному кроці об'єднання:

    · На нульовому кроці за розбиття приймається вихідна сукупність 20 елементарних кластерів. Тобто кожне спостереження - це окремий кластер.

    · На кожному наступному кроці відбувається об'єднання 2-х кластерів k s і k t, сформованих на попередньому етапі в один кластер, при цьому розмірність матриці відстаней зменшується в порівнянні з розміром вихідної матриці на попередньому кроці на одиницю. За відстань між кластерами приймається мінімальне з відстаней (метод ближнього сусіда).

    Нижче наведемо Дендрограмма розбиття по методу ближнього сусіда.

    порядок агломерації

    крок

    Об'єднання в кластери

    коефіцієнти

    Крок, на якому кластер з'являється вперше

    Наступний крок

    кластер 1

    кластер 2

    кластер 1

    кластер 2

    1

    8

    20

    , 303

    0

    0

    5

    2

    3

    4

    , 326

    0

    0

    4

    3

    5

    9

    , 455

    0

    0

    6

    4

    3

    6

    , 520

    2

    0

    10

    5

    8

    11

    , 572

    1

    0

    6

    Тут перші два кроки кластеризації відповідають першим двом крокам агломерації за методом ближнього сусіда. На третьому кроці на рівні 0,455 об'єднуються кластери 5 і 9; на четвертому на рівні 0,52 - кластери 3 (включає 3 і 4 регіони) і 6; на п'ятому - 8 і 11 на рівні 0,572.

    Тут, як і в методі ближнього сусіда, 14-й кластер виділяється в окремий, а в другій кластер потрапляють всі інші регіони.

    Розглянемо перші п'ять кроків протоколу об'єднання за методом середньої зв'язку:

    порядок агломерації

    крок

    Об'єднання в кластери

    коефіцієнти

    Крок, на якому кластер з'являється вперше

    Наступний крок

    кластер 1

    кластер 2

    кластер 1

    кластер 2

    1

    8

    20

    , 303

    0

    0

    3

    2

    3

    4

    , 326

    0

    0

    4

    3

    8

    9

    , 452

    1

    0

    5

    4

    3

    6

    , 509

    2

    0

    7

    5

    8

    11

    , 570

    3

    0

    6

    Від попереднього випадку цей порядок агломерації відрізняється тільки третім кроком, на якому об'єднуються кластери 8 і 9 на рівні 0,452.

    У цьому випадку, як і в двох попередніх, другого кластеру належить тільки 1 регіон - Ненецький АО, а першого - все решта 19 регіонів.

    Алгоритм перерахунку матриці відстаней на кожному кроці агломерації для методів далекого сусіда і середньої зв'язку аналогічний вищенаведеному алгоритму, з тією лише відмінністю, що за відстань між кластерами приймається далеку відстань: (метод далекого сусіда) або відстань, яка розраховується за формулою:

    (Метод середньої зв'язку).

    3. Проведемо обчислення за методом К-середніх, вибравши в якості кількості кластерів число 2. Цей метод кластеризації істотно відрізняється від ієрархічних агломеративного методів. Припустимо, вже є гіпотези щодо числа кластерів (за спостереженнями або по змінним). Можна вказати системі утворити рівно три кластери так, щоб вони були настільки різні, наскільки це можливо. Це саме той тип завдань, які вирішує алгоритм методу K середніх. Це алгоритм, призначений для вибору K центрів, що представляють кластери в N точках (K

    В результаті роботи програми отримано розбиття регіонів на 2 кластери:

    кластерна приналежність

    номер б'екта

    регіони

    кластери

    відстань

    1

    Липецька

    2

    1,515

    2

    Московська

    2

    2,845

    3

    Орловська

    2

    1,088

    4

    Рязанська

    2

    , 882

    5

    Смоленська

    2

    , 396

    6

    Тамбовська

    2

    , 869

    7

    Тверська

    2

    1,462

    8

    Тульська

    2

    1,030

    9

    Ярославська

    2

    , 675

    10

    Москва

    2

    2,371

    11

    Карелія

    2

    , 942

    12

    Комі

    2

    2,324

    13

    Архангельська

    2

    1,845

    14

    Ненецький АО

    1

    , 000

    15

    Вологодська

    2

    , 745

    16

    Калінінградська

    2

    1,511

    17

    Ленінградська

    2

    , 556

    18

    Мурманська

    2

    1,576

    19

    Новгородська

    2

    , 747

    20

    Псковська

    2

    , 901

    З таблиці видно, що Ненецький АО знову виділяється в окремий кластер, в той час, як інші регіони належать іншому кластеру.

    4. Проведемо кластерний аналіз, вибравши в якості ознак головні компоненти, на частку яких припадає не менше 70% частки загальної дисперсії.

    Відстань між першим і останнім об'єктами дорівнює 1, 188.

    В результаті кластерного аналізу регіонів за методом ближнього сусіда з використанням головних компонент отримано таке ж розбиття по кластерам, як при аналізі вихідних ознак.

    Аналогічно для методу далекого сусіда, середньої зв'язку та К-середніх.

    5. Тепер проведемо кластерний аналіз по основним чинникам, виділеним в попередній роботі. Аналогічно кластерному аналізу по головних компонентів ми отримали точно таке ж розбиття регіонів за всіма чотирма методам.

    У підсумку ми отримали однакову розбиття регіонів з використанням як вихідних ознак, так і головних компонент і чинників.

    Всі результати кластерного аналізу по головних компонентів і факторів занесемо в таблицю.

    Кластерна приналежність регіонів (з використанням головних компонент і чинників)

    регіон

    метод

    Близького сусіда

    далекого сусіда

    середній зв'язку

    К-середніх

    Ліпецька область

    1

    1

    1

    1

    Московська область

    1

    1

    1

    1

    Орловська область

    1

    1

    1

    1

    Рязанська область

    1

    1

    1

    1

    Смоленська область

    1

    1

    1

    1

    Тамбовська область

    1

    1

    1

    1

    Тверська область

    1

    1

    1

    1

    Тульська область

    1

    1

    1

    1

    Ярославська область

    1

    1

    1

    1

    м Москва

    1

    1

    1

    1

    республіка Карелія

    1

    1

    1

    1

    Республіка Комі

    1

    1

    1

    1

    Архангельська область

    1

    1

    1

    1

    Ненецький авт.округ

    2

    2

    2

    2

    Вологодська область

    1

    1

    1

    1

    Калінінградська область

    1

    1

    1

    1

    Ленінградська область

    1

    1

    1

    1

    Мурманська область

    1

    1

    1

    1

    Новгородська область

    1

    1

    1

    1

    Псковська область

    1

    1

    1

    1

    6. Для кожного варіанта розбивки обчислимо внутрікласові середні значення вихідних ознак і їх вибіркові дисперсії і занесемо ці значення в зведену таблицю.

    Очевидно, що можна вибрати будь-який з перерахованих вище методів розбиття, тому що вони дають абсолютно однакові результати.

    7. Для методу ближнього сусіда перевіримо гіпотезу про рівність математичних очікувань кожного з п'яти ознак в кластерах. Результати наведені в таблиці, в якій стовпець «Рівень значущості» містить значення, що дозволяють прийняти або відкинути гіпотезу. Якщо розрахований рівень значущості менше 0,05, то гіпотеза відкидається, якщо більше 0,05, то приймається [8,69].

    Як видно з таблиці, для першого, другого, четвертого і п'ятого ознак розрахований рівень значущості менше 0,05, отже, гіпотеза про рівність математичних очікувань цих ознак в двох кластерах відкидається. У той час як гіпотеза про рівність ознаки Х 3 в двох кластерах приймається (рівень значущості 0,196> 0.05).

    Згідно з перевіркою гіпотези, математичні очікування введення в дію житлових будинків, викидів в атмосферу забруднюючих речовин, вартості мінімального набору продуктів харчування і обсягу інвестицій в основний капітал в двох кластерах різні, а математичне очікування забезпеченості амбулаторно-поліклінічними установами однакове в першому і в другому кластерах.

    Проаналізуємо стовпець зведеної таблиці, в якому містяться середні значення по двом кластерам. Введення в дію житлових будинків в першому кластері значно нижче за аналогічний показник у другому кластері, так само як і викид в атмосферу забруднюючих речовин, вартість мінімального набору продуктів харчування і обсяг інвестицій в основний капітал. Забезпеченість амбулаторно-поліклінічними установами на однаковому рівні, як в першому, так і в другому кластері. З цього моно зробити висновок, що регіони першого кластера досить розвинені і добре освоєні. Тут склалися прийнятні для населення ціни, щодо хороша екологічна ситуація, введення в дію великої кількості житлових будинків вже не потрібно, тому що велика частина території вже забудована і використовується, відповідно, і обсяг інвестицій в основний капітал порівняно невеликий. Другий же регіон, мабуть, знаходиться на стадії інтенсивного освоєння і розвитку. Про це свідчать і широкі масштаби будівництва, і великий обсяг вкладень, і високі ціни, а також погана екологія. Однак, для успішного освоєння регіону необхідна хороша база охорони здоров'я, тому тут рівень забезпеченості амбулаторно-поліклінічними закладами майже такий же, як і в розвинених регіонах.

    Таким чином, відповідно до наведеної інтерпретацією, назвемо перший кластер «освоєні регіони», а другий - «освоюваний регіон».

    8. Проведемо регресійний аналіз ознаки Y на ознаки Х 1, Х 2, Х 3, Х 4, Х 5 окремо для кожного кластера. З огляду на те, що неможливо провести регресію по одному регіону, який утворює другий кластер, скористаємося методом далекого сусіда, де на дендрограмі чітко простежується розбиття на 2 кластера, що містять кілька регіонів в кожному. Таким чином, будемо вважати, що другий кластер утворюють Ненецький АО і наступні регіони: Комі, Архангельська, Мурманська, Московська, Вологодська, Новгородська, Липецька.

    · Для першого кластера.

    Матриця кореляції дозволяє побачити сильну зв'язок результативного ознаки з регресорів X 3 і X 4, помірну з X 1 і X 5 і дуже слабку з X 2:

    Y

    X1

    X2

    X3

    X4

    X5

    Y

    1

    X1

    0,437037

    1

    X2

    0,000721

    -0,30097

    1

    X3

    0,815665

    0,332045

    -0,21033

    1

    X4

    0,91547

    0,465072

    0,040293

    0,633864

    1

    X5

    0,67091

    0,615633

    0,298005

    0,498134

    0,677078

    1

    За наступній таблиці можна сказати, що модель є якісною, тому що має високі показники коефіцієнта множинної кореляції, коефіцієнта детермінації і скоригованого коефіцієнта детермінації:

    регресійна статистика

    множинний R

    0,96679

    R-квадрат

    0,934683

    Нормований R-квадрат

    0,880253

    стандартна помилка

    1087,314

    спостереження

    12

    Рівняння регресії має вигляд:

    .

    Спостережуване і критичне значення F-статистики складають 17,17205 і 4,387374 відповідно, завдяки чому можна сказати, що рівняння значимо в цілому.

    Проаналізуємо його коефіцієнти.

    коефіцієнти

    стандартна помилка

    t-статистика

    P-Значення

    Нижні 95%

    Верхні 95%

    Y-перетин

    -20442,6

    4760,074

    -4,29459

    0,005123

    -32090

    -8795,08

    X1

    86,47617

    467,0122

    0,185169

    0,859197

    -1056,26

    1229,214

    X2

    465,1737

    979,1122

    0,475097

    0,651518

    -1930,63

    2860,975

    X3

    36,26704

    13,35741

    2,715125

    0,034868

    3,582635

    68,95145

    X4

    14,42741

    3,622612

    3,9826

    0,007262

    5,563201

    23,29163

    X5

    -0,31351

    3,795565

    -0,0826

    0,936858

    -9,60092

    8,973908

    Значущими є тільки третій і четвертий коефіцієнти, інші дорівнюють нулю з імовірністю 95%. Виключимо зі складу регресорів п'ятий ознака, як має найменшу t- статистику. Отримаємо наступні результати.

    коефіцієнти

    стандартна помилка

    t-статистика

    P-Значення

    Нижні 95%

    Верхні 95%

    Y-перетин

    -20168,5

    3162,124

    -6,37816

    0,000375

    -27645,8

    -12691,3

    X1

    58,3228

    295,7386

    0,197211

    0,849267

    -640,988

    757,6335

    X2

    407,0434

    630,5694

    0,645517

    0,539167

    -1084,02

    1898,103

    X3



    лінійне рівняння множинної регресії в логарифмічній формі:

    Це рівняння можна привести до лінійного вигляду, замінивши () на. Отримаємо:.

    Проведемо регресійний аналіз для прологаріфмірованних даних. Результати містяться в наступних таблицях:

    кореляція

    Ln Y

    Ln X1

    Ln X2

    Ln X3

    Ln X4

    Ln X5

    Ln Y

    1

    Ln X1

    0,154743

    1

    Ln X2

    0,083349

    0,085809

    1

    Ln X3

    0,666594

    0,200103

    0,099096

    1

    Ln X4

    0,14944

    -0,23045

    0,276736

    0,09512

    1

    Ln X5

    0,261116

    0,361554

    0,408353

    0,165932

    0,578613

    1

    регресійна статистика

    Логарифмічна модель (5 ознак)

    лінійна модель

    (5 ознак)

    множинний R

    0,686855

    множинний R

    0,606954

    R-квадрат

    0,471769

    R-квадрат

    0,368393

    Нормований R-квадрат

    0,437908

    Нормований R-квадрат

    0,327905

    стандартна помилка

    1,092471

    стандартна помилка

    4451,301

    спостереження

    84

    спостереження

    84

    Порівняємо показники логарифмічною регресійній моделі з лінійною. Множинний R, коефіцієнт детермінації і скоригований коефіцієнт детермінації (які є основними показниками якості функції) логарифмічною моделі більше аналогічних показників лінійної, а стандартна помилка набагато менше.

    коефіцієнти

    стандартна помилка

    t-статистика

    P-Значення

    Нижні 95%

    Верхні 95%

    Y-перетин

    0,769554

    5,560577

    0,138395

    0,890285

    -10,3007

    11,83981

    Ln X1

    -0,12983

    0,24729

    -0,52501

    0,601065

    -0,62215

    0,362486

    Ln X2

    -0,043

    0,07083

    -0,60714

    0,545521

    -0,18402

    0,098008

    Ln X3

    1,478319

    0,193067

    7,657033

    4,33E-11

    1,093953

    1,862685

    Ln X4

    -0,25299

    0,86152

    -0,29365

    0,769805

    -1,96814

    1,462169

    Ln X5

    0,370186

    0,228844

    1,617634

    0,109779

    -0,08541

    0,825779

    Спостережуване значення F-статистики становить 13,93254, критичне - 2,331739. Так як бачимо значення більше критичного, то гіпотеза про незначущості рівняння відкидається, тобто рівняння значимо в цілому.

    Значущим коефіцієнтом є тільки один - b 3.

    Виключимо з розгляду ознака, що має найменше значення t-статистики (X 4) і проведемо регресійний аналіз за рештою ознаками. Отримаємо наступні результати.

    коефіцієнти

    стандартна помилка

    t-статистика

    P-Значення

    Нижні 95%

    Верхні 95%

    Y-перетин

    -0,81865

    1,284199

    -0,63748

    0,525659

    -3,37478

    1,73749

    Ln X1

    -0,08748

    0,199714

    -0,43802

    0,662566

    -0,485

    0,310042

    Ln X2

    -0,04322

    0,070416

    -0,61373

    0,541157

    -0,18337

    0,096943

    Ln X3

    1,472235

    0,190839

    7,714555

    3,13E-11

    1,09238

    1,85209

    Ln X5

    0,323557

    0,163832

    1,974925

    0,05177

    -0,00254

    0,649657

    Для даної регресії значущим залишається третя ознака, а незначні - всі інші. Тому виключимо ще одна ознака (X 1) і знову проведемо регресійний аналіз.

    коефіцієнти

    стандартна помилка

    t-статистика

    P-Значення

    Нижні 95%

    Верхні 95%

    Y-перетин

    -0,68911

    1,243358

    -0,55423

    0,580964

    -3,16347

    1,78525

    Ln X2

    -0,04078

    0,06984

    -0,58393

    0,560912

    -0,17977

    0,098205

    Ln X3

    1,459243

    0,187565

    7,779934

    2,18E-11

    1,085977

    1,832509

    Ln X5

    0,299015

    0,153174

    1,95212

    0,054423

    -0,00581

    0,603842

    Отримали такий же результат, як і в попередніх двох випадках, отже виключаємо черговий регресорів (X 2).

    коефіцієнти

    стандартна помилка

    t-статистика

    P-Значення

    Нижні 95%

    Верхні 95%

    Y-перетин

    -0,46241

    1,176379

    -0,39308

    0,695291

    -2,80304

    1,87821

    Ln X3

    1,45543

    0,186687

    7,796092

    1,89E-11

    1,083982

    1,826879

    Ln X5

    0,263293

    0,139855

    1,882608

    0,0063344

    -0,01498

    0,541561

    Отримали рівняння регресії:.

    регресійна статистика

    множинний R

    0,683843

    R-квадрат

    0,467641

    Нормований R-квадрат

    0,454497

    стандартна помилка

    1,07623

    спостереження

    84

    Спостережуване значення F-статистики (35,57655) для цього рівняння більше критичного значення (3,109311), тобто гіпотеза про незначущості рівняння відкидається, рівняння значимо. Коефіцієнти цього рівняння також значущі. Показники якості функції більше, ніж для лінійної моделі, тому можна сказати, що дана логарифмічна модель краще апроксимує дані.

    Для нелінійної регресії складемо зведену таблицю:

    крок

    рівняння регресії

    R 2

    S

    1

    lnY = 0.77-0.13 * lnX 1 -0.04 * lnX 2 + 1.48 * lnX 3 -0.25 * lnX 4 + 0.037 * lnX 5

    t крит = 1.99

    F крит = 2,331739

    0,471769

    0,437908

    1,092471

    2

    lnY = -0.82 - 0.09 * lnX 1 - 0.04 * lnX 2 + 1.47 * lnX 3 + 0.32 * lnX 5.

    t крит = 1,99

    F крит = 2,487366

    0,471185

    0,44441

    1,086135

    3

    lnY = -0.69-0.04 * lnX 2 + 1.46 * lnX 3 + 0.3 * lnX 5.

    t крит = 1,99

    F крит = 2,718785

    0,469901

    0,450022

    1,080635

    4

    lnY = -0.46 + 1.46 * lnX 3 + 0.26 * lnX 5.

    t крит = 1,99

    F крит = 3,109311

    0,467641

    0,454497

    1,07623

    крок

    Інтервальні оцінки коефіцієнтів

    t набл

    F набл

    д

    1

    [-10,3007; 11,83981]

    [-0,62215; 0,362486]

    [-0,18402; 0,098008]

    [1,093953; 1,862685]

    [-1,96814; 1,462169]

    [-0,08541; 0,825779]

    0,138395

    -0,52501

    -0,60714

    7,657033

    -0,29365

    1,617634

    13,93254

    3,3%

    2

    [-3,37478; 1,73749]

    [-0,485; 0,310042]

    [-0,18337; 0,096943]

    [1,09238; 1,85209]

    [-0,00254; 0,649657]

    -0,63748

    -0,43802

    -0,61373

    7,714555

    1,974925

    17,59766

    3,3%

    3

    [-3,16347; 1,78525]

    [-0,17977; 0,098205]

    [1,085977; 1,832509]

    [-0,00581; 0,603842]

    -0,55423

    -0,58393

    7,779934

    1,95212

    23,63839

    3,3%

    4

    [-2,80304; 1,87821]

    [1,083982; 1,826879]

    [-0,01498; 0,541561]

    -0,39308

    7,796092

    1,882608

    35,57655

    3,2%

    В результаті отримали, що номінальна заробітна плата в більшій мірі залежить від забезпеченості амбулаторно-поліклінічними установами і в меншій - від обсягу вкладень в основний капітал. Зв'язок між цими величинами пряма, тобто при збільшенні амбулаторно-поліклінічних установ і (або) обсягу вкладень в основний капітал, номінальна заробітна плата також збільшується.

    РОЗДІЛ 2. КОМПОНЕНТНИЙ І Факторний аналіз

    2.1 Компонентний аналіз

    Вивчається система з п'яти ознак X 1, X, X 3, X 4, X 5 по числовим даними, зібраними на 84 об'єктах. Мета - виявити загальні для цих ознак латентні фактори (головні компоненти), впливом яких обумовлені варіації ознак і їх коваріації.

    1. Запишемо модель компонентного аналізу та вимоги до неї вимоги.

    Модель компонентного аналізу передбачає, що кожна ознака X (j) формується як лінійна комбінація такого ж числа факторів - компонент F (i), впливом яких пояснюється сумарна дисперсія ознак X (j).

    До компонентів F (i) ставляться такі вимоги:

    * Вони повинні бути некорреліровани між собою;

    * Вони повинні виділятися таким чином, щоб впливом першої компоненти пояснювалося максимальна частка сумарної дисперсії усіх ознак, впливом другої компоненти - максимальна частка залишилася сумарною дисперсії і т. Д.

    Оскільки вихідні ознаки різнорідні по змістовному змістом і мають різні одиниці виміру, компонентний аналіз будемо проводити з використанням кореляційної матриці.

    В якості вихідних даних використовується матриця розміру 84x5 ознак x1, x2, x3, x4, x5.

    По даній вибірці за допомогою пакета SPSS реалізуємо метод головних компонент.

    2. Визначимо частки загальної дисперсії ознак (у відсотках), що припадають на кожну компоненту, і накопичені частки цієї дисперсії (у відсотках) за наступною таблицею:

    Пояснена сукупна дисперсія

    компоненти

    власні значення

    сума

    % варіації

    сукупний%

    1

    1,732

    34,635

    34,635

    2

    1,288

    25,770

    60,405

    3

    , 989

    19,775

    80,179

    4

    , 777

    15,535

    95,715

    5

    , 214

    4,285

    100,000

    Наступна таблиця ілюструє матрицю навантажень (5 Ч 5) ознак на компоненти:

    матриця компонент

    ознаки

    компоненти

    1

    2

    3

    4

    5

    1

    , 346

    , 767

    -, 019

    , 512

    , 171

    2

    , 195

    -, 023

    , 979

    -, 051

    , 035

    3

    , 628

    -, 531

    -, 012

    , 532

    -, 201

    4

    , 827

    -, 366

    -, 165

    -, 270

    , 285

    5

    , 704

    , 533

    -, 055

    -, 395

    -, 249

    Для запису вихідних ознак через компоненти скористаємося формулою лінійної моделі компонентного аналізу:

    Кожна ознака x (i) може бути представлений у вигляді лінійної комбінації такого ж числа факторів F (j). Кожен фактор розділивши кожну компоненту на відповідне власне число:

    .

    Запишемо вирази вихідних ознак через компоненти:

    ,

    ,

    ,

    ,

    .

    Аналогічно можна записати вирази компонент через ознаки:

    ,

    ,

    ,

    ,

    .

    3. Знизимо розмірність системи вихідних ознак. Для цього проаналізуємо таблицю «пояснення сукупна дисперсія». Як видно з таблиці перші 3 компоненти мають власні значення, що перевершують за значенням одиницю або близькі до 1, і пояснюють 80,2% варіації ознак, що досить для виділення факторів. Тому можна знизити розмірність вихідної системи до 3-х ознак.

    Розподіл варіації ознак по компонентам можна представити у вигляді такої факторної діаграми:

    28

    Після зниження розмірності отримаємо таблицю:

    матриця компонент

    ознаки

    фактори

    1

    2

    3

    1

    , 346

    , 767

    -, 019

    2

    , 195

    -, 023

    , 979

    3

    , 628

    -, 531

    -, 012

    4

    , 827

    -, 366

    -, 165

    5

    , 704

    , 533

    -, 055

    Визначимо приналежність ознак факторів. Для цього оцінимо абсолютне значення кожної ознаки за факторами. Отримали наступний розподіл:

    Перший фактор включає 3-й, 4-й і 5-й ознаки (забезпеченість амбулаторно-поліклінічними закладами, вартість мінімального набору продуктів харчування по суб'єктах Російської Федерації і обсяг інвестицій в основний капітал).

    Другий фактор включає 1-й ознака (введення в дію житлових будинків).

    Третій фактор включає 2-й ознака (викиди в атмосферу забруднюючих речовин, що відходять від стаціонарних джерел).

    Проаналізуємо ознаки, що входять в перший фактор. Как видно, последний признак (объем инвестиций в основной капитал) логически не соответствует структуре фактора. Кроме того, он принимает близкие значения 0,704 и 0,533 в матрице компонент для 1-го и 2-го фактора. Поэтому целесообразно отнести 5-й признак именно ко второму фактору.

    В соответствии с включенными признаками можно дать следующие названия факторам:

    1 фактор - условия для поддержания здоровья населения, которое зависит, как известно, не только от числа поликлиник в регионе, но также во многом и от качества питания, на которое в свою очередь оказывает влияние уровень цен на продукты;

    2 фактор - обеспеченность жильем. Очевидно, что чем выше количество введенных в действие жилых домов, тем выше уровень обеспеченности населения жильем в целом;

    3 фактор - экологическая ситуация, на которую очень сильное воздействие оказывают выбросы промышленных отходов в наземную, водную и воздушную среду.

    4. Проведем регрессионный анализ признака Y (номинальная заработная плата) на отобранные главные компоненты.

    Матрица корреляции имеет следующий вид:

    Y

    K1

    K2

    K3

    Y

    1

    K1

    0,582522

    1

    K2

    0,263598

    0,569492

    1

    K3

    0,060301

    0,134633

    -0,14845

    1

    Наибольшую корреляцию с результативным признаком имеет первый фактор (который, как уже указывалось выше, включает в себя обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал) и наименьшую связь - третий фактор (включающий выбросы в атмосферу загрязняющих веществ).

    Коэффициенты уравнения регрессии и их значимость содержатся в следующей таблице:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    10777,09

    535,9039

    20,11012

    5,04*10 -33

    9710,611

    11843,58

    K1

    4407,925

    768,0113

    5,739401

    1,64*10 -7

    2879,534

    5936,316

    K2

    -752,831

    742,5739

    -1,01381

    0,313728

    -2230,6

    724,9378

    K3

    -248,633

    523,5045

    -0,47494

    0,636124

    -1290,44

    793,174

    Таким образом, получили уравнение регрессии вида:

    .

    Незначимыми в этом уравнении являются коэффициенты при K 2 и K 3, значимыми - свободный коэффициент и коэффициент при K 1.

    Само уравнение регрессии в целом является значимым, т.к. наблюдаемое значение F-статистики (14,23581) больше критического значения (2,718785).

    Рассмотрим показатели качества функции регрессии.

    Регрессионная статистика

    множинний R

    0,589952

    R-квадрат

    0,348043

    Нормований R-квадрат

    0,323594

    Стандартная ошибка

    4465,554

    спостереження

    84

    Как видно, эта модель имеет средние показатели множественного коэффициента корреляции, детерминации и скорректированного коэффициента детерминации и большое значение стандартной ошибки.

    Попытаемся улучшить модель, исключив из нее регрессор K 3, как имеющего наименьшее значение t-статистики.

    Получим уравнение:

    .

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    10738,33

    527,1149

    20,3719

    1,29*10 -33

    9689,539

    11787,13

    K1

    4309,576

    736,0243

    5,855209

    9,78*10 --9

    2845,119

    5774,034

    K2

    -655,354

    710,2272

    -0,92274

    0,358884

    -2068,48

    757,7752

    В этом уравнении коэффициент K 2 остается незначимым, а все уравнение в целом значимо (). Поэтому построим уравнение регрессии для одного фактора (K 1) и получим следующие результаты:

    .

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    10566,22

    492,5618

    21,45155

    2,21E-35

    9586,353

    11546,08

    K1

    3922,801

    604,4614

    6,489746

    6,14E-09

    2720,335

    5125,268

    Значимыми являются все коэффициенты уравнения и само уравнение в целом, для которого F н =42,117, F к =3,958.

    Таким образом, было получено уравнение парной регрессии зависимости результативного признака Y (среднемесячная номинальная заработная плата) от фактора K 1 (обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания и объем инвестиций в основной капитал). Причем связь между этими признаками прямая, т.е. при увеличении значений факторных компонент, увеличивается и заработная плата. Можно сказать, что похожие результаты были получены в регрессионном анализе по исходным признакам, за исключением такого регрессора, как стоимость минимального набора продуктов питания, входящего в фактор.

    2.2 Факторный анализ

    1. Запишем модель факторного анализа и предъявляемые к ней требования.

    Математическая модель факторного анализа в матричной форме имеет следующий вид:

    X Ю=AF+е,

    где F=(F 1,…,F 2) - вектор общих факторов. Центрированный и нормированный вектор-столбец некоррелированных общих факторов. 0

    A (mЧk) - неслучайная матрица нагрузок компонентов x i - на факторы f j;

    е=(е 1,…,е m) - вектор распределений по m-мерному нормальному закону; центрированный вектор специфических факторов, некоррелированных как между собой, так и с общими факторами.

    К общим и специфическим факторам предъявляются следующие требования:

    * общие факторы должны быть некоррелированы между собой;

    * специфические факторы должны быть некоррелированы как между собой, так и с общими факторами.

    2. Для выделения факторов реализуем метод максимального правдоподобия.

    Зададим максимальное число факторов равным одному, чтобы вначале выявить один общий фактор.

    В результате работы программы максимум функции правдоподобия не найден, следовательно, невозможно рассчитать матрицу факторных нагрузок.

    Установим максимальное число факторов равным двум.

    Сразу обратим внимание на тест «Хи-квадрат», проверяющий гипотезу о равенстве числа общих факторов двум.

    Тест «Хи-квадрат»

    Наблюдаемое значение

    рівень значущості

    Р-значение

    8,629

    1

    ,003

    Гипотеза H 0 о том, что число общих факторов равно двум, принимается на 1%-ном уровне значимости, так как наблюдаемое значение статистики ч 2, равное 8,629 меньше критического значения .

    Следовательно, можно выделить всего 2 фактора, влияющие на распределение признаков, несмотря на то, что они в совокупности объясняют лишь 60,405% всей вариации:

    Объясненная суммарная дисперсия

    фактори

    Собственные значения

    Суммы квадратов нагрузок после вращения

    сума

    % вариации

    Суммарный %

    сума

    % вариации

    Суммарный %

    1

    1,732

    34,635

    34,635

    1,323

    26,464

    26,464

    2

    1,288

    25,770

    60,405

    1,256

    25,121

    51,586

    3

    ,989

    19,775

    80,179

    4

    ,777

    15,535

    95,715

    5

    ,214

    4,285

    100,000

    Определим нагрузку исходных признаков на общие факторы.

    Можно изобразить факторные нагрузки в виде диаграммы рассеяния:

    28

    На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Можно увидеть, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные.

    Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой. Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.

    Идея вращения по методу варимакс заключается в максимизации дисперсии исходного пространства переменных. Например, на диаграмме рассеяния можно рассматривать линию регрессии как ось X, повернув ее так, что она совпадала с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее. Другими словами, вращение позволяет получить матрицу нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом, и имелась возможность их простой интерпретации [7, факторный анализ]. Ниже приведена вращенная диаграмма рассеивания и таблица нагрузок на повернутые факторы.

    28

    Вращенная матрица факторных нагрузок

    Признаки

    фактори

    1

    2

    1

    -,205

    ,455

    2

    ,011

    ,081

    3

    ,561

    -,105

    4

    ,966

    ,258

    5

    ,185

    ,982

    Дадим содержательную интерпретацию этим факторам. Как видно из таблицы первый фактор имеет сильную прямую связь с 4-м признаком (стоимость минимального набора продуктов питания) и умеренную прямую связь с 3-м признаком (обеспеченность амбулаторно-поликлиническими учреждениями), поэтому его можно назвать «условия для поддержания здоровья населения». Второй фактор тесно связан с 5-м признаком (объем инвестиций в основной капитал) и слабее с 1-м признаком (ввод в действие жилых домов). Назовем его «обеспеченность жильем». Как видно второй признак имеет очень маленькую нагрузку на оба фактора, поэтому его можно не учитывать.

    Вероятнее всего, оставшиеся 39,5% вариации признаков объясняются специфическими факторами.

    Матрица специфических факторов

    фактори

    1

    2

    1

    ,680

    ,733

    2

    -,733

    ,680

    3. Проведем регрессионный анализ признака Y (номинальная заработная плата) на общие факторы F 1 (который включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями) и F 2 (включающий объем инвестиций в основной капитал).

    Была получена матрица корреляции, по которой видно, что первый фактор больше коррелирует с результативным признаком, чем второй:

    Y

    F1

    F2

    Y

    1

    F1

    0,560433

    1

    F2

    0,135599

    5,21E-07

    1

    Регрессия имеет средние показатели качества и большое значение стандартной ошибки:

    Регрессионная статистика

    множинний R

    0,576604

    R-квадрат

    0,332472

    Нормований R-квадрат

    0,31599

    Стандартная ошибка

    4490,584

    спостереження

    84

    Уравнение регрессии имеет вид:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    9988,742

    489,9629

    20,38673

    1,23E-33

    9013,869

    10963,61

    F1

    3042,956

    492,906

    6,173502

    2,52E-08

    2062,228

    4023,685

    F2

    736,2536

    492,9057

    1,493701

    0,139139

    -244,474

    1716,981

    Наблюдаемое и критическое значения F- статистики равны соответственно 20,17164 и 3,109311, что отвергает гипотезу о незначимости всего уравнения регрессии в целом.

    Из таблицы видно, что коэффициент регрессии при F 2 незначим, поэтому исключим его и проведем регрессионный анализ по одному фактору.

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    9988,742

    493,6274

    20,23539

    1,25E-33

    9006,76

    10970,72

    F1

    3042,957

    496,5924

    6,127674

    2,96E-08

    2055,076

    4030,837

    Получили уравнение:

    Уравнение является значимым (F н =37,54839, F к =3,957388), как и все его коэффициенты.

    Таким образом, можно сделать вывод, что номинальная заработная плата находится в прямой зависимости от стоимости минимального набора продуктов питания и обеспеченности амбулаторно-поликлиническими учреждениями. Эта зависимость имеет общие черты с предыдущим регрессионным анализом по исходным признакам и по главным компонентам, где получили зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по исходным признакам) и стоимость минимального набора продуктов питания, обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по главным компонентам).

    РАЗДЕЛ 3. КЛАСТЕРНЫЙ АНАЛИЗ

    Требуется по исходным данным провести классификацию 20 объектов (20 регионов РФ) (9-28). Проведем на SPSS иерархический кластерный анализ, реализовав метод ближайшего соседа с выбором евклидовой метрики расстояний (данные предварительно стандартизированы).

    1. По матрице расстояний найдем значение расстояния между первым и 20-м объектами.

    Матрица расстояний

    об'єкти

    Евклидово расстояние

    1

    ...........


    lign="left">35,80068

    11,21379

    3,192557

    0,015222

    9,284272

    62,31708

    X4

    14,34018

    3,210022

    4,467316

    0,00291

    6,749686

    21,93068

    Значимыми остались третий и четвертый признаки и свободный коэффициент. Все остальные - незначимы. Поэтому исключим из списка первый признак, т.к. он имеет наименьшую t- статистику. Регрессия по трем признакам дала следующие результаты.

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -20315,7

    2882,317

    -7,0484

    0,000107

    -26962,4

    -13669,1

    X2

    361,947

    551,2171

    0,656632

    0,529849

    -909,162

    1633,056

    X3

    35,66143

    10,49777

    3,397048

    0,009401

    11,45353

    59,86933

    X4

    14,61332

    2,716352

    5,379757

    0,000662

    8,349395

    20,87723

    Незначимым является один коэффициент при X 2, а остальные значимые. Исключим X 2 и проведем регрессионный анализ.

    Уравнение регрессии:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -20139,5

    2777,626

    -7,25062

    4,81E-05

    -26422,9

    -13856,1

    X3

    33,55754

    9,675783

    3,468199

    0,007069

    11,6694

    55,44568

    X4

    15,02285

    2,558869

    5,870896

    0,000237

    9,23429

    20,81142

    Все коэффициенты этого уравнения являются значимыми, и само уравнение, имея F н =60,43687 и F к =3,096553, статистически значимо. Проанализируем показатели, содержащиеся в следующей таблице:

    Регрессионная статистика

    множинний R

    0,964729

    R-квадрат

    0,930702

    Нормований R-квадрат

    0,915302

    Стандартная ошибка

    914,446

    спостереження

    12

    Высокие оценки множественного R, R 2 и нормированного R 2, а также небольшое значение стандартной ошибки свидетельствуют о хорошем качестве модели.

    В результате регрессионного анализа для первого кластера была получена зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.

    · Для второго кластера.

    Матрица корреляции имеет вид и позволяет определить сильную связь результативного признака со вторым, четвертым и пятым независимыми компонентами. Более слабо Y коррелирует с третьим признаком, и имеет наименьшую корреляцию с первым признаком.

    Y

    X1

    X2

    X3

    X4

    X5

    Y

    1

    X1

    0,398899

    1

    X2

    0,918327

    0,297061

    1

    X3

    -0,71313

    -0,55619

    -0,54937

    1

    X4

    0,992192

    0,353451

    0,921639

    -0,7129

    1

    X5

    0,938584

    0,505718

    0,931463

    -0,71293

    0,954758

    1

    Уравнение имеет вид: Y = -15061.1 + 324.353X 1 + 334.5X 2 + 0.444X 3 + 17.273X 4 - 1.012X 5

    Определим значимость его коэффициентов по следующей таблице:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -15061,1

    3029,784

    -4,97102

    0,038166

    -28097,2

    -2025

    X1

    324,3533

    64,84276

    5,002151

    0,037719

    45,35741

    603,3492

    X2

    334,4999

    102,3674

    3,267639

    0,082264

    -105,952

    774,9515

    X3

    0,443851

    5,785511

    0,076718

    0,945832

    -24,4492

    25,3369

    X4

    17,27289

    1,304104

    13,24502

    0,005652

    11,66178

    22,88399

    X5

    -1,01179

    0,206824

    -4,89202

    0,039336

    -1,90168

    -0,12189

    Коэффициенты признаков X 2 и X 3 являются незначимыми, остальные - значимые. Уравнение в целом значимо, т.к. имеет наблюдаемую статистику 413,5413 и критическую 19,29641. Удалим из списка регрессоров третий признак, т.к. он имеет наименьшую t-статистику и снова построим уравнение регрессии.

    Оно будет иметь вид: .

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -14872,1

    1441,344

    -10,3182

    0,001942

    -19459,1

    -10285,1

    X1

    322,9254

    50,79042

    6,357998

    0,007873

    161,2876

    484,5632

    X2

    337,5144

    77,29317

    4,366679

    0,02221

    91,53309

    583,4958

    X4

    17,23049

    0,965909

    17,83864

    0,000384

    14,15654

    20,30445

    X5

    -1,01345

    0,168188

    -6,02572

    0,009162

    -1,5487

    -0,4782

    Все коэффициенты уравнения являются значимыми. Уравнение регрессии тоже значимо, т.к. наблюдаемое значение F-статистики (773,1127) больше критического (9,117182).

    Данная модель имеет хорошее качество, что можно проследить по следующей таблице:

    Регрессионная статистика

    множинний R

    0,999515

    R-квадрат

    0,999031

    Нормований R-квадрат

    0,997739

    Стандартная ошибка

    304,9263

    спостереження

    8

    В результате регрессионного анализа для второго кластера была получена линейная зависимость номинальной заработной платы от ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости продуктов питания и инвестиций в основной капитал, причем с последним признаком наблюдается обратная связь.

    Если сравнивать полученные результаты регрессионного анализа по кластерам и по исходной совокупности данных, то можно сказать, что регрессия по первому кластеру схожа с регрессией по исходным признакам зависимостью от амбулаторно-поликлинических учреждений, а регрессия по второму кластеру - зависимостью от вложений в основной капитал.

    РАЗДЕЛ 4. ДИСКРИМИНАНТНЫЙ АНАЛИЗ

    1. Запишем модель дискриминантного анализа и предъявляемые к ней требования.

    С помощью дискриминантного анализа на основании некоторых признаков изучаемый объект может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.

    Ядром дискриминантного анализа является построение так называемой дискриминантной функции

    d = b1х1+b2х2+... + bnхn+а,

    где x1 и хn -- значения переменных, соответствующих рассматриваемым случаям, онстанты b1-bn и a -- коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам [7, дискриминантный анализ].

    2. Проведем дискриминантный анализ, взяв априорные данные из кластерного анализа, используя метод дальнего соседа. В результате кластеризации по этому методу, Ненецкий АО был выделен в отдельный кластер. Однако по дендрограмме можно проследить, что фактически регионы разбиваются на 2 различных кластера. Во второй кластер вошли следующие регионы: Коми, Архангельская, Мурманская, Вологодская, Новгородская, Липецкая области и город Москва. Остальные регионы образуют первый кластер. Требуется определить, к какой из двух групп относится каждый из оставшихся 65 регионов (включая Ненецкий АО), считая, что каждый регион относится только к одной группе.

    Для вычисления выберем все пять исходных признаков.

    Вычислим стандартизированные канонические коэффициенты дискриминантной функции:

    Признак

    Функция

    X1

    -,228

    X2

    ,618

    X3

    1,092

    X4

    ,226

    X5

    -,493

    Стандартизированные коэффициенты показывают как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. Например, большой вклад в значение дискриминантной функции вносят переменные X2 (выбросы в атмосферу загрязняющих веществ) и X3 (обеспеченность амбулаторно-поликлиническими учреждениями). Стандартизированные коэффициенты основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.

    Вычислим нестандартизированные канонические коэффициенты дискриминантной функции:

    коефіцієнти

    Функция

    X3

    ,751

    X2

    ,429

    X5

    ,327

    X4

    ,226

    X1

    -,113

    Нестандартизированные коэффициенты - это множители при заданных значениях переменных, входящих в дискриминантную функцию.

    Таким образом, дискриминантная функция имеет вид:

    D = -0.113 X1 + 0.429 X2 + 0.751 X3 + 0.226 X4 + 0.327 X5.

    Проанализируем качество полученной функции. Для этого воспользуемся таблицей:

    Собственные значения

    Функция

    Собственное значение

    % вариации

    Суммарный %

    Каноническая корреляция

    1

    3,802

    100,0

    100,0

    ,890

    Большое собственное значение свидетельствует об удачно подобранной дискриминантной функции. Одна дискриминантная функция объясняет 100 % вариации признаков. Канонические корреляции являются показателями качества функции, т. е. чем больше эти показатели, тем выше разделительная способность функции. Значение канонической корреляции 0,89 указывает на достаточно хорошую разделительную способность полученной функции.

    1. Укажем, к каким группам были отнесены классифицируемые объекты, и вероятности, с которыми объекты входят в эти группы. Все данные представлены в таблице:

    Статистики наблюдений

    № объекта

    Фактическая группа

    Прогнозируемая группа

    Значение функции на объектах

    Вероятность вхождения в первую группу

    Вероятность вхождения во вторую группу

    1

    .

    1

    -2,75729

    0,99999

    0,00001

    2

    .

    1

    -1,77633

    0,99975

    0,00025

    3

    .

    2

    1,51082

    0,01603

    0,98397

    4

    .

    1

    -2,52018

    0,99998

    0,00002

    5

    .

    1

    -2,51226

    0,99998

    0,00002

    6

    .

    1

    -0,55183

    0,97493

    0,02507

    7

    .

    1

    -2,14422

    0,99994

    0,00006

    8

    .

    1

    -2,16023

    0,99994

    0,00006

    9

    2

    2

    1,91364

    0,00355

    0,99645

    10

    1

    1

    -1,26623

    0,99826

    0,00174

    11

    1

    1

    -1,98948

    0,99989

    0,00011

    12

    1

    1

    -1,56032

    0,99943

    0,00057

    13

    1

    1

    -0,40186

    0,9567

    0,0433

    14

    1

    1

    -1,29833

    0,99846

    0,00154

    15

    1

    1

    -2,62759

    0,99999

    0,00001

    16

    1

    1

    -1,06654

    0,99632

    0,00368

    17

    .

    1

    -0,61665

    0,98026

    0,01974

    18

    2

    2

    2,89967

    0,00009

    0,99991

    19

    1

    1

    -0,63451

    0,98152

    0,01848

    20

    2

    2

    4,6813

    0

    1

    21

    2

    2

    3,01559

    0,00006

    0,99994

    22

    1

    -23,5078

    1

    0

    23

    2

    2

    1,16501

    0,05662

    0,94338

    24

    1

    1

    -2,71838

    0,99999

    0,00001

    25

    1

    1

    -1,64899

    0,99959

    0,00041

    26

    2

    2

    1,48965

    0,01734

    0,98266

    27

    2

    2

    0,96626

    0,11267

    0,88733

    28

    1

    1

    -0,91889

    0,9936

    0,0064

    29

    .

    2

    2,30613

    0,00081

    0,99919

    30

    .

    1

    -0,95583

    0,99443

    0,00557

    31

    .

    1

    -6,71214

    1

    0

    32

    .

    1

    -6,01949

    1

    0

    33

    .

    1

    -4,00668

    1

    0

    34

    .

    1

    -0,20946

    0,9145

    0,0855

    35

    .

    1

    -3,09869

    1

    0

    36

    .

    1

    -0,15024

    0,89534

    0,10466

    37

    .

    1

    -10,715

    1

    0

    38

    .

    1

    -3,15208

    1

    0

    39

    .

    1

    -3,73084

    1

    0

    40

    .

    2

    0,52085

    0,40514

    0,59486

    41

    .

    1

    -1,12713

    0,99707

    0,00293

    42

    .

    1

    -1,94645

    0,99987

    0,00013

    43

    .

    2

    1,2741

    0,03825

    0,96175

    44

    .

    2

    3,72986

    0

    1

    45

    .

    1

    -3,09226

    1

    0

    46

    .

    1

    -3,03555

    1

    0

    47

    .

    1

    0,0288

    0,81327

    0,18673

    48

    .

    2

    0,58555

    0,34794

    0,65206

    49

    .

    1

    -3,47834

    1

    0

    50

    .

    1

    -0,07669

    0,86636

    0,13364

    51

    .

    1

    -1,47263

    0,9992

    0,0008

    52

    .

    1

    -1,01332

    0,99551

    0,00449

    53

    .

    1

    -0,03795

    0,84852

    0,15148

    54

    .

    1

    -1,84807

    0,99981

    0,00019

    55

    .

    1

    -1,03495

    0,99586

    0,00414

    56

    .

    1

    -0,60595

    0,97947

    0,02053

    57

    .

    2

    25,40745

    0

    1

    58

    .

    1

    -0,67555

    0,98413

    0,01587

    59

    .

    1

    -1,69734

    0,99966

    0,00034

    60

    .

    2

    7,56569

    0

    1

    61

    .

    2

    17,39934

    0

    1

    62

    .

    2

    1,045

    0,08622

    0,91378

    63

    .

    2

    125,9983

    0

    1

    64

    .

    1

    -1,31425

    0,99855

    0,00145

    65

    .

    2

    3,0485

    0,00005

    0,99995

    66

    .

    2

    1,98111

    0,00276

    0,99724

    67

    .

    2

    0,52532

    0,40108

    0,59892

    68

    .

    2

    1,68373

    0,00842

    0,99158

    69

    .

    1

    -0,51874

    0,9717

    0,0283

    70

    .

    1

    -1,56037

    0,99943

    0,00057

    71

    .

    2

    7,83506

    0

    1

    72

    .

    1

    -1,77246

    0,99974

    0,00026

    73

    .

    2

    0,59063

    0,34361

    0,65639

    74

    .

    1

    -0,3749

    0,95229

    0,04771

    75

    .

    2

    5,05088

    0

    1

    76

    .

    2

    4,1223

    0

    1

    77

    .

    1

    -0,90543

    0,99327

    0,00673

    78

    .

    2

    0,85126

    0,16382

    0,83618

    79

    .

    2

    1,21127

    0,04799

    0,95201

    80

    .

    2

    3,9112

    0

    1

    81

    .

    2

    6,41917

    0

    1

    82

    .

    1

    -5,01373

    1

    0

    83

    .

    1

    0,03082

    0,81211

    0,18789

    84

    .

    2

    19,52412

    0

    1

    В результате оказалось, что все 19 регионов, вошедшие в первоначальную выборку, были разбиты правильно, а остальные 65 регионов разбились на 2 группы.

    Рассчитаем внутригрупповые математические ожидания. Проверим гипотезу о равенстве математических ожиданий признаков в двух группах.

    Група

    Середні

    1

    X1=2,83973;

    X2=1,108808;

    X3=222,43396;

    X4=1399,3490;

    X5=471,14492.

    2

    X1=2,941936;

    X2=17,24622;

    X3=305,2069;

    X4=1662,755;

    X5=508,0618.

    Проверка гипотезы

    Сумма квадратов

    Значение квадрата

    F-статистика

    Ур-нь значимости

    X1

    Межгрупповая

    ,428

    ,428

    ,141

    ,709

    Внутригрупповая

    249,592

    3,044

    Загальна

    250,020

    X2

    Межгрупповая

    4663,384

    4663,384

    5,006

    ,028

    Внутригрупповая

    76384,616

    931,520

    Загальна

    81048,000

    X3

    Межгрупповая

    126806,194

    126806,194

    41,506

    ,000

    Внутригрупповая

    250520,896

    3055,133

    Загальна

    377327,090

    X4

    Межгрупповая

    1090066,125

    1090066,125

    6,213

    ,015

    Внутригрупповая

    14386901,747

    175450,021

    Загальна

    15476967,871

    X5

    Межгрупповая

    5535,141

    5535,141

    ,003

    ,953

    Внутригрупповая

    130677836,707

    1593632,155

    Загальна

    130683371,848

    Уровень значимости для второго, третьего и четвертого признаков меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух группах отвергается на 5-% уровне. Тогда как гипотеза о равенстве признаков X1 и X5 в двух группах принимается на том же уровне.

    Таким образом, математическое ожидание ввода в действие жилых домов и объема инвестиций в основной капитал в двух группах равны, а математические ожидания выбросов в атмосферу загрязняющих веществ, обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания и в этих группах различны.

    Тобто можно заключить, что регионы и первого и второго кластера находятся на одинаковом уровне экономического развития. Оскільки средние показатели выбросов в атмосферу загрязнений, обеспеченности поликлиниками и стоимости продуктов в первом кластере ниже, чем во втором, то есть основание предположить, что регионы первого кластера более благоприятны для жизни населения, чем регионы второго кластера.

    Поэтому, как и в предыдущей работе, назовем первый кластер «развитые регионы», а второй - «развивающиеся регионы».

    2. В результате дискриминантного анализа все регионы были разбиты на 2 группы: в первую группу вошло 53 региона, во вторую - 31 регион. Для каждой группы регионов проведем регрессионный анализ.

    · Для первой группы.

    Изучается зависимость признака Y (номинальная заработная плата) от пяти признаков.

    По матрице ковариации видно, что наибольшую корреляцию результативный признак имеет со вторым, четвертым и пятым признаками, и наименьшую - с первым и третьим.

    Y

    X1

    X2

    X3

    X4

    X5

    Y

    1

    X1

    0,33556

    1

    X2

    0,633169

    0,370211

    1

    X3

    0,253281

    0,224761

    -0,00711

    1

    X4

    0,783026

    0,202281

    0,674772

    -0,05327

    1

    X5

    0,694317

    0,469307

    0,854778

    0,008817

    0,796845

    1

    Модель имеет неплохое качество, о чем можно судить по оценкам следующих показателей:

    Регрессионная статистика

    множинний R

    0,851149

    R-квадрат

    0,724455

    Нормований R-квадрат

    0,695142

    Стандартная ошибка

    2465,44

    спостереження

    53

    По таблице определим коэффициенты уравнения регрессии и их значимость:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -16173,2

    3783,792

    -4,27434

    9,29E-05

    -23785,2

    -8561,2

    X1

    265,3093

    242,5804



    n="left">1,093696

    0,279662

    -222,699

    753,318

    X2

    357,9673

    277,3733

    1,290562

    0,203169

    -200,036

    915,9704

    X3

    27,49624

    8,026555

    3,42566

    0,001283

    11,3489

    43,64359

    X4

    12,57987

    2,321953

    5,417796

    2,02E-06

    7,908701

    17,25104

    X5

    -0,29175

    0,59462

    -0,49064

    0,625961

    -1,48797

    0,904474

    Уравнение регрессии имеет вид:

    .

    Коэффициенты регрессии для первого, второго и пятого признаков являются незначимыми, а все остальные значимые. В целом уравнение регрессии значимо, т.к. имеет наблюдаемое и критическое значение F-статистики 24,71426 и 2,412837 соответственно.

    Исключим из рассмотрения пятый признак, т.к. он имеет наименьшую t-статистику.

    Получим:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -15084,2

    3040,095

    -4,96175

    9,18E-06

    -21196,7

    -8971,68

    X1

    213,9397

    217,0855

    0,985509

    0,329316

    -222,54

    650,4193

    X2

    266,6284

    203,9884

    1,307076

    0,197414

    -143,518

    676,7745

    X3

    27,6052

    7,959771

    3,468089

    0,001116

    11,601

    43,60939

    X4

    11,86272

    1,789851

    6,62777

    2,74E-08

    8,263982

    15,46145

    Третий и четвертый коэффициенты остались значимыми, свободный коэффициент также значим, а коэффициенты первого и второго признака незначимы. Поэтому исключим теперь первый признак и проведем регрессионный анализ.

    Получим следующие результаты:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -14834,1

    3028,593

    -4,89801

    1,1E-05

    -20920,3

    -8747,9

    X2

    331,7044

    192,9483

    1,719136

    0,091902

    -56,0397

    719,4485

    X3

    29,49835

    7,722222

    3,81993

    0,000376

    13,97996

    45,01674

    X4

    11,76564

    1,786613

    6,585444

    2,91E-08

    8,175308

    15,35598

    Здесь, как и в предыдущем случае, третий, четвертый и свободный коэффициенты значимы, а второй остается незначим. Поэтому исключим его и проведем регрессию для двух переменных.

    Получим следующие данные:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    -17484,6

    2657,276

    -6,57989

    2,73E-08

    -22821,9

    -12147,3

    X3

    30,01782

    7,865748

    3,81627

    0,000374

    14,219

    45,81664

    X4

    13,83999

    1,343108

    10,30445

    5,8E-14

    11,14228

    16,5377

    Уравнение регрессии имеет вид: . Все его коэффициенты значимы. Уравнение в целом тоже значимо, наблюдаемое значение F-статистики равно 58,44392, критическое - 3,18261.

    Анализ показателей, представленных в следующей таблице, позволяет определить, что мы получили неплохую модель:

    Регрессионная статистика

    множинний R

    0,836898

    R-квадрат

    0,700398

    Нормований R-квадрат

    0,688413

    Стандартная ошибка

    2492,499

    спостереження

    53

    Таким образом, получили, что номинальная заработная плата имеет прямую зависимость от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.

    · Для второй группы.

    Рассмотрим матрицу корреляции:

    Y

    X1

    X2

    X3

    X4

    X5

    Y

    1

    X1

    0,048861

    1

    X2

    0,052009

    -0,02928

    1

    X3

    -0,11771

    -0,17614

    -0,08315

    1

    X4

    0,129811

    -0,32717

    -0,06329

    0,705394

    1

    X5

    0,558342

    0,290804

    0,102868

    -0,04154

    0,277456

    1

    Результативный признак имеет слабую связь с признаками. Наибольшая из них - с пятым признаком.

    Оценим значимость коэффициентов регрессии:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    14441,35

    5084,58

    2,840225

    0,008833

    3969,462

    24913,24

    X1

    -513,815

    687,7936

    -0,74705

    0,462004

    -1930,35

    902,7228

    X2

    -2,91524

    20,02414

    -0,14559

    0,885415

    -44,1557

    38,32524

    X3

    -10,287

    21,92031

    -0,46929

    0,642928

    -55,4327

    34,85871

    X4

    -0,02463

    2,949582

    -0,00835

    0,993404

    -6,09941

    6,05015

    X5

    5,597088

    1,944358

    2,87863

    0,008067

    1,592607

    9,601569

    Значимыми являются только пятый и свободный коэффициент, а все остальные незначимые. Критическое значение F-статистики для этой модели (2,602987) больше наблюдаемого значения (2,575728), откуда следует, что уравнение статистически незначимо.

    Удалим из рассмотрения регрессор, имеющий наименьшую t-статистику (X 4) и проведем регрессию снова:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    14438,93

    4977,712

    2,900715

    0,007479

    4207,092

    24670,76

    X1

    -511,011

    588,6295

    -0,86814

    0,393262

    -1720,96

    698,9338

    X2

    -2,8975

    19,52441

    -0,1484

    0,883169

    -43,0305

    37,23549

    X3

    -10,4257

    14,03353

    -0,74291

    0,464196

    -39,272

    18,42068

    X5

    5,587821

    1,565489

    3,569378

    0,001422

    2,369913

    8,805729

    Значимыми остались пятый и свободный коэффициенты, а все остальные также незначимы. Поэтому удалим второй признак и снова проведем регрессию:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    14326,41

    4829,714

    2,966306

    0,006239

    4416,656

    24236,17

    X1

    -504,267

    576,1458

    -0,87524

    0,389162

    -1686,42

    677,8865

    X3

    -10,2349

    13,71914

    -0,74603

    0,462094

    -38,3843

    17,91441

    X5

    5,560437

    1,526162

    3,643413

    0,001128

    2,429012

    8,691862

    Как и в предыдущих случаях, значимые коэффициенты - пятый и свободный, первый и третий коэффициенты остаются незначимыми. Удалим третий признак:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    11011,04

    1876,269

    5,868584

    2,61E-06

    7167,678

    14854,4

    X1

    -430,5

    563,085

    -0,76454

    0,450943

    -1583,93

    722,9276

    X5

    5,548735

    1,513949

    3,665075

    0,001024

    2,447552

    8,649918

    Получили аналогичные с предыдущими результаты. Удалим первый признак и построим парную регрессию:

    коефіцієнти

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижні 95%

    Верхние 95%

    Y-перетин

    9889,118

    1160,771

    8,519443

    2,19E-09

    7515,076

    12263,16

    X5

    5,212138

    1,438106

    3,624308

    0,001098

    2,270881

    8,153395

    Получили уравнение регрессии - - у которого все коэффициенты значимы, и само уравнение также является значимым, поскольку наблюдаемое значение (13,13561) больше критического (4,182964).

    Таким образом, было выяснено, что для регионов второй группы характерна прямая зависимость номинальной заработной платы от объема вложений в основной капитал.

    Сравним полученные результаты с результатами регрессионного анализа по исходным признакам, где была получена зависимость от амбулаторно-поликлинических учреждений и инвестиций в основной капитал. Первая группа регионов также имеет зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями, но также и от стоимости продуктов питания и не имеет от вложений в основной капитал. А в регионах второй группы зарплата зависит только от инвестиций в основной капитал и не зависит от числа поликлиник.

    ВИСНОВОК

    В ходе выполнения данной работы были выполнены все поставленные задачи. А именно, с помощью статистических и эконометрических методов была изучена совокупность показателей по пяти признакам, собранных по 84 регионам РФ.

    Так, с помощью регрессионного анализа были построены линейная и нелинейная (логарифмическая) модели, которые показали прямую зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и объема инвестиций в основной капитал.

    В результате компонентного анализа были выделены 3 главные компоненты, которые объясняют 80,2% совокупной дисперсии и включают в себя следующие признаки:

    Первая компонента включает обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал.

    Вторая компонента включает ввод в действие жилых домов.

    Третья компонента включает выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников.

    Факторный анализ позволил выделить 2 фактора, которые объясняют 60,4% совокупной дисперсии признака. Эти факторы включают в себя следующие компоненты.

    первый фактор включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями. Второй фактор включает объем инвестиций в основной капитал и ввод в действие жилых домов.

    Все методы кластерного анализа дали абсолютно одинаковые результаты разбиения. Тобто обучающая выборка из 20 регионов была разбита на 2 группы, в одну из которых входят 19 регионов, а другую образует 1 регион - Ненецкий АО. Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.

    В результате дискриминантного анализа была построена функция, позволяющая отнести объект к одному из двух кластеров, а все регионы разделены на 2 группы. Таким образом, в первую группу вошли 53 региона, а во вторую - 31 регион.

    По главным компонентам, факторам и каждому кластеру был проведен регрессионный анализ, который позволил определить зависимость номинальной заработной платы от соответствующих признаков. Результаты схожи с регрессионным анализом по исходным признакам с небольшими отличиями.

    СПИСОК ЛІТЕРАТУРИ

    1. Айвазян С.А., Мхитарян В.В. Прикладная статистика и основы эконометрики. - М.: ЮНИТИ, 1998. - 1006 с.

    2. Бородич С.А. Вводный курс эконометрики: Учебное пособие - Мн.: БГУ, 2000. - 354 с.

    3. Доугерти Кристофер. Введение в эконометрику. Пер. з англ. - М.: ИНФРА-М, 1999. - XIV, 402 с.

    4. Иллюстрированный самоучитель по SPSS.

    5. Кремер Н.Ш., Путко Б. А. Эконометрика: Учебник для вузов/ Под ред. проф. Н. Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2005. - 311 с.

    6. Эконометрика: Учебник/ Под ред. И. И. Елисеевой. - М.: Финансы и статистика, 2004. - 344 с.

    7. Электронный учебник программы «Statistica».

    8. Соловьев В.И., Калинина В.Н. Компьютерный практикум по прикладной статистике. Навчальний посібник для вузів. - М.: РИПО ИГУМО, 2005. - 104 с.

    9. Учебник по дисциплине «Эконометрика»/ Н.П. Тихомиров, Е.Ю. Дорохина. - М.: Изд-во Рос. екон. акад., 2002. - 640 с.

    10. Шалабанов А.К., Роганов Д.А. Эконометрика. - Казань. - 2004. 198 с.

    ...........