Совместные распределения частот количественных признаков 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Совместные распределения частот количественных признаков



Вопросы и задания

• Изобразите в общем виде корреляционную таблицу.

• На какой вопрос отвечает критерий Пирсона?

• С чем сравнивается расчетное значение статистики ? В каком случае нулевая гипотеза не отвергается?

• Чему равно число степеней свободы?

Задачи

1. Пусть имеются данные о весе и росте 20 человек. Докажите существование зависимости между ростом и весом.

 

N Вес Рост
1 69 179
2 58 178
3 55 169
4 75 180
5 74 187
6 55 175
7 43 160
8 54 164
9 58 161
10 58 177
11 72 182
12 64 172
13 67 187
14 68 186
15 64 169
16 72 183
17 60 170
18 72 176
19 65 175
20 64 184

Решение

Отсортируем данные по возрастанию роста. Разделим полученные ряды данных на группы по следующим группирующим признакам: вес 43–53, 54–64, 65–75 и рост 160–166, 167–173, 174–180,
181–187. Найдем относительные частоты полученных групп =  .


 

 

Вес

Рост

N1 (вес)

N2 (рост)

α1

α2

43

160

1

3

1/20= 0.05

3/20=0.15

54

161

10

10/20 =0.5

55

164

55

169

4

4/20=0.2

58

169

58

170

58

172

60

175

7

7/20=0.35

64

175

64

176

64

177

65

178

9

67

179

68

180

69

182

6

6/20=0.3

72

183

9/20=0.45

72

184

72

186

74

187

75

187


Заполним корреляционную таблицу (таблицу сопряженности):

 

вес в соответствии с ростом (частоты NI(J))

Рост в соответствии с весом

Вес/рост

1

2

3

4

1

1

0

0

0

1

2

2

4

4

0

10

3

0

0

3

6

9

3

4

7

6

20

                   

 

Условные распределения частот — распределение частоты признака при условии, что остальные признаки зафиксированы на определенном уровне.

 

Заполним корреляционную таблицу относительной частоты:

 

Вес/рост

1

2

3

4

1

1/20 = 0.05

0

0

0

0.05

2

2/20 = 0.1

4/20 = 0.2

4/20 = 0.2

0

0.5

3

0

0

3/20 = 0.15

6/20 = 0.3

0.45

0.15

0.2

0.35

0.3

1

 

Если на каждой клетке таблицы построить параллелепипед высотой равной соответствующему значению плотности, то получится трехмерный аналог гистограммы, который иногда называют стереограммой. Ее верхнюю поверхность называют поверхностью распределения (двумерного).

Корреляционная таблица  :

 

Вес/рост

1

2

3

4

1

0.15 1 = 0.15

0.2 1 = 0.2

0.35 1 = 0.35

0.3 1 = 0.3

1

2

0.15 10 = 1.5

0.2 10 = 2

0.35 10 = 3.5

0.3 10 = 3

10

3

0.15 9 = 1.35

0.2 9 = 1.8

0.35 9 = 3.15

0.3 9 = 2.7

9

3

4

7

6

20

 

Введем нулевую гипотезу H0: признаки «рост» и «вес» между собой независимы.

Для проверки данной гипотезы используем критерий Пирсона, согласно которому

в случае 2 признаков выборочная среднеквадратичная сопряженность

 =

сравнивается с соответствующим ей -распределением, имеющим ()() степеней свободы.

Для таблицы 3 4 число степеней свободы составляет (3–1) (4–1)=6. Табличное  = 12.592 для уровня значимости 0.05.

Для получения расчетного  заполним таблицу:

Вес/рост

1

2

3

4

1

 = 4.82

0.2

0.35

0.3

5.67

2

 = 0.17

2

0.07

3

5.24

3

1.35

1.8

0.007

4.03

7.19

6.33

4

0.43

7.33

18.1

Получили, что =18.1 >  = 12.592, следовательно отклоняем нулевую гипотезу, признаки «рост» и «вес» зависимы с уровнем ошибки 5%.

 

2. После применения рекламы структура объема продаж изменилась. Фирма продает 5 видов товаров. Объем продаж — 1000 руб.

Товар 1 2 3 4 5
Нет рекламы 15% 19% 29% 26% 11%
Есть реклама 120 190 330 270 90

С помощью критерия  (уровень значимости — 1%) определите, повлияла ли реклама на продажи.

Решение:

Введем нулевую гипотезу  : 1-я и 2-я переменные (структура продаж без рекламы и после проведения рекламы) независимы.

Заполним таблицу:

  1 2 3 4 5
150 190 290 260 110 1000
0.15 0.19 0.29 0.26 0.11 1
120 190 330 270 90 1000
             
0.12 0.19 0.33 0.27 0.09 1
6 0 5.52 0.38 3.64 15. 54

Таким образом,  =  = 15.54, что больше табличного  = 13.28. Следовательно, отвергаем нулевую гипотезу , а значит, множество признаков зависимы с уровнем ошибки 1%, применение рекламы повлияло на структуру продаж.

3. Имеются два специалиста и три вида оборудования.

  1 2 3
А 85 153 42
Б 95 177 48

a) Существует ли разница между А и Б с точки зрения произведенных деталей?

b) Одинаково ли хорошо работают специалисты на станках?

Основные понятия

Маргинальные (предельные) распределения

Таблица сопряженности (корреляционная таблица)

Условные распределения частот

Ложные корреляции

Критерий Пирсона (критерий )

Число степеней свободы

Регрессионный анализ

Вопросы и задания

• Какой вопрос исследуется в рамках регрессионного анализа?

• Как выглядит регрессионное уравнение, что означают его параметры?

• Изобразите график парной регрессии.

• Для чего применяется метод наименьших квадратов (МНК), в чем его суть?

• Дайте определение ковариации. Как выглядит матрица ковариаций?

• Чем отличается коэффициент корреляции (Пирсона)?

• Что такое дисперсионное тождество?

Задачи

1. Постройте зависимость между x1и x2(пусть x1  — расходы, x2 —дни недели). Определите, сколько денег расходуется в субботу. Рассчитайте матрицу ковариации признаков.

x1 x2
1 1
2 2
6 3

Решение:

Построим регрессионное уравнение зависимости между расходами и днем недели:

 =  +  + .

Найдем оценки  и , соответственно, параметров и регрессии при помощи метода наименьших квадратов (МНК). Воспользуемся формулами:

 =  =  =

,

 =  -  = 2.

Значит  =  +  +  = 2 + .

Суббота — 6-й день недели, значит в субботу расходы составляют  =  6 2 +  = 13+ .

Перейдем к построению матрицы ковариаций переменных  и  : M = ;

найдем дисперсии:

 =  =  = ;

аналогично: ;

найдем ковариацию:

 =  = = ;

значит, M = .

 

2. Постройте зависимость между x1и x2(пусть x1 — уровень урожайности кукурузы,
x2 — количество тонн внесенных удобрений). Определите уровень урожайности при применении 10 т удобрений. Рассчитайте матрицу ковариации признаков.

x1 x2
3 2
5 3
10 4

 

3. Даны две переменные x1 и x2, количество наблюдений N=3,

, , , , .

Чему равны a12, b1, , , ?

Решение:

Найдем составляющие ковариационной матрицы:

 =

=  41 –  = ;

аналогично,  =  14 –  = ;

 =  –  =  23 – 3 2 = ;

Значит, M =  = .

 

Найдем оценки параметров регрессии:

 = ;

 =  -  3 – 2  = – 2.

Рассчитаем значения объясненной, остаточной дисперсии и коэффициента детерминации:

 =  =  ;

 =  –  =  –  =

 =  =  .

 

4. Дисперсии двух переменных совпадают, корреляция отсутствует. Изобразите на графике линию прямой и обратной регрессии.

 

5. Рассматривается зависимость x1от x2; x1i= (5, 3, 7, 1); = 0.5.

Чему равен ?

 

6. Дисперсия временных рядов индекса денежной массы и уровня цен, соответственно, 150 и 200; их ковариация = 100. Чему равен ?

 

7. Приведите к линейному виду:

a) x1= β

b) yi = β1+  + εi

c) yi = exp(β1+ β2xii)

d) yi = 1+

Решение:

a) x1 = β ;

Логарифмируем выражение:

 =  +  ;

замена:  = ;

 =  + ε.

 

8. x1i= x2iα12+ x3α13 + β1+ εi

x1 x2 x3
5 1 3
1 2 1
-2 3 5
0 4 2
4 5 4

Чему равны a12, a13, b1, , , ?

Решение:

 =  ; =  = 3;

найдем центрированные значения переменных:

– 2 0
– 1 – 2
0 2
1 – 1
2 1

Найдем составляющие ковариационной матрицы:

 =  =  ;

 =  = ;

 =  = ;

 =  ;

 =  = ;

 =  .

Значит, M =  = .

Запишем уравнение регрессии в матричном виде:

 =  +  +  , обозначим  =  ,  =  .

Тогда  =  , где  – матрица ковариации факторных переменных между собой,

 – вектор-столбец ковариации факторных переменных с моделируемой переменной.

Следовательно,  =  = ;

находим обратную ей матрицу:  = ;

 =  =  .

Подставляем все в формулу  =  =  =  ;

Получается, что  =  ,  = .

 =  =  =  ;

 =  =  =  ;

 =  –  =  – ≈ 6.4;

 = ≈ 0.03.

Тест

1. Укажите верные высказывания:

a) положительное значение коэффициента корреляции говорит нам о том, что с увеличением значений одной переменной значения второй переменной уменьшаются

b) чем ближе значение коэффициента корреляции к 1 или к –1, тем сильнее взаимосвязь двух переменных

c) коэффициент корреляции никогда не может быть равен нулю

d) коэффициент корреляции может принимать значения на

промежутке [–1; 1]

2. Если при исследовании взаимосвязи двух переменных коэффициент детерминации оказался равен 0.25, то

a) коэффициент корреляции равен –0.5

b) коэффициент корреляции равен 0.5 или –0.5

c) коэффициент корреляции равен 0.0625

d) коэффициент корреляции равен 0.5

3.  Мерой линейной зависимости является относительная ковариация, называемая:

a) коэффициентом корреляции

b) уравнением регрессии

c) дисперсией

d) коэффициентом детерминации

4. Выберите верные ответы:

a) остаточная дисперсия отрицательна

b) ковариация – совместный центральный момент 1-го порядка

c) коэффициент корреляции по абсолютной величине не превышает единицу

d) коэффициент детерминации равен квадрату коэффициента корреляции

5. Ковариация признака с самим собой:

a) эффект взаимодействия

b) дисперсия

c) коэффициент детерминации

d) ложная корреляция

Основные понятия

Ковариация

Коэффициент корреляции

Объясняемая (моделируемая, эндогенная) переменная

Объясняющая (факторная, экзогенная) переменная

Общая, объясненная, остаточная дисперсии

Критерий Фишера (F-критерий)

Линия регрессии

Уравнение регрессии

Простая и множественная регрессия

Случайные ошибки измерения

Метод наименьших квадратов (МНК)

Коэффициент детерминации


 

Дисперсионный анализ

Вопросы и задания

• В чем суть дисперсионного анализа?

• Какие виды дисперсионного анализа вы знаете?

• Что такое главные эффекты и эффекты взаимодействия?

• Как звучат формулировки нулевых гипотез при однофакторном дисперсионном анализе, при двухфакторном?

Задачи

1. Имеются данные о размере детского пособия в семьях в городе и на селе. Рассчитайте групповую, межгрупповую и общую дисперсию пособия.

  № семьи Размер пособия (руб.)

Город

1 210 2 120 3 180

Село

4 240 5 270 6 210

Решение:

Фактор 1 – урбанизация,

численность конечной группы = 3.

Имеем однофакторный дисперсионный анализ с повторениями.

Количество групп k = 2 (город, село), количество элементов в каждой группе:

N1=3,             N2=3

Общее количество элементов в совокупности:

N = N1 + N2 =6

Рассчитаем общее среднее , среднее по группам  и соответствующие дисперсии , ,  :

Заполним таблицу:

  Размер пособия Среднее пособие

(Xi-Xlср)2

Групповая дисперсия Межгрупповая дисперсия Общая дисперсия
           

Город

1 210

170

1600

4200

3675

25
2 120 2500 7225
3 180 100 625

Село

4 240

240

0

1800

3675

1225
5 270 900 4225
6 210 900 25

1230 410   6000 7350 13350

Среднее

205 205   1000 1225 2225

Дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего).

Проверим выполнение дисперсионного тождества:

 ,

2225=1225+1000.

Оценим с тепень влияния факторного (группирующего) признака на изучаемый признак при помощи F -статистики.

Рассчитаем

 =4.9.

Сравним

4.9 ≤ ( нулевая гипотеза не отвергается, и влияние считается несущественным (степень влияния группирующего признака не значима).

2. Имеются данные о размере ВРП в областях двух регионов. Рассчитайте групповую, межгрупповую и общую дисперсию ВРП. Проанализируйте влияние принадлежности к определенному региону на величину ВРП.

  область ВРП (млрд руб.)

регион 1

1 210
2 120
3 180

регион 2

4 240
5 270
6 210

 

3. Пример использования двухфакторного дисперсионного анализа.

Необходимо выяснить, оказывают ли влияние тип потребляемого бензина и тип автомобиля на расход топлива. Для этого будут использованы два типа бензина — обычный и высокооктановый, и для каждой группы будут использованы два типа автомобилей – с двумя ведущими колесами и с четырьмя. Для каждой группы будут использованы по два автомобиля, всего восемь.

Пробег автомобиля в милях на галлон

Топливо

Тип автомобиля

два колеса четыре колеса

Обычное

26.7 28.6
25.2 29.3

Высокооктановое

32.3 26.1
32.8 24.2

Решение:

Алгоритм решения задачи:

1. Сформулировать гипотезы.

2. Найти критическое значение для каждого значения F -критерия при заданном α, например, α = 0.05.

3. Заполнить итоговую таблицу, чтобы получить фактические значения критерия.

4. Принять решение.

Формулировка гипотез:

· для взаимодействия типа топлива и типа автомобиля:

Н 0: Тип топлива и тип автомобиля не оказывают эффекта взаимодействия на потребление бензина;

Н 1: Тип топлива и тип автомобиля оказывают эффект взаимодействия на потребление бензина.

· для типов топлива:

Н 0: Для двух типов топлива нет разницы между средним потреблением бензина;

Н 1: Для двух типов топлива существует разница между средним потреблением бензина.

· для типов автомобилей:

Н 0: Для автомобилей с двумя и четырьмя ведущими колесами нет разницы в среднем потреблении бензина;

Н 1: Для автомобилей с двумя и четырьмя ведущими колесами существует разница в среднем потреблении бензина.

Каждая независимая переменная, или фактор, имеет два уровня (принимает два значения).

Фактор А — тип топлива: обычное и высокооктановое, а = 2.

Фактор В — тип автомобиля: также имеет два значения, b = 2.

Число объектов в каждой группе n = 2.

Степени свободы для каждого фактора:

· фактор А: ;

· фактор В: ;

· взаимодействие (A × B): ;

· ошибка внутри группы: .

Критические значения:

Если факторы имеют различное число градаций, критические значения будут различными.

Результаты дисперсионного анализа

  Степени свободы Дисперсия -статистика
Топливо, А 1 3.92 4.752
Автомобиль, В 1 9.68 11.733
Взаимодействие А и В 1 54.08 65.552
Ошибка (внутри группы) 4 0.825  
Общая 7 68.5  

Поскольку , что превышает критический уровень 7.71, то нулевые гипотезы об отсутствии влияния эффекта взаимодействия и типа автомобиля отвергаются. Можно сделать вывод о том, что тип автомобиля и сочетание типа топлива и типа автомобиля оказывает существенное влияние на потребление топлива.

4. Имеются данные о числе подписчиков на газеты и журналы по 4-м почтовым отделениям, расположенных в городе и на селе (тыс. чел). Рассчитайте эффекты взаимодействия, факторную и общую дисперсию.

  город село
Регион 1 10 3
Регион 2 18 1

Решение:

Дано:

Исследуется влияние 2х факторов на число подписчиков:

– фактор региональной принадлежности (1), принимающий  уровня;

– фактор урбанизации (2), принимающий  уровня.

Численность конечных групп = 1.

Имеем многофакторный (двухфакторный) дисперсионный анализ без повторений.

1. Рассчитаем средние:

ü Общая средняя:

ü Средняя по группе:

город 1

село 2

Xi (1)

регион 1 i=1

10

3

6.5

регион 2 i=2

18

1

9.5

Xi (2)

14

2

8

 

2. Рассчитаем общую дисперсию:

 

xi

xi–b0

(xi–b0)2

S2

10 13

2

–5

4

25

44.5

18 1

10

–7

100

49

 

3.1 Рассчитаем эффекты первого порядка (главные), т.е. найдем коэффициенты влияния каждого фактора по отдельности на изучаемый признак:

 — если факт о том, что j-й фактор находится на уровне i, не влияет на изучаемый признак.

Регион (1)

Урб-ия (2)

b i (1)

b i (2)

-1.5

6

1.5

-6

0

0

Очевидно, что  .

3.2 Рассчитаем дисперсии, определяемые влиянием каждого фактора:

Регион (1)

Урб-ия (2)

b i (1)

b i (2)

S21

S22

-1.5

6

2.25

36

1.5

-6

2.25

36

0

0

2.25

36



Поделиться:


Последнее изменение этой страницы: 2021-05-12; просмотров: 138; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.130.139 (0.383 с.)