Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Совместные распределения частот количественных признаков
Вопросы и задания • Изобразите в общем виде корреляционную таблицу. • На какой вопрос отвечает критерий Пирсона? • С чем сравнивается расчетное значение статистики ? В каком случае нулевая гипотеза не отвергается? • Чему равно число степеней свободы? Задачи 1. Пусть имеются данные о весе и росте 20 человек. Докажите существование зависимости между ростом и весом.
Решение Отсортируем данные по возрастанию роста. Разделим полученные ряды данных на группы по следующим группирующим признакам: вес 43–53, 54–64, 65–75 и рост 160–166, 167–173, 174–180,
Вес |
Рост |
N1 (вес) |
N2 (рост) | α1 | α2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
43 | 160 | 1 | 3 | 1/20= 0.05 | 3/20=0.15 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
54 | 161 | 10 | 10/20 =0.5 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
55 | 164 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
55 | 169 | 4 | 4/20=0.2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
58 | 169 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
58 | 170 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
58 | 172 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
60 | 175 | 7 | 7/20=0.35 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
64 | 175 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
64 | 176 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
64 | 177 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
65 | 178 | 9 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
67 | 179 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
68 | 180 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
69 | 182 | 6 | 6/20=0.3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
72 | 183 | 9/20=0.45 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
72 | 184 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
72 | 186 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
74 | 187 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
75 | 187 |
Заполним корреляционную таблицу (таблицу сопряженности):
вес в соответствии с ростом (частоты NI(J)) | |||||||||
Рост в соответствии с весом |
Вес/рост | 1 | 2 | 3 | 4 | ∑ | |||
1 | 1 | 0 | 0 | 0 | 1 | ||||
2 | 2 | 4 | 4 | 0 | 10 | ||||
3 | 0 | 0 | 3 | 6 | 9 | ||||
∑ | 3 | 4 | 7 | 6 | 20 | ||||
Условные распределения частот — распределение частоты признака при условии, что остальные признаки зафиксированы на определенном уровне.
Заполним корреляционную таблицу относительной частоты:
Вес/рост | 1 | 2 | 3 | 4 | ∑ |
1 | 1/20 = 0.05 | 0 | 0 | 0 |
0.05 |
2 | 2/20 = 0.1 | 4/20 = 0.2 | 4/20 = 0.2 | 0 |
0.5 |
3 | 0 | 0 | 3/20 = 0.15 | 6/20 = 0.3 |
0.45 |
∑ |
0.15 |
0.2 |
0.35 |
0.3 | 1 |
Если на каждой клетке таблицы построить параллелепипед высотой равной соответствующему значению плотности, то получится трехмерный аналог гистограммы, который иногда называют стереограммой. Ее верхнюю поверхность называют поверхностью распределения (двумерного).
Корреляционная таблица :
Вес/рост
| 1 | 2 | 3 | 4 | ∑ | |
1 | 0.15 1 = 0.15 | 0.2 1 = 0.2 | 0.35 1 = 0.35 | 0.3 1 = 0.3 | 1 | |
2 | 0.15 10 = 1.5 | 0.2 10 = 2 | 0.35 10 = 3.5 | 0.3 10 = 3 | 10 | |
3 | 0.15 9 = 1.35 | 0.2 9 = 1.8 | 0.35 9 = 3.15 | 0.3 9 = 2.7 | 9 | |
∑ | 3 | 4 | 7 | 6 | 20 |
Введем нулевую гипотезу H0: признаки «рост» и «вес» между собой независимы.
Для проверки данной гипотезы используем критерий Пирсона, согласно которому
в случае 2 признаков выборочная среднеквадратичная сопряженность
=
сравнивается с соответствующим ей -распределением, имеющим ()() степеней свободы.
Для таблицы 3 4 число степеней свободы составляет (3–1) (4–1)=6. Табличное = 12.592 для уровня значимости 0.05.
Для получения расчетного заполним таблицу:
Вес/рост | 1 | 2 | 3 | 4 | ∑ |
1 | = 4.82 | 0.2 | 0.35 | 0.3 |
5.67 |
2 | = 0.17 | 2 | 0.07 | 3 |
5.24 |
3 | 1.35 | 1.8 | 0.007 | 4.03 |
7.19 |
∑ |
6.33 | 4 |
0.43 |
7.33 |
18.1 |
Получили, что =18.1 > = 12.592, следовательно отклоняем нулевую гипотезу, признаки «рост» и «вес» зависимы с уровнем ошибки 5%.
2. После применения рекламы структура объема продаж изменилась. Фирма продает 5 видов товаров. Объем продаж — 1000 руб.
Товар | 1 | 2 | 3 | 4 | 5 |
Нет рекламы | 15% | 19% | 29% | 26% | 11% |
Есть реклама | 120 | 190 | 330 | 270 | 90 |
С помощью критерия (уровень значимости — 1%) определите, повлияла ли реклама на продажи.
Решение:
Введем нулевую гипотезу : 1-я и 2-я переменные (структура продаж без рекламы и после проведения рекламы) независимы.
Заполним таблицу:
1 | 2 | 3 | 4 | 5 | ∑ | |
150 | 190 | 290 | 260 | 110 | 1000 | |
0.15 | 0.19 | 0.29 | 0.26 | 0.11 | 1 | |
120 | 190 | 330 | 270 | 90 | 1000 | |
0.12 | 0.19 | 0.33 | 0.27 | 0.09 | 1 | |
6 | 0 | 5.52 | 0.38 | 3.64 | 15. 54 |
Таким образом, = = 15.54, что больше табличного = 13.28. Следовательно, отвергаем нулевую гипотезу , а значит, множество признаков зависимы с уровнем ошибки 1%, применение рекламы повлияло на структуру продаж.
3. Имеются два специалиста и три вида оборудования.
1 | 2 | 3 | |
А | 85 | 153 | 42 |
Б | 95 | 177 | 48 |
a) Существует ли разница между А и Б с точки зрения произведенных деталей?
b) Одинаково ли хорошо работают специалисты на станках?
Основные понятия
Маргинальные (предельные) распределения
Таблица сопряженности (корреляционная таблица)
|
Условные распределения частот
Ложные корреляции
Критерий Пирсона (критерий )
Число степеней свободы
Регрессионный анализ
Вопросы и задания
• Какой вопрос исследуется в рамках регрессионного анализа?
• Как выглядит регрессионное уравнение, что означают его параметры?
• Изобразите график парной регрессии.
• Для чего применяется метод наименьших квадратов (МНК), в чем его суть?
• Дайте определение ковариации. Как выглядит матрица ковариаций?
• Чем отличается коэффициент корреляции (Пирсона)?
• Что такое дисперсионное тождество?
Задачи
1. Постройте зависимость между x1и x2(пусть x1 — расходы, x2 —дни недели). Определите, сколько денег расходуется в субботу. Рассчитайте матрицу ковариации признаков.
x1 | x2 |
1 | 1 |
2 | 2 |
6 | 3 |
Решение:
Построим регрессионное уравнение зависимости между расходами и днем недели:
= + + .
Найдем оценки и , соответственно, параметров и регрессии при помощи метода наименьших квадратов (МНК). Воспользуемся формулами:
= = =
,
= - = 2.
Значит = + + = 2 + .
Суббота — 6-й день недели, значит в субботу расходы составляют = 6 2 + = 13+ .
Перейдем к построению матрицы ковариаций переменных и : M = ;
найдем дисперсии:
= = = ;
аналогично: ;
найдем ковариацию:
= = = ;
значит, M = .
2. Постройте зависимость между x1и x2(пусть x1 — уровень урожайности кукурузы,
x2 — количество тонн внесенных удобрений). Определите уровень урожайности при применении 10 т удобрений. Рассчитайте матрицу ковариации признаков.
x1 | x2 |
3 | 2 |
5 | 3 |
10 | 4 |
3. Даны две переменные x1 и x2, количество наблюдений N=3,
, , , , .
Чему равны a12, b1, , , ?
Решение:
Найдем составляющие ковариационной матрицы:
=
= 41 – = ;
аналогично, = 14 – = ;
= – = 23 – 3 2 = ;
Значит, M = = .
Найдем оценки параметров регрессии:
= ;
= - 3 – 2 = – 2.
Рассчитаем значения объясненной, остаточной дисперсии и коэффициента детерминации:
= = ;
= – = – =
= = .
4. Дисперсии двух переменных совпадают, корреляция отсутствует. Изобразите на графике линию прямой и обратной регрессии.
5. Рассматривается зависимость x1от x2; x1i= (5, 3, 7, 1); = 0.5.
Чему равен ?
6. Дисперсия временных рядов индекса денежной массы и уровня цен, соответственно, 150 и 200; их ковариация = 100. Чему равен ?
7. Приведите к линейному виду:
a) x1= β
b) yi = β1+ + εi
c) yi = exp(β1+ β2xi+εi)
d) yi = 1+
Решение:
a) x1 = β ;
Логарифмируем выражение:
= + ;
замена: = ;
= + ε.
8. x1i= x2iα12+ x3α13 + β1+ εi
x1 | x2 | x3 |
5 | 1 | 3 |
1 | 2 | 1 |
-2 | 3 | 5 |
0 | 4 | 2 |
4 | 5 | 4 |
Чему равны a12, a13, b1, , , ?
Решение:
= ; = = 3;
найдем центрированные значения переменных:
– 2 | 0 | |
– | – 1 | – 2 |
– | 0 | 2 |
– | 1 | – 1 |
2 | 1 |
Найдем составляющие ковариационной матрицы:
= = ;
= = ;
= = ;
= ;
= = ;
= .
Значит, M = = .
Запишем уравнение регрессии в матричном виде:
= + + , обозначим = , = .
Тогда = , где – матрица ковариации факторных переменных между собой,
– вектор-столбец ковариации факторных переменных с моделируемой переменной.
Следовательно, = = ;
находим обратную ей матрицу: = ;
= = .
Подставляем все в формулу = = = ;
Получается, что = , = .
= = = ;
= = = ;
= – = – ≈ 6.4;
|
= ≈ 0.03.
Тест
1. Укажите верные высказывания:
a) положительное значение коэффициента корреляции говорит нам о том, что с увеличением значений одной переменной значения второй переменной уменьшаются
b) чем ближе значение коэффициента корреляции к 1 или к –1, тем сильнее взаимосвязь двух переменных
c) коэффициент корреляции никогда не может быть равен нулю
d) коэффициент корреляции может принимать значения на
промежутке [–1; 1]
2. Если при исследовании взаимосвязи двух переменных коэффициент детерминации оказался равен 0.25, то
a) коэффициент корреляции равен –0.5
b) коэффициент корреляции равен 0.5 или –0.5
c) коэффициент корреляции равен 0.0625
d) коэффициент корреляции равен 0.5
3. Мерой линейной зависимости является относительная ковариация, называемая:
a) коэффициентом корреляции
b) уравнением регрессии
c) дисперсией
d) коэффициентом детерминации
4. Выберите верные ответы:
a) остаточная дисперсия отрицательна
b) ковариация – совместный центральный момент 1-го порядка
c) коэффициент корреляции по абсолютной величине не превышает единицу
d) коэффициент детерминации равен квадрату коэффициента корреляции
5. Ковариация признака с самим собой:
a) эффект взаимодействия
b) дисперсия
c) коэффициент детерминации
d) ложная корреляция
Основные понятия
Ковариация
Коэффициент корреляции
Объясняемая (моделируемая, эндогенная) переменная
Объясняющая (факторная, экзогенная) переменная
Общая, объясненная, остаточная дисперсии
Критерий Фишера (F-критерий)
Линия регрессии
Уравнение регрессии
Простая и множественная регрессия
Случайные ошибки измерения
Метод наименьших квадратов (МНК)
Коэффициент детерминации
Дисперсионный анализ
Вопросы и задания
• В чем суть дисперсионного анализа?
• Какие виды дисперсионного анализа вы знаете?
• Что такое главные эффекты и эффекты взаимодействия?
• Как звучат формулировки нулевых гипотез при однофакторном дисперсионном анализе, при двухфакторном?
Задачи
1. Имеются данные о размере детского пособия в семьях в городе и на селе. Рассчитайте групповую, межгрупповую и общую дисперсию пособия.
№ семьи | Размер пособия (руб.) | |
Город
Село
Решение:
Фактор 1 – урбанизация,
численность конечной группы = 3.
Имеем однофакторный дисперсионный анализ с повторениями.
Количество групп k = 2 (город, село), количество элементов в каждой группе:
|
N1=3, N2=3
Общее количество элементов в совокупности:
N = N1 + N2 =6
Рассчитаем общее среднее , среднее по группам и соответствующие дисперсии , , :
Заполним таблицу:
№ | Размер пособия | Среднее пособие | (Xi-Xlср)2 | Групповая дисперсия | Межгрупповая дисперсия | Общая дисперсия | |
Город | 1 | 210 | 170 | 1600 | 4200 | 3675 | 25 |
2 | 120 | 2500 | 7225 | ||||
3 | 180 | 100 | 625 | ||||
Село | 4 | 240 | 240 | 0 | 1800 | 3675 | 1225 |
5 | 270 | 900 | 4225 | ||||
6 | 210 | 900 | 25 | ||||
∑ | 1230 | 410 | 6000 | 7350 | 13350 | ||
Среднее | 205 | 205 | 1000 | 1225 | 2225 |
Дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего).
Проверим выполнение дисперсионного тождества:
,
2225=1225+1000.
Оценим с тепень влияния факторного (группирующего) признака на изучаемый признак при помощи F -статистики.
Рассчитаем
=4.9.
Сравним
4.9 ≤ ( — нулевая гипотеза не отвергается, и влияние считается несущественным (степень влияния группирующего признака не значима).
2. Имеются данные о размере ВРП в областях двух регионов. Рассчитайте групповую, межгрупповую и общую дисперсию ВРП. Проанализируйте влияние принадлежности к определенному региону на величину ВРП.
область | ВРП (млрд руб.) | |
регион 1 | 1 | 210 |
2 | 120 | |
3 | 180 | |
регион 2 | 4 | 240 |
5 | 270 | |
6 | 210 |
3. Пример использования двухфакторного дисперсионного анализа.
Необходимо выяснить, оказывают ли влияние тип потребляемого бензина и тип автомобиля на расход топлива. Для этого будут использованы два типа бензина — обычный и высокооктановый, и для каждой группы будут использованы два типа автомобилей – с двумя ведущими колесами и с четырьмя. Для каждой группы будут использованы по два автомобиля, всего восемь.
Пробег автомобиля в милях на галлон
Топливо | Тип автомобиля | |
два колеса | четыре колеса | |
Обычное | 26.7 | 28.6 |
25.2 | 29.3 | |
Высокооктановое | 32.3 | 26.1 |
32.8 | 24.2 |
Решение:
Алгоритм решения задачи:
1. Сформулировать гипотезы.
2. Найти критическое значение для каждого значения F -критерия при заданном α, например, α = 0.05.
3. Заполнить итоговую таблицу, чтобы получить фактические значения критерия.
4. Принять решение.
Формулировка гипотез:
· для взаимодействия типа топлива и типа автомобиля:
Н 0: Тип топлива и тип автомобиля не оказывают эффекта взаимодействия на потребление бензина;
Н 1: Тип топлива и тип автомобиля оказывают эффект взаимодействия на потребление бензина.
· для типов топлива:
Н 0: Для двух типов топлива нет разницы между средним потреблением бензина;
Н 1: Для двух типов топлива существует разница между средним потреблением бензина.
· для типов автомобилей:
Н 0: Для автомобилей с двумя и четырьмя ведущими колесами нет разницы в среднем потреблении бензина;
Н 1: Для автомобилей с двумя и четырьмя ведущими колесами существует разница в среднем потреблении бензина.
|
Каждая независимая переменная, или фактор, имеет два уровня (принимает два значения).
Фактор А — тип топлива: обычное и высокооктановое, а = 2.
Фактор В — тип автомобиля: также имеет два значения, b = 2.
Число объектов в каждой группе n = 2.
Степени свободы для каждого фактора:
· фактор А: ;
· фактор В: ;
· взаимодействие (A × B): ;
· ошибка внутри группы: .
Критические значения:
Если факторы имеют различное число градаций, критические значения будут различными.
Результаты дисперсионного анализа
Степени свободы | Дисперсия | -статистика | |
Топливо, А | 1 | 3.92 | 4.752 |
Автомобиль, В | 1 | 9.68 | 11.733 |
Взаимодействие А и В | 1 | 54.08 | 65.552 |
Ошибка (внутри группы) | 4 | 0.825 | |
Общая | 7 | 68.5 |
Поскольку , что превышает критический уровень 7.71, то нулевые гипотезы об отсутствии влияния эффекта взаимодействия и типа автомобиля отвергаются. Можно сделать вывод о том, что тип автомобиля и сочетание типа топлива и типа автомобиля оказывает существенное влияние на потребление топлива.
4. Имеются данные о числе подписчиков на газеты и журналы по 4-м почтовым отделениям, расположенных в городе и на селе (тыс. чел). Рассчитайте эффекты взаимодействия, факторную и общую дисперсию.
город | село | |
Регион 1 | 10 | 3 |
Регион 2 | 18 | 1 |
Решение:
Дано:
Исследуется влияние 2х факторов на число подписчиков:
– фактор региональной принадлежности (1), принимающий уровня;
– фактор урбанизации (2), принимающий уровня.
Численность конечных групп = 1.
Имеем многофакторный (двухфакторный) дисперсионный анализ без повторений.
1. Рассчитаем средние:
ü Общая средняя:
ü Средняя по группе:
город 1 | село 2 | Xi (1) | |
регион 1 i=1 | 10 | 3 | 6.5 |
регион 2 i=2 | 18 | 1 | 9.5 |
Xi (2) | 14 | 2 | 8 |
2. Рассчитаем общую дисперсию:
xi | xi–b0 | (xi–b0)2 | S2 | |||
10 | 13 | 2 | –5 | 4 | 25 | 44.5 |
18 | 1 | 10 | –7 | 100 | 49 |
3.1 Рассчитаем эффекты первого порядка (главные), т.е. найдем коэффициенты влияния каждого фактора по отдельности на изучаемый признак:
— если факт о том, что j-й фактор находится на уровне i, не влияет на изучаемый признак.
Регион (1) | Урб-ия (2) |
b i (1) | b i (2) |
-1.5 | 6 |
1.5 | -6 |
0 | 0 |
Очевидно, что .
3.2 Рассчитаем дисперсии, определяемые влиянием каждого фактора:
Регион (1) | Урб-ия (2) | ||||
b i (1) | b i (2) | S21 | S22 | ||
-1.5 | 6 | 2.25 | 36 | ||
1.5 | -6 | 2.25 | 36 | ||
0 | 0 |
2.25 | 36
|
||
Последнее изменение этой страницы: 2021-05-12; просмотров: 138; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.130.139 (0.383 с.) |