Бред про регрессии

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Бред про регрессии

Сообщение Ian » 13 дек 2017, 20:52

По выборке трехмерной случайной величины [math] получено уравнение регрессии [math] с [math] и уравнение регрессии [math] с [math]. Каково уравнение регрессии [math] и с каким коэффициентом детерминации [math]?

peregoudov
Сообщений: 620
Зарегистрирован: 29 дек 2015, 13:17

Бред про регрессии

Сообщение peregoudov » 14 дек 2017, 15:05

Пусть $(x,y,z)=(x_1,x_2,x_3)={\bf r}$ и пусть уравнения регрессии записаны в виде ${\bf V}_i{\bf r}=0$, $V_{ii}=1$. Пусть ковариационная матрица
равна $K_{ik}$, через ${\bf K}_i$ обозначим ее $i$-й столбец. По видимому, речь идет о регрессиях с максимальным коэффициентом детерминации. Тогда введенные величины удовлетворяют уравнениям

$$ {\bf K}_i{\bf V}_j=0,\quad i\neq j, $$
$$ {\bf K}_i{\bf V}_i=K_{ii}(1-R^2_i). $$

В принципе, имеем 9 уравнений для 9 неизвестных: 6 компонент ковариационной матрицы, два коэффициента регресии $f$ и $g$ и коэффициент детерминации $R^2_2$. Однако ковариационная матрица входит в уравнения линейно, поэтому определена с точностью до множителя. Шесть уравнений (четыре из первого множества при $j\neq2$ и два из второго при $i\neq2$) образуют однородную линейную систему для $K$. Вот ее определитель (он выражается через $a$, $b$, $c$, $d$, $R_1^2$. $R_3^2$), вообще говоря, отличен от нуля. Так что нужно накладывать на исходные данные какое-то дополнительное условие... Плюс еще положительную определенность $K$ нужно как-то обеспечить...

P. S. Ну вот, как вариант: можно все выразить через ковариационную матрицу

$$ V=K^{-1}\textrm{diag}(1/(K^{-1})_{ii}),\quad 1-R^2_i=1/K_{ii}(K^{-1})_{ii}. $$

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Бред про регрессии

Сообщение Ian » 14 дек 2017, 22:17

Да, естественно коэффициенты линейной регрессии искались, и надо найти, по МНК, что равносильно искать максимум коэффициента детерминации. Но тут нельзя бездумно все формулы которые есть в теории, применять, они выведены для регрессий со свободными членами а мы полагаем, что они нули (это так на всякий случай)
Выборки x,y,z можно интерпретировать как вектора n-мерного евклидова пространства. Но так как в нем на любые три вектора можно натянуть трехмерное пространство, смотрим в нем. Первая регрессия -это разложение проекции x на плоскость Oyz по векторам y и z, а ее коэффициент детерминации это [math] угла между х и плоскостью Oyz. Вторая регрессия дает еще пару аналогичных данных. Задача свелась к стереометрической, хотя некоторые данные и буквы

peregoudov
Сообщений: 620
Зарегистрирован: 29 дек 2015, 13:17

Бред про регрессии

Сообщение peregoudov » 15 дек 2017, 12:46

О свободных членах я действительно не думал, но ничего нового и тем более хорошего они не несут.

Ок, давайте начнем сначала. Я пользуюсь определением из Википедии. Пусть уравнения регрессии записываются в виде ${\bf V}_i{\bf r}=u_i$, $V_{ii}=1$, а среднее значение вектора пусть равно ${\bf M}=\overline{(x,y,z)}$. Ковариационную матрицу по-прежнему обозначаем через $K$. Тогда полная дисперсия $SS_{\textrm{tot}i}=K_{ii}$, а остаточная

$$ SS_{\textrm{res}i}=\overline{({\bf V}_i{\bf r}-u_i)^2}=V_i^TKV_i+({\bf V}_i{\bf M}-u_i)^2. $$

Минимум остаточной дисперсии (а значит максимум коэффициента детерминации) достигается при

$$ {\bf K}_j{\bf V}_i=0,\quad j\neq i,\quad {\bf V}_i{\bf M}=u_i. $$

При этом для самого коэффициента детерминации получаем соотношение

$$ {\bf K}_i{\bf V}_i=(1-R_i^2)K_{ii}. $$

Ну, то есть, если вы хотите сказать, что уравнения регрессии получились однородными, а не выбирались таковыми изначально, то ничего, собственно, не меняется, просто из условий можно сделать вывод, что ${\bf M}=0$ (он перпендикулярен трем линейно независимым векторам ${\bf V}_i$).

Вторая возможность состоит в том, чтобы сразу искать однородное уравнение регрессии ${\bf V}_i{\bf r}=0$. Тогда, вводя матрицу простых средних $L_{ij}=\overline{x_ix_j}$, получаем $SS_{\textrm{res}i}=V_i^TLV_i$, так что все уравнения остаются справедливы с заменой $K$ на
$L$, кроме как в полной дисперсии

$$ {\bf L}_j{\bf V}_i=0,\quad j\neq i,\quad {\bf L}_i{\bf V}_i=(1-R_i^2)(L_{ii}-M_i^2). $$

Ну вот, у нас просто появились три новые неизвестные и никаких дополнительных уравнений. Опять-таки, полагая ${\bf M}=0$, возвращаемся к исходным уравнениям.

Но это все лирика. Вы утверждаете, что у вас, якобы, есть какое-то "стереометрическое решение". Ну и чему у вас равна ковариационная матрица в случае a=1, b=1, c=1, d=1?

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Бред про регрессии

Сообщение Ian » 15 дек 2017, 20:46

peregoudov писал(а):Но это все лирика. Вы утверждаете, что у вас, якобы, есть какое-то "стереометрическое решение". Ну и чему у вас равна ковариационная матрица в случае a=1, b=1, c=1, d=1?
Не утверждаю. В стадии поиска самого удобного представления данных задачи, при том что разрешимость и корректность задачи неизвестна. Вот так делаю, тоже понятно через ковар. матрицу
Система нормальных уравнений для 1-й регрессии
[math]
Чтобы превратить это в матричное уравнение, добавим равенство, служащее определением коэффициента детерминации[math]
Получили типа ковариационной матрицы, умноженной на известный столбец. Аналогично поступим со второй известной регрессией и с неизвестной. Получаем уравнение в матрицах
[math]
Отсюда не следует, что матрица с неизвестными f,g- симметрична, хотя остальные две и симметричны. Но хотя бы собрали в одно уравнение, полностью содержащее все данные , искомые и связи между ними.

peregoudov
Сообщений: 620
Зарегистрирован: 29 дек 2015, 13:17

Бред про регрессии

Сообщение peregoudov » 15 дек 2017, 22:52

А, ну то есть пришли к тому же, что написано в моем первом сообщении.

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Бред про регрессии

Сообщение Ian » 16 дек 2017, 10:22

peregoudov писал(а):А, ну то есть пришли к тому же, что написано в моем первом сообщении.

Конечно! А я и не сомневался. Но я хотя бы сохраняю единство обозначений а без этого не пойму что пишут.Хорошую формулу не плохо и два раза повторить)

peregoudov
Сообщений: 620
Зарегистрирован: 29 дек 2015, 13:17

Бред про регрессии

Сообщение peregoudov » 16 дек 2017, 16:41

Я тоже много времени потратил на то, чтобы в приличном виде описать ограничения на исходные данные. Ничего не выходит. Поэтому думаю, тут только конкретные числа в качестве a, b, c, d можно задать, так, чтобы задача решалась. Но красоты никакой... Еще не вполне исследовал случай равных коэффициентов детерминации --- там формулы упрощаются, может, можно что-то нарыть...

Ian писал(а):Source of the post Но я хотя бы сохраняю единство обозначений а без этого не пойму что пишут.
Мне бы ваши проблемы.

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Бред про регрессии

Сообщение Ian » 17 дек 2017, 10:15

У Вас прозвучало, что задача скорей всего не имеет красивого ответа. Я думаю, что даже доказательство того, что задача имеет хотя бы один ответ (не приводя его), это уже актуально, может быть - ново, и тогда по определению красиво. В эконометрике (которая макро-, ну там ВВП, нац.доход, инвестиции/потребление) недостатка в статистике нет, и принято считать что что угодно может оказаться как зависимым фактором, так и независимым.Пишутся всевозможные системы эконометрических уравнений, та система 2 ур. с 3 неизв., которая у нас, считается переопределенной (противоречивой). С другой стороны, раз уж у двух уравнений указаны меры их достоверности, то не обязательно противоречие, такое случиться могло при некоторых [math] . Более того, такие высокие коэффициенты детерминации это редкость для отрасли, такие уравнения игнорировать не хочется. Вот и появился такой допвопрос студенту-заочнику на троечку, а знает ли преподаватель-экономист корректный математический ответ на свой вопрос, теперь не узнаем. Если тройки [math] и [math] "сильно непропорциональны" друг другу, то скорей всего, противоречие уже в условии, таких больших [math] получиться одновременно не могло. Так определить хотя бы границы множества возможных [math].

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Бред про регрессии

Сообщение Ian » 17 дек 2017, 11:19

Обозначим углы между векторами [math],тогда удается исключить [math] вообще
[math]
Более того, и коэффициенты детерминации все выражаются через [math]
Для выражения [math] рассмотрим вектора [math], пусть вектор [math] ортогонален как [math], так и [math], то есть H- проекция OX на плоскость YOZ. Введем [math]-проекцию X на OY
[math] (Заменяем косинус двугранного угла [math] по первой теореме косинусов https://ru.wikipedia.org/wiki/Трёхгранный_угол ) [math] M ввел для краткости
[math]

peregoudov
Сообщений: 620
Зарегистрирован: 29 дек 2015, 13:17

Бред про регрессии

Сообщение peregoudov » 18 дек 2017, 00:19

Ну, во-первых, у вас просто арифметические ошибки. Если разделить строки на $(x_i,x_i)$ никаких косинусов, конечно, не выйдет, потому что косинус --- это не $(x,y)/(x,x)$, а $(x,y)/(x,x)^{1/2}(y,y)^{1/2}$. Но получить вожделенные косинусы можно, только придется умножить матрицу коэффициентов уравнений регрессии на $\textrm{diag}((x_i,x_i)^{1/2})$ слева и $\textrm{diag}((x_i,x_i)^{-1/2})$ справа. Непонятно, правда, зачем...

Ian писал(а):Source of the post Так определить хотя бы границы множества возможных (a,b,c,d).
Так вроде написал уже: просто для разрешимости системы шести однородных уравнений для ковариационной матрицы должно выполняться одно условие (равенство нулю определителя), включающее a, b, c, d, $R_1$ и $R_2$. Но это не все, конечно, потому что в результате решения должна еще получиться положительно определенная матрица.

peregoudov
Сообщений: 620
Зарегистрирован: 29 дек 2015, 13:17

Бред про регрессии

Сообщение peregoudov » 18 дек 2017, 15:08

В общем, самое простое, что получилось: использовать соотношения
peregoudov писал(а):Source of the post
$$ V=K^{-1}\textrm{diag}(1/(K^{-1})_{ii}),\quad 1-R^2_i=1/K_{ii}(K^{-1})_{ii}. $$
и параметризовать обратную ковариационную матрицу

$$ K^{-1}=\begin{pmatrix} c\mu&-ac\mu&-bc\mu\\ -ac\mu&1&-bd\mu\\ -bc\mu&-bd\mu&b\mu \end{pmatrix}. $$

Здесь $\mu$ --- параметр, $f=ac\mu$, $g=bd\mu$, а коэффициенты детерминации выражаются формулами

$$ R_x^2=\frac{bc+(2abd+a^2)c\mu}{1-d^2b\mu},\quad R_y^2=\frac{(2abcd+bd^2+ca^2)\mu}{1-bc},\quad R_z^2=\frac{bc+(2acd+d^2)b\mu}{1-a^2c\mu}. $$

И есть требование положительной определенности $K^{-1}$

$$ c\mu>0,\quad 1-a^2c\mu>0,\quad 1-bc-(2abcd+bd^2+ca^2)\mu>0. $$

Отсюда следуют такие ограничения:

$$ bc>0,\quad 1-bc>0. $$

Отмечу, что $2abcd+bd^2+ca^2$ является положительно определенной квадратичной формой переменных $a,d$ при $c>0$ и отрицательно определенной при $c<0$. Соответственно, в первом случае

$$ 0<\mu<\frac{1-bc}{2abcd+bd^2+ca^2}, $$

а во втором

$$ 0>\mu>\frac{1-bc}{2abcd+bd^2+ca^2}. $$

Собственно, все. При выполнении указанных неравенств на $bc$ и $\mu$ ковариационная матрица существует и положительно определена. Отмечу еще, что $R$ являются возрастающими функциями $|\mu|$. Формулу для $R_x$ можно еще записать так

$$ R_x^2=bc+\frac{c(a+bd)^2}{bd^2}\left(\frac1{1-d^2b\mu}-1\right) $$

(аналогично для $R_z$ с заменой $a\leftrightarrow d$, $b\leftrightarrow c$). При $ca^2=bd^2$ имеем $R_x=R_z$ независимо от $\mu$, в противном случае $R_x\neq R_z$ независимо от $\mu$ (за исключением концов допустимого интервала).

P. S. Ну, вот так как-то выглядит зависимость коэффициентов детерминации от $\mu$. Сосчитано для a=-0.1, b=0.8, c=0.5, d=0.3.

Изображение

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Бред про регрессии

Сообщение Ian » 25 дек 2017, 20:24

Ну я подытожу от себя. Название темы удачное, в том смысле что я писал в ней бред, а Вы выкладывали нормальный контент. Который, однако, мной не понят и я не могу ответить по существу. Но если принять, что мы тут пишем для потомков, то это не должно Вас сильно волновать, тема не хуже других здесь открытых, ни по актуальности, ни по количеству труденостей. уже преодоленных участниками. Спасибо за ответы!


Вернуться в «Математика»

Кто сейчас на форуме

Количество пользователей, которые сейчас просматривают этот форум: нет зарегистрированных пользователей и 1 гость