Нелинейная регрессия

Автор работы: Пользователь скрыл имя, 08 Апреля 2011 в 05:39, реферат

Краткое описание

Далеко не все задачи исследования взаимосвязей экономических переменных описываются обычной линейной регрессионной моделью. Во-первых, исходные данные могут не соответствовать тем или иным предпосылкам линейной регрессионной модели и требовать либо дополнительной обработки, либо иного модельного инструментария. Во-вторых, исследуемый процесс во многих случаях описывается не одним уравнением, а системой, где одни и те же переменные могут быть в одних случаях объясняющими, а в других - зависимыми.

Содержание работы

1.Нахождение параметров нелинейной регрессии методом наименьших квадратов.
2.Коэфициент детерминации R2
3. Производственные функции, функции опроса.
4.Подбор эмпирических формул.

Содержимое работы - 1 файл

Эконометрика.doc

— 127.50 Кб (Скачать файл)
 
 

Министерства  образования науки  Республики Казахстан

Алматинская академия экономики  и статистики

Информационно – телекоммуникационный центр г. Костанай 

Специальность 5В050600 «Экономика» 

КОНТРОЛЬНАЯ РАБОТА 
 

По  дисциплине: «Эконометрика ». 
 
 

                                    

         Выполнил (а):  1 курса группы № 1001 экономика

                                                                                  Болатова А.М.

         Проверил (а):Сахно А.Н

Старший преподаватель                                                                  

Костанай. 2011г.

 
 

Содержание:

1.Нахождение  параметров нелинейной регрессии  методом наименьших квадратов.

2.Коэфициент  детерминации R2

3. Производственные функции, функции опроса.

4.Подбор эмпирических  формул. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

1.Эконометрика — это раздел экономики, занимающийся разработкой и применением статистических методов для измерений взаимосвязей между экономическими переменными.

метод наименьших квадратов

Далеко не все  задачи исследования взаимосвязей экономических переменных описываются обычной линейной регрессионной моделью. Во-первых, исходные данные могут не соответствовать тем или иным предпосылкам линейной регрессионной модели и требовать либо дополнительной обработки, либо иного модельного инструментария. Во-вторых, исследуемый процесс во многих случаях описывается не одним уравнением, а системой, где одни и те же переменные могут быть в одних случаях объясняющими, а в других - зависимыми. В-третьих, исследуемые взаимосвязи могут быть (и обычно являются) нелинейными, а процедура линеаризации не всегда легко осуществима и может приводить к искажениям. В-четвертых, структура описываемого процесса может обусловливать наличие различного рода связей между оцениваемыми коэффициентами регрессии, что также предполагает необходимость использования специальных методов.

Наиболее распространенным в практике статистического оценивания параметров уравнений регрессии  является метод наименьших квадратов. Этот метод основан на ряде предпосылок  относительно природы данных и результатов построения модели. Основные из них - это четкое разделение исходных переменных на зависимые и независимые, некоррелированность факторов, входящих в уравнения, линейность связи, отсутствие автокорреляции остатков, равенство их математических ожиданий нулю и постоянная дисперсия. Эмпирические данные не всегда обладают такими характеристиками, т.е. предпосылки МНК нарушаются. Применение этого метода в чистом виде может привести к таким нежелательным результатам, как смещение оцениваемых параметров, снижение их состоятельности, устойчивости, а в некоторых случаях может и вовсе не дать решения. Для смягчения нежелательных эффектов при построении регрессионных уравнений, повышения адекватности моделей существует ряд усовершенствований МНК, которые применяются для данных нестандартной природы.Одной из основных гипотез МНК является предположение о равенстве дисперсий отклонений еi, т.е. их разброс вокруг среднего (нулевого) значения ряда должен быть величиной стабильной. Это свойство называется гомоскедастичностью. На практике дисперсии отклонений достаточно часто неодинаковы, то есть наблюдается гетероскедастичность. Это может быть следствием разных причин. Например, возможны ошибки в исходных данных. Случайные неточности в исходной информации, такие как ошибки в порядке чисел, могут оказать ощутимое влияние на результаты. Часто больший разброс отклонений єi, наблюдается при больших значениях зависимой переменной (переменных). Если в данных содержится значительная ошибка, то, естественно, большим будет и отклонение модельного значения, рассчитанного по ошибочным данным. Для того, чтобы избавиться от этой ошибки нам нужно уменьшить вклад этих данных в результаты расчетов, задать для них меньший вес, чем для всех остальных. Эта идея реализована во взвешенном МНК.Пусть на первом этапе оценена линейная регрессионная модель с помощью обычного МНК. Предположим, что остатки еi независимы между собой, но имеют разные дисперсии (поскольку теоретические отклонения еi нельзя рассчитать, их обычно заменяют на фактические отклонения зависимой переменной от линии регрессии ^., для которых формулируются те же исходные требования, что и для єi). В этом случае квадратную матрицу ковариаций cov(ei, ej) можно представить в виде:

где cov(ei, ej)=0 при i № j; cov(ei, ej)=S2; п - длина рассматриваемого временного ряда.

Если величины  известны, то далее можно применить  взвешенный МНК, используя в качестве весов величины  и минимизируя  сумму

Формула Q, записана для парной регрессии; аналогичный вид она имеет и для множественной линейной регрессии. При использовании IVLS оценки параметров не только получаются несмещенными (они будут таковыми и для обычного МНК), но и более точными (имеют меньшую дисперсию), чем не взвешенные оценки.

Проблема заключается  в том, чтобы оценить величины s2, поскольку заранее они обычно неизвестны. Поэтому, используя на первом этапе обычный МНК, нужно попробовать выяснить причину и характер различий дисперсий еi. Для экономических данных, например, величина средней ошибки может быть пропорциональна абсолютному значению независимой переменной. Это можно проверить статистически и включить в расчет МНК веса, равные .Существуют специальные критерии и процедуры проверки равенства дисперсий отклонений. Например, можно рассмотреть частное от деления cумм самых больших и самых маленьких квадратов отклонений, которое должно иметь распределение Фишера в случае гомоскедастичности.Использование взвешенного метода в статистических пакетах, где предоставлена возможность задавать веса вручную, позволяет регулировать вклад тех или иных данных в результаты построения моделей. Это необходимо в тех случаях, когда мы априорно знаем о не типичности какой-то части информации, т.е. на зависимую переменную оказывали влияние факторы, заведомо не включаемые в модель. В качестве примера такой ситуации можно привести случаи стихийных бедствий, засух. При анализе макроэкономических показателей (ВНП и др.) данные за эти годы будут не совсем типичными. В такой ситуации нужно попытаться исключить влияние этой части информации заданием весов. В разных статистических пакетах приводится возможный набор весов. Обычно это числа от О до 100. По умолчанию все данные учитываются с единичными весами. При указании веса меньше 1 мы снижаем вклад этих данных, а если задать вес больше единицы, то вклад этой части информации увеличится. Путем задания весового вектора мы можем не только уменьшить влияние каких - либо лет из набора данных, но и вовсе исключить его из анализа. Итак, ключевым моментом при применении этого метода является выбор весов. В первом приближении веса могут устанавливаться пропорционально ошибкам не взвешенной регрессии.

Нелинейная регрессия

На практике часто встречается ситуация, когда  априорно известен нелинейный характер зависимости между объясняемыми и объясняющими переменными. В этом случае функция f в уравнении у=(а,х) нелинейна (а - вектор параметров функции, которые нам нужно оценить). Например, вид зависимости между ценой и количеством товара в той же модели спроса и предложения: она не всегда предполагается линейной, как в нашем примере. Нелинейную функцию можно преобразовать в линейную, как это было сделано, например, логарифмированием с функцией Кобба-Дугласа. Однако не все функции поддаются такой непосредственной линеаризации. Любую дифференцируемую нужное число раз функцию можно разложить в функциональный ряд и затем оценить регрессию объясняемой переменной с членами этого ряда. Тем не менее такое разложение всегда осуществляется в окрестности определенной точки, и лишь в этой окрестности достаточно точно аппроксимирует оцениваемую функцию. В то же время оценить зависимость требуется обычно на более или менее значительном интервале, а не только в окрестности некоторой точки. При линеаризации функции или разложении её в ряд с целью оценки регрессии возникают и другие проблемы: искажение отклонений ей нарушение их первоначальных свойств, статистическая зависимость членов ряда между собой. Например, если оценивается формула, полученная путем линеаризации или разложения в ряд, то независимые переменные х и х2 связаны между собой даже не статистически, но функционально. Если исходная ошибка е здесь связана с переменной х, то добавление х2 приводит к появлению (с соответствующими коэффициентами) квадрата этой переменной и её удвоенного произведения с х, что искажает исходные предпосылки модели. Поэтому во многих случаях актуальна непосредственная оценка нелинейной формулы регрессии. Для этого можно воспользоваться нелинейным МНК. Идея МНК основана на том, чтобы минимизировать сумму квадратов отклонений расчетных значений от эмпирических, т.е. нужно оценить параметры о функции f(a,x) таким образом, чтобы ошибки еi= уi-f(а,х), точнее - их квадраты, по совокупности были минимальными. Для этого нужно решить задачу минимизации. Для решения этой задачи существует два пути. Во-первых, может быть осуществлена непосредственная минимизация функции F с помощью методов нелинейной оптимизации, позволяющих находить экстремумы выпуклых линий. Это, например, метод наискорейшего спуска, при использовании которого в некоторой исходной точке определяется антиградиент (направление наиболее быстрого убывания) функции F. Далее находится минимум F при движении в данном направлении, и в точке этого минимума снова определяется градиент. Процедура повторяется до тех пор, пока разница значений f на двух последовательных шагах не окажется меньше заданной малой величины. Другой путь состоит в решении системы нелинейных уравнений, которая получается из необходимых условий экстремума функции F. Эти условия - равенство нулю частных производных функции F по каждому из параметров аj., т.е. 

Faj = 0, 

j =1,..,m. Получается система уравнений

-2S (yi-f(a,xi))*fai'(a,xi) = 0, j = 1,..,m(4.2)

нелинейность  которой обусловлена нелинейностью  функции f относительно параметров аj. Эта система уравнений может быть решена итерационными методами (когда последовательно находятся векторы параметров, все в меньшей степени нарушающие уравнения системы). Однако в общем случае решение такой системы не является более простым способом нахождения вектора а, чем непосредственная оптимизация методом наискорейшего спуска. Существуют методы оценивания нелинейной регрессии, сочетающие непосредственную оптимизацию, использующую нахождение градиента, с разложением в функциональный ряд (ряд Тейлора) для последующей оценки линейной регрессии. Наиболее известен из них метод Марквардта, сочетающий в себе достоинства каждого из двух используемых методов.При построении нелинейных уравнений более остро, чем в линейном случае, стоит проблема правильной оценки формы зависимости между переменными. Неточности при выборе формы оцениваемой функции существенно сказываются на качестве отдельных параметров уравнений регрессии и, соответственно, на адекватности всей модели в целом.[1] 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

2. Коэффициент детерминации (R2)— это доля объяснённой дисперсии отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных. В частном случае R2 является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.

Формула для  вычисления коэффициента детерминации:

где yi — наблюдаемое  значение зависимой переменной, а fi — значение зависимой переменной предсказанное по уравнению регрессии - среднее арифметическое зависимой переменной. Содержание [убрать]

1 Проблемы и  общие свойства R2

1.1 Интерпретация

1.2 Общие свойства  для МНК регрессии

1.3 Общие свойства для МНК регрессии со свободным членом (единичным фактором)

1.4 Мнимая регрессия

2 Решение проблем  или модификации R2

2.1 R2-скорректированный  (adjusted)

2.2 R2-распространённый (extended)

2.3 R2-истинный (несмещённый) 

[Иногда показателям  тесноты связи можно дать качественную оценку (шкала Чеддока):Количественная мера тесноты связи Качественная характеристика силы связи

0,1 - 0,3 Слабая

0,3 - 0,5 Умеренная

0,5 - 0,7 Заметная

0,7 - 0,9 Высокая

0,9 - 0,99 Весьма высокая

Функциональная  связь возникает при значении равном 1, а отсутствие связи — 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

[править]

Общие свойства для МНК регрессии

Линейная множественная  регрессия методом наименьших квадратов (МНК) - наиболее распространённый случай использования коэффициента детерминации R2.

Линейная множественная  МНК регрессия имеет следующие  общие свойства [1]:

Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

С увеличением количества объясняющих переменных увеличивается R2.

[править]

Общие свойства для МНК регрессии со свободным  членом (единичным фактором)

Для случая наличия  в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами: [2]

принимает значения из интервала (отрезка) [0;1].

в случае парной линейной регрессионной МНК модели коэффициент детерминации равен  квадрату коэффициента корреляции, то есть R2 = r2. А в случае множественной  МНК регрессии R2 = r(y;f)2. Также это  квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.[3]

R2 можно разложить  по вкладу каждого фактора  в значение R2, причём вклад каждого  такого фактора будет положительным.  Используется разложение: , где r0j - выборочный коэффициент корреляции зависимой и соответствующей второму индексу объясняющей переменной.R2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина  имеет F-распределение с (k-1) и (n-k) степенями свободы.

Информация о работе Нелинейная регрессия