Экономико-математическое моделирование

Автор работы: Давыдов Максим, 31 Мая 2010 в 20:57, шпаргалка

Краткое описание

лекции

Скачать целиком (803.69 Кб) Сколько стоит заказать работу?

Содержимое работы - 12 файлов

ЛЭК8Системы одновременных уравнений.Динам. модели.doc

— 164.00 Кб (Открыть файл, Скачать файл)

ЛЭК7Замещающие переменные.doc

— 538.50 Кб (Открыть файл, Скачать файл)

ЛЭК6.Множественная регрессия.doc

— 206.00 Кб (Скачать файл)

МНОЖЕСТВНЕННАЯ РЕГРЕССИЯ

Допустим, что переменная y связана с k независимыми переменными x₁, x₂, …, x_k неизвестной истинной зависимостью

Оценим уравнение для данного множества п наблюдений по методу наименьших квадратов:

Это вновь означает минимизацию суммы квадратов разностей, а отклонение в наблюдении i выражается как

Теперь мы выбираем b₀ , b₁ ,∙∙∙ ,b_k так, чтобы свести к минимуму S — сумму квадратов отклонений . . Мы получаем (k+ 1) условий первого порядка dS/db₀ = 0, dS/db₁ = 0, ..., dS/db_k = 0, что дает (k+ 1) уравнение для нахождения (k+ 1) неизвестных. Выражения для b₀ , b₁, ... , b_k становятся очень сложными, и математика не будет здесь представлена в явном виде. Вычисления целесообразнее сделать с помощью матричной алгебры. В частности, для уравнения с двумя независимыми переменными можно получить следующее выражение для b₁:

Cвойства коэффициентов множественной регрессии

Как и в случае парного регрессионного анализа, коэффициенты регрессии должны рассматриваться как случайные переменные специального вида, случайные компоненты которых обусловлены наличием в модели случайного члена. Каждый коэффициент регрессии вычисляется как функция значений у и независимых переменных в выборке, а у в свою очередь определяется независимыми переменными и случайным членом. Отсюда следует, что коэффициенты регрессии действительно определяются значениями независимых переменных и случайным членом, а их свойства существенно зависят от свойств последнего.

Мы продолжаем считать, что выполняются условия Гаусса—Маркова, а именно: 1) математическое ожидание и в любом наблюдении равно нулю; 2) теоретическая дисперсия его распределения одинакова для всех наблюдений; 3) теоретическая ковариация его значений в любых двух наблюдениях равняется нулю; 4) распределение и независимо от распределения любой объясняющей переменной. Первые три условия идентичны условиям для парного регрессионного анализа, а четвертое условие является обобщением своего аналога. На данный момент мы примем усиленный вариант четвертого условия, допустив, что независимые переменные являются нестохастическими.

Существуют еще два практических требования. Во-первых, нужно иметь достаточное количество данных для проведения линии регрессии, что означает наличие стольких (независимых) наблюдений, сколько параметров необходимо оценить. Во-вторых, как мы увидим далее в этом разделе, между независимыми переменными не должно существовать строгой линейной зависимости.

Несмещенность

Мы покажем, что b₁ является несмещенной оценкой β₁ для случая с двумя объясняющими переменными. Доказательство можно легко обобщить, используя матричную алгебру для любого числа объясняющих переменных. Как видно из вышеизложенного, величина b₁ является функцией от х₁, х₂ и у. В свою очередь у определяется по x₁ , х₂ и e. Следовательно, величина b_l фактически зависит от значений х,, х₂ и и в выборке (поняв суть преобразований, можно опустить детали математических выкладок):

Отсюда величина b₁ имеет две составляющие: истинное значение β, и составляющую ошибки. Перейдя к математическому ожиданию, получим:

при допущении, что выполняется четвертое условие Гаусса—Маркова.

Точность коэффициентов множественной регрессии

В теореме Гаусса—Маркова для множественного регрессионного анализа доказывается, что, как и для парной регрессии, обычный метод наименьших квадратов (МНК) дает наиболее эффективные линейные оценки в том смысле, что на основе той же самой выборочной информации невозможно найти другие несмещенные оценки с меньшими дисперсиями при выполнении условий Гаусса—Маркова. Мы не будем доказывать эту теорему, но исследуем факторы, регулирующие возможную точность коэффициентов регрессии. В общем случае можно сказать, что коэффициенты регрессии, скорее всего, являются более точными:

чем больше число наблюдений в выборке;
чем больше дисперсия выборки объясняющих переменных;
чем меньше теоретическая дисперсия случайного члена;
чем меньше связаны между собой объясняющие переменные.

Первые три из желательных условий повторяют то, на чем мы уже останавливались в случае парного регрессионного анализа. Лишь четвертое условие является новым. Сначала мы рассмотрим случай с двумя независимыми переменными и затем перейдем к более общему случаю.

Две независимых переменных

Если истинная зависимость имеет вид:

и вы получили уравнение регрессии

использовав необходимые данные, то теоретическая дисперсия вероятностного распределения для b₁ будет описываться выражением:

где — теоретическая дисперсия величины e. Аналогичное выражение можно получить для теоретической дисперсии величины b₂, заменив D (х₁ ) на D (х₂).

Из уравнения можно видеть, что, как и в случае парного регрессионного анализа, желательно, чтобы величины п и D (х₁ ) были большими, а величина — малой. Однако теперь мы получили еще и член , и вполне очевидно, что желательно иметь слабую корреляцию между х₁, и х₂.

Стандартные ошибки коэффициентов регрессии

Стандартная ошибка коэффициента множественной регрессии имеет такой же смысл, как и в парном регрессионном анализе, в том плане, что она является оценкой стандартного отклонения распределения коэффициента регрессии вокруг его истинного значения. Как и в парном регрессионном анализе, формула для стандартной ошибки может быть выведена на основе выражения дисперсии распределения, замены теоретической остаточной дисперсии на несмещенную оценку и извлечения квадратного корня. Как и прежде, значимость выражения, полученного таким образом, зависит от правильной спецификации модели и выполнения условий Гаусса—Маркова для случайного члена.

Дисперсия случайного члена	Линейная зависимость между объясняющими переменными
	Слабая зависимость	Тесная зависимость

Низкая	Надежная	Приемлемая
Высокая	Приемлемая	Ненадежная

Качество оценивания: коэффициент R²

Как и в парном регрессионном анализе, коэффициент детерминации R² определяет долю дисперсии у, объясненную регрессией, и эквивалентно определяется как величина D ()/ D ( у ), как {1 — D (e)/ D (у)} или как квадрат коэффициента корреляции между у и .

Этот коэффициент никогда не уменьшается (а обычно он увеличивается) при добавлении еще одной переменной в уравнение регрессии, если все ранее включенные объясняющие переменные сохраняются.

Для иллюстрации этого предположим, что вы оцениваете регрессионную зависимость у от x₁ и х₂ и получаете уравнение вида:

Далее, предположим, что вы оцениваете регрессионную зависимость у. только от x₁, в результате получив следующее:

Это уравнение можно переписать в виде:

Если сравнить уравнения, то коэффициенты в первом из них свободно определялись с помощью метода наименьших квадратов на основе данных для у, x_l и х₂ при обеспечении наилучшего качества оценки. Однако в последнем уравнении коэффициент при х₂ был произвольно установлен равным нулю, и оценивание не будет оптимальным, если только по случайному совпадению величина b₂ не окажется равной нулю, когда оценки будут такими же. (В этом случае величина b^*₀ будет равна b₀ , а величина b₁* будет равна b₁) Следовательно, обычно коэффициент R² будет выше в первом уравнении, чем в последнем, и он никогда не станет ниже. Конечно, если новая переменная на самом деле не относится к этому уравнению, то увеличение коэффициента R²будет, вероятно, незначительным.

Вы можете решить, что поскольку коэффициент R² измеряет долю дисперсии, совместно объясненной независимыми переменными, то можно определить отдельный вклад каждой независимой переменной и таким образом получить меру ее относительной важности. Было бы очень удобно, если бы это стало возможным. К сожалению, такое разложение невозможно, если независимые переменные коррелированы, поскольку их объясняющая способность будет перекрываться.

F-тесты

Ранее F-тест использовался для анализа дисперсии. Теперь, когда мы используем регрессионный анализ для деления дисперсии зависимой переменной на «объясненную» и «необъясненную» составляющие, можно построить F-статистику:

где ESS— объясненная сумма квадратов отклонений; RSS— остаточная (необъясненная) сумма квадратов; k — число степеней свободы, использованное на объяснение. С помощью этой статистики можно выполнить F-тест для определения того, действительно ли объясненная сумма квадратов больше той, которая может иметь место случайно. Для этого нужно найти критический уровень F в колонке, соответствующей k степеням свободы, и в ряду, соответствующем (n–k–1) степеням свободы.

Чаще всего F-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом. Кроме того, с помощью F-статистик можно выполнить ряд дополнительных тестов, что также будет рассмотрено ниже.

При осуществлении F-теста для уравнения в целом проверяется, превышает ли коэффициент R² то значение, которое может быть получено случайно. Проверим, является ли значимой совместная объясняющая способность k независимых переменных; тест для этого может быть описан как проверка нулевой гипотезы:

H₀: β₁,=β₂ = ...=β_k, = 0.

В определенном смысле этот тест дополняет t-тесты, которые используются для проверки значимости вклада отдельных случайных переменных, когда проверяется каждая из гипотез β₁= 0,..., β_k = 0.

При расчете F-статистики для уравнения в целом, возможно, было бы удобно разделить числитель и знаменатель уравнения на TSS (общую сумму квадратов), заметив, что ESS/TSS равняется R², a RSS/TSS равняется (1 —R²). В результате можно записать:

Дальнейший анализ дисперсии

Помимо проверки уравнения в целом F-тест можно использовать для определения значимости совместного предельного вклада группы переменных. Предположим, что вы сначала оцениваете регрессию с k независимыми переменными и объясненная сумма квадратов составляет ESS_k. Затем вы добавляете еще несколько переменных, доведя их общее число до т, и объясненная сумма квадратов возрастает до ESS_m. Таким образом, вы объяснили дополнительную величину (ESS_m — ESS_k), использовав для этого дополнительные (т — k) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.

Вновь используется F-тест, и соответствующая F-статистика может быть описана следующим образом.

Поскольку RSS_m — необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется (TSS — ESS_m) и RSS_k — необъясненная сумма квадратов отклонений в уравнении с k переменными — равняется (TSS —ESS_k), улучшение качества уравнения при добавлении (m – k) переменных, представленное как разность (ESS_m — ESS_k), записывается в виде выражения (RSS_k — RSS_m). Следовательно, соответствующая F-статистика равна: