Составление прогноза цен однокомнатных квартир в городе Набережные Челны

Автор работы: Пользователь скрыл имя, 25 Ноября 2011 в 10:05, курсовая работа

Краткое описание

Тема данной курсовой работы является составление прогноза цен однокомнатных квартир в городе Набережные Челны. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан. Например, могло бы оказаться, что число спальных комнат является лучшим предсказывающим фактором (предиктором) для цены продажи дома в некотором специфическом районе, чем "привлекательность" дома (субъективная оценка). Могли бы также обнаружиться и "выбросы", т.е. дома, которые могли бы быть проданы дороже, учитывая их расположение и характеристики.

Содержание работы

Содержание 2
Введение 3
1.Теоретические сведения 5
1.1 Множественная регрессия 5
1.2 Регрессионный анализ 5
1.3 Классическая линейная модель множественной регрессии 8
1.4 Оценка параметров классической модели множественной регрессии методом наименьших квадратов 12
2. Отбор и анализ факторных признаков, включаемых в модель множественной регрессии 16
2.1Корреляционный анализ 17
2.2 Частные коэффициенты корреляции 18
2.3 Коэффициент корреляции совокупного воздействия 18
2.4 Оценка значимости параметров уравнения линейной регрессии 19
3.Исходные данные 21
4.Результаты анализа 23
5.Анализ полученных данных 29
6.Заключение 30
7.Список использованной литературы 31

Содержимое работы - 1 файл

курсовая готовая.doc

— 599.50 Кб (Скачать файл)

    Что касается требования к рангу матрицы X, то оно означает, что не должно существовать строгой линейной зависимости между объясняющими переменными. Так, если, например, одна объясняющая переменная может быть линейно выражена через какое-то количество других, то ранг матрицы XTX будет тоже меньше             p  + 1. А это означает вырождение симметрической матрицы XTX ( т.е. det(XTX)=0), что исключает существование матрицы (XTX)-1, которая играет важную роль в процедуре оценивания параметров анализируемой модели.

    В дальнейшем  удобнее будет оперировать с матричной записью модели (4). При этом кроме обозначений (3а)-(3б) введем также матрицы (векторы):

    In =        -    (6)

единичная матрица  размерности n×n;

         (7)

вектор-столбец  неизвестных значений параметров;

     = ( , , … , )T -  (8)

вектор-столбец  регрессионных остатков;

    0n = (0,0,….,0)T  - (9)

вектор-столбец высоты n, состоящий из одних нулей;

     = E( ) =       -  (10)

ковариационная  матрица размерности n×n  вектора остатков;

      - (11)

вектор-столбец  оценок неизвестных значений параметров;

      

 l, j = 0,1,2,….., p,                                 (12)                                     

 ковариационная  матрица размерности (p + 1)×(p + 1) вектора несмещенных оценок неизвестных параметров (в соотношении (12)).

    Тогда матричная форма записи КЛММР  имеет вид:

    

      

      (x(1), x (2) ,….,  x (p)) – неслучайные переменные;               - ( )

    ранг  матрицы X = p + 1 n.                          

Когда дополнительно к условиям  (4) или ( ) постулируют нормальный характер распределения регрессионных остатков T (что записывается в виде ), то говорят, что y и X связаны нормальной КЛММР.

 

1.4 Оценка параметров классической модели множественной регрессии методом наименьших квадратов

 

Для оценки вектора неизвестных параметров применим метод наименьших квадратов. Так как произведение транспонированной матрицы на саму матрицу

    

    То  условие минимизации остаточной суммы квадратов запишется в  виде:

       (1)

    Учитывая  что при транспонировании произведения матриц получается произведение транспонированных матриц, взятых в обратном порядке то есть ; после раскрытия скобок получим

    

Произведение  есть матрица размера ,то есть величина скалярная, следовательно, оно не меняется при транспонировании , то есть = поэтому условие минимизации (1) примет вид:

 

              (2)

 

На основании  необходимого условия экстремума функции  нескольких переменных представляющей (1), необходимо приравнять к нулю частные производные по этим переменным или в матричной форме -вектор частных производных для вектора частных производных доказаны следующие формулы:

      

     ,

где b и c- вектор –столбцы;  А-симметрическая матрица, в которой элементы, расположенные симметрично относительно главной диагонали, равны.

Поэтому полагая  ,а матрицу , найдем

    

Откуда  получаем систему нормальных уравнений  в матричной форме для определения  вектора b:

          (3)

     Найдем  матрицы входящие в это уравнение. Матрица  представляет матрицу сумм первых степеней, квадратов и попарных произведений n наблюдений объясняющих переменных:

         (4)

     Матрица есть вектор произведений n наблюдений объясняющих и зависимой переменных:

         (5)

     Для решения матричного уравнения (3) относительно вектора оценок параметров b необходимо ввести предпосылку для множественного регрессионного анализа : матрица является неособенной, т.е её определитель не равен 0. Следовательно, ранг матрицы равен её порядку, т.е r( )=p+1. Из матричной алгебры известно, что r( )=r(X), значит r(X)= p+1, т.е ранг матрицы Х равен числу её столбцов. Это позволяет сформулировать предпосылку для множественного регрессионного анализа в следующем виде:

   Векторы значений объясняющих переменных  или столбцы матрицы плана  Х, должны быть линейно независимыми, т.е ранг матрицы Х- максимальный (r( )=p+1).

   В новых терминах предпосылки регрессионного анализа могут быть записаны в  следущем виде:

  1. Y=Xb+ ,где -случайный вектор ,а Х- неслучайная матрица
  2. , - нулевой вектор размера n
  3. , где - еденичная матрица 0- го порядка
  4. - нормально распределенный случайный вектор, т.е
  5. r( )=p+1<n

   Модель  Y=Xb+ , удовлетворяющая предпосылкам 1-6, называется классической нормальной линейной моделью множественной регрессии ,если среди привиденных не выполняется лишь предпосылка 5,то модель Y=Xb+ называют просто классической линейной моделью множественной регрессии.

Решением  уравнения  5) будет вектор:

    

где - матрица, обратная матрице коэффициентов системы (5), - матрица-столбец, или вектор её свободных членов.

Теорема Гаусса-Маркова

     Рассмотренная выше для парной регрессионной модели, оказывается верной и в общем виде для модели Y=Xb+ множественной регрессии

     При выполнении предпосылок  множественного регрессионного анализа оценка метода наименьших квадратов является наиболее эффективной, т.е обладает наименьшей дисперсией в классе линейных несмещенных оценок.

     Зная  вектор b ,выборочное уравнение множественной регрессии представим в виде:

    

     где групповая (условная) средняя переменной Y при заданном векторе значений объясняющей переменной

    

 
 
 
 
 
 
 
 

2. Отбор и анализ факторных признаков, включаемых в модель множественной регрессии

      Важным  этапом построения уравнения множественной  регрессии является отбор, анализ и  последующее включение факторных  признаков. Определение оптимального числа факторных признаков является  одной из проблем построения множественной  регрессии. Построение модели малой размерности может привести к тому, что такая модель будет недостаточно адекватна исследуемым явлениям  и процессам. Модель с большим числом факторов сложно реализуема и требует больших затрат машинного времени.

      Наиболее  приемлемым способом отбора факторных признаков является шаговая регрессия. Сущность метода состоит в последовательном включении факторов в уравнение регрессии и последующей проверке построенного уравнения. При проверке значимости введенного фактора определяется, на сколько уменьшается  сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции (R) . Если при включении в модель соответствующего фактора величина R увеличивается, а коэффициент регрессии не изменяется ( или меняется несущественно) ,то данный признак существенен, и его включение в уравнение регрессии необходимо.

      Сложность и взаимное переплетение отдельных  факторов могут проявляться в так называемой мультиколлинеарности (тесной зависимости между факторами включенными в модель), наличие которой может привести к искажению величины параметров модели, изменению смысла экономической интерпретации коэффициентов регрессии. Одним из индикаторов определения наличия мультиколлинеарности между признаками является превышение парным коэффициентом корреляции величины 0,8. Устранение мультиколлинеарности можно реализовать путем исключения одного или нескольких линейно связанных факторных признаков или преобразование исходных факторов в новые, более крупные.  

 

2.1Корреляционный анализ

 

     Корреляция  – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

    1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).
    2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
    3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

     Корреляционный  анализ имеет своей задачей количественное определение тесноты связи между  двумя признаками (при парной связи) и между результативным признаком  и множеством факторных признаков (при многофакторной связи).

     Выявим  признаки-факторы xj, которые в большей степени влияют на результирующий фактор Y. Для этого рассчитаем линейный коэффициент корреляции и частные коэффициенты корреляции (без влияния остальных признаков) между результирующим признаком Y и каждым xj, а так же между самими факторами x1,x2,…,xn.

     Рассчитанные  коэффициенты корреляции проверяются  на значимость, т.е. при проверке по нулевой гипотезе с вероятность 0,99 должно выполняться условие ryxi≠0, а факторы x1,x2,…,xn должны быть попарно независимыми rxixj=0. Далее проведем анализ рассчитанных коэффициентов корреляции: определим факторы, оказывающие наиболее сильное и наиболее слабое влияние на результирующий фактор, установим тип связей между ними, приведем экономическую интерпретацию.

 

2.2 Частные коэффициенты корреляции

 

      Во множественном регрессионном анализе возникает проблема определения тесноты связи между факторами в чистом виде, то есть при устранении воздействия других факторов. Показателем чистого влияния фактора на результат при устранении влияния других факторов ,включенных в модель называют частным коэффициентом корреляции:

      

      Где и алгебраические дополнения элементов и матрицы выборочных коэффициентов корреляции:

      

      Частный случай :

      Для построения множественной регрессии (в частности, зависимости результирующего  фактора от двух независимых факторов), необходимо выбрать пару признаков на основе анализа общих и частных коэффициентов корреляции совокупного воздействия. Для включения в модель необходимо выбрать ту пару факторов, которая имеет наибольшее значение коэффициента корреляции совокупного воздействия. При этом необходимо оценить влияние выбранных факторов на результирующий фактор.

       

 

2.3 Коэффициент корреляции совокупного воздействия

 

      Если  число независимых факторов равно  , то коэффициент корреляции совокупного воздействия рассчитывается по формуле:

,

где – определитель вида: ,

 – определитель  без первой строки и первого столбца:

 

  .

 
 

2.4 Оценка значимости параметров уравнения линейной регрессии

      Оценка  значимости параметров производится так же, как и в случае парной регрессии: по нулевой гипотезе с помощью –критерия Стьюдента. Величина –критерия для параметра ак находится по формуле:

Информация о работе Составление прогноза цен однокомнатных квартир в городе Набережные Челны