Основные понятия, методы и приемы математической статистики

Автор работы: Пользователь скрыл имя, 01 Апреля 2012 в 19:26, реферат

Краткое описание

Историю статистики как науки о статистических выводах обычно начинают с забавного эпизода, изложенного Ж. Бертраном в предисловии к его курсу «Исчисление вероятностей»: « Однажды в Неаполе преподобный Голиаци увидел человека из Базиликаты, который, встряхивая 3 игральные кости в чашке, держал пари, что выбросит 3 шестерки… Вы скажете, такая удача возможна. Однако человеку из Базиликаты это удалось во второй раз, и пари повторилось. Он клал кости назад в чашку 3,4,5 раз и каждый раз выбрасывал 3 шестерки. «Черт возьми,- вскричал преподобный, - кости налиты свинцом!» И так оно и было».

Содержание работы

Введение…………………………………………………………………… 2
1. Задачи математической статистики…………………………………… 3
2. Математическая статистика. Основные понятия…………………..... 4
2.1. Генеральная и выборочная совокупности…………………………. 4
2.2. Повторная и бесповторная выборки. Репрезентативная выборка.. 5
2.3. Способы отбора………………………………………………………. 6
2.4. Статистический ряд, полигон частот и гистограмма……………… 9
2.5. Статистические гипотезы……………………………………….. 12

2.6. Критерий Пирсона (хи-квадрат)……………………………….. 14
2.7. Линейная корреляция………………………………………………… 22

Заключение………………………………………………………………… 31

Список литературы………………………………………………………… 32

Содержимое работы - 1 файл

реферат по математике и статистике Смирнова.docx

— 487.26 Кб (Скачать файл)

 

Критерий  Пирсона 

(хи-квадрат)

Этот критерий был введен английским математиком К. Пирсоном (1857 – 1936). Критерий служит для проверки гипотезы о виде распределения случайной величины .

Итак, пусть имеется сгруппированный  статистический ряд, разбитый на интервалов, где - заранее выбранное число, - число вариант, попадающих в интервал, - объем выборки, - вероятность попадания случайной величины в - ый интервал при выбранном законе распределения случайной величины.

При этих условиях Пирсон предложил  в качестве критерия рассмотреть случайную величину

, ( - случайные величины).         (1)

Он доказал, что  при больших практически не зависит от гипотетического распределения и определяется функцией плотности

             (2)

где - число степеней свободы, определяемое по формуле , здесь - число параметров гипотетического закона распределения, подлежащих определению по опытным данным.

График функции плотности  имеет вид (рис. 3):

 

 

 

 

          

  Рис. 3

Критерий  заключается в следующем. По опытным данным считают выборочное значение критерия Пирсона

, ( - выборочные частоты).

По таблице критических точек  распределения  (прил. 1) по заданному уровню значимости и числу степеней свободы находят теоретическое значение критерия Пирсона .

Если значение окажется больше или равно , то гипотезу отвергают. Если же меньше , то гипотезу принимают и считают ее не противоречащей опытным данным.

При использовании критерия хи-квадрат рекомендуем промежуточные результаты заносить в таблицу:

 

 

 

 

 

 

 

 

 

-

-

-

-

-

-

 

 

Замечание. Разбивку на интервалы надо производить так, чтобы в каждом из них было 5-10 наблюдений. Интервалы, содержащие мало наблюдений, рекомендуется объединять с соседними.

 

     Пример 2. Даны результаты наблюдений некоторой случайной величины . Проверить гипотезу о ее нормальном распределении.

 

интервалы

3,5-4,5

4,5-5,5

5,5-6,5

6,5-7,5

7,5-8,5

8,5-9,5

число

вариант

6

13

25

16

11

9

 

Решение. 1. Построим гистограмму относительных частот (рис. 4), данные для ее построения занесем в таблицу ( , длина интервалов ).

 

(4)

3,5-4,5

(5)

4,5-5,5

(6)

5,5-6,5

(7)

6,5-7,5

(8)

7,5-8,5

(9)

8,5-9,5

6

13

25

16

11

9

0,075

0,1625

0,3125

0,2

0,1375

0,1125

 

 

 

 

 

 

       

 

Рис. 4

 

2. По виду гистограммы можно  предположить, что наблюдаемая случайная  величина имеет нормальное распределение  - . Функция плотности вероятности нормального распределения имеет вид , где параметры и неизвестны.

В качестве значений параметров распределения  возьмем их оценки, полученные на основе опытных данных. Оценкой параметра  является величина

,          

(3)

оценкой параметра  является величина

.                (4)

В обеих формулах - середина -го интервала.

    .

Итак, выдвигаем гипотезу о том, что изучаемая случайная величина имеет функцию плотности вероятности

                       (5)

Ее график построим на том же чертеже, что и гистограмму (рис. 4). Для  построения достаточно найти точки  максимума  , и точки перегиба , . Затем эти точки следует соединить плавной линией, учитывая форму кривой нормального распределения. (рис. 4).

3. Зададимся уровнем значимости, например, . Для получения надежных выводов на основе критерия хи-квадрат нужно объединить первый интервал, содержащий мало наблюдений, со вторым интервалом. Тогда имеем всего интервалов. Определим , ( – число степеней свободы, – число неизвестных параметров). Итак, (прил. 1).

4. Вычислим  . Для этого сначала вычислим вероятности, попадания исследуемой случайной величины в каждый интервал, согласно гипотезе. В случае нормального распределения они вычисляются по формуле:    .

Тогда ,

,

где – функция Лапласа, значения которой приведены в прил. 2.

Аналогично  , ,

.

Вычисления  удобно вести, фиксируя промежуточные результаты в таблице.

 

 

19

0,22

17,6

1,4

1,96

0,11

25

0,26

20,8

4,2

17,64

0,85

16

0,26

20,8

4,8

23,06

1,11

11

0,16

12,8

1,8

3,24

0,25

9

0,08

4,8

4,2

17,64

3,89

 

. Величина  равна сумме значений в последнем столбце таблицы.

5. Сравним  и : . Таким образом, при выбранном уровне значимости принадлежит критической области , а значит гипотезу о нормальном распределении следует отвергнуть. Следует отметить, что вероятность того, что мы ошибаемся, меньше 0,05.

 

Пример 3. Результаты наблюдений случайной величины представлены в виде статистического ряда.

 

 

 

0

1

2

3

4 и  более

 

54

27

14

5

0

 

Решение. 1. Построим полигон относительных частот - ломаную линию с вершинами в точках , рис. 5 (на рис. сплошная линия).

 

 

         

      Рис. 5

 

2. По виду полигона частот  можно выдвинуть предположение,  что изучаемая случайная величина  имеет пуассоновский закон распределения,  т. е.  Так как в законе Пуассона параметр равен математическому ожиданию, а его оценкой является величина , то

,   ,

и изучаемая случайная величина имеет закон распределения

,              (6)

где .

3. Зададимся уровнем значимости, например, . Последние 2 разряда, содержащие мало наблюдений (нужно 5-10), можно объединить. Определим    , итак (прил. 1).

4. Вычислим  . Для этого сначала вычислим вероятности для каждого из четырех интервалов: , , , .

Используя полученные вероятности, построим ломаную с вершинами в точках . На рис. 5 эта ломаная показана пунктирной линией. Вычисление оформляем в виде таблицы.

 

 

54

0,5

54-50=4

27

0,35

35

-8

64

1,83

14

0,12

12

2

4

0,33

5

0,03

3

2

4

1,33

 

Величина  равна сумме величин в последнем столбце таблицы, т. е. =3,18.

5. Сравним  и . =3,18< =5,99. Таким образом, в критическую область не входит. Делаем вывод: гипотеза опытным данным не противоречит.

 

 

 

Линейная корреляция.

 

Две случайные величины и могут быть функционально зависимы, статистически зависимы или независимы. Наиболее простой формой зависимости между величинами является функциональная зависимость, при которой каждому значению одной величины соответствует определенное значение другой. Однако на практике связь между величинами носит случайный характер.

Статистической называется зависимость, при которой изменение одной  из случайных величин ведет к  изменению закона распределения  другой величины. В частности, если при изменении одной из величин  изменяется среднее значение другой, то статистическая зависимость называется корреляционной. Статистическая зависимость более сложна, чем функциональная. Она возникает, если одна величина зависит не только от другой, но и от ряда прочих случайных факторов. Примерами статистической зависимости являются связи между ростом ребенка и его возрастом, между урожайностью ягодных культур и их рыночными ценами, между температурой закалки и твердостью стали и т. д.

Пусть произведено  независимых опытов, в которых наблюдались случайные величины и . В результате опытов получены пары чисел . Данные сводят в корреляционную таблицу:

 

 

 

 

 

 

 

 

             

 

 

 

 

В первой строке таблицы указаны  наблюденные значения случайной  величины ; в первом столбце – величины . На пересечении строк и столбцов вписаны частоты наблюдаемых пар значений случайных величин. Пустая клетка означает, что соответствующая пара чисел в результате опытов не наблюдалась. В столбце записаны суммы частот строк, в строке - суммы частот столбцов, причем ¾ объем выборки.

Информация о работе Основные понятия, методы и приемы математической статистики