Дифференциальные игры преследования с неполной информацией

Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 00:23, курсовая работа

Краткое описание

Теория дифференциальных игр – это новое математическое направление, возникшее всего лишь несколько лет назад. Она тесно связана с теорией оптимального синтеза, управлением случайными процессами; некоторые её аспекты переплетаются с такими классическими направлениями, как дискретные игры, дифференциальные уравнения, вариационное исчисление.

Содержание работы

Введение 4
Основные сведения из теории дифференциальных игр 6
Определение дифференциальной игры 6
Стратегии в дифференциальной игре 9
Виды выигрышей в дифференциальных играх 15
Дифференциальные игры с неполной информацией 17
Игры преследования с задержкой информации у игрока Р 17
Существование ситуаций равновесия в играх преследования 20
Игра преследования с фиксированной продолжительностью и задержкой информации у обоих игроков 24
Заключение 28
Список использованных источников

Содержимое работы - 1 файл

курсовая моя готовая.docx

— 186.32 Кб (Скачать файл)

   Если хS(k), k=m+1, …, 2m, то для всех хS(k) множество допустимых управлений тоже, что и при хSk, т. е. представляет собой направление скорости внутри угла, образованного инцидентными сторонами , (Рисунок 10).

   Движение вдоль  сторон будем считать недопустимым и предположим, что множества  допустимых управлений являются замкнутыми подмножествами описанных множеств. В рассматриваемом случае траектории движения игроков проходят по информационным множествам.

   Под стратегией u(S(k)), k=0, …, 2m, и v(S(k)) игрока Р(Е) будем понимать отображение, ставящее в соответствие каждому информационному множеству S(k), k=0, …, 2m, игрока Р(Е) некоторое допустимое в этом информационном множестве управлениеu(v)Uk(Vk).

  Пусть задана ситуация (u(S(k)),v(S(k))). Игра протекает следующим образом. Первым ходит «случай» и выбирает точки x0, y0 на множестве S0. Тогда игрок Р выбирает управление u(S(0)), диктуемое стратегией u(S(k)), а игрок Е – управление v(S(0)), диктуемое стратегией v(S(k)), и движение происходит в соответствии с уравнениями

  =αu(S()),

  =βv(S(0))

при начальных условиях х(0)=х0, у(0)=у0.

  Пусть t11(t12) – момент времени, когда траектория х(t)(у(t)) впервые попадает из S(0) в (). Тогда в момент t11(t12) игрок Р(Е) выбирает управление u()(v()), диктуемое стратегией u(S(k))(v(S(k))) , и придерживается его до окончания игры или до выхода из информационного множества(). Движение в () происходит согласно уравнениям

  =αu(),

  =βv()

при начальных  условиях x(t11),y(t12). Этот процесс продолжается до момента Т. В момент Т игра прекращается, и игрок Е получает выигрыш

К(x0,y0; u(S(k)),v(S(k)))=F(x(t), y(t)),

где x(t), y(t) – траектория процесса из начальных состояний x0,y0 в ситуации (u(S(k)),v(S(k))), а F – непрерывный функционал, заданный на траекториях движения игроков Р и Е. Так как начальные состояния x0,y0 выбираем в S0 случайно, то игрок в начале игры может быть уверен только в получении среднего выигрыша 

                                                              

где μ(S0) - лебегова мера множества S0.

  Под функцией выигрыша в этой игре будем  понимать среднее значение выигрыша К, т. е. функцию Е(u(S(k)),v(S(k))). Итак, задав множества стратегий игроков Р и Е, функцию выигрыша Е(u(S(k)),v(S(k))), мы определили игру преследования с неполной информацией в нормальной форме.

  Теорема1. Функция выигрыша Е() является непрерывной функцией на произведении компактных множеств РЕ.

  Учитывая  предыдущую теорему, справедлива Теорема2: игра преследования с неполной информацией, определенная в этом разделе, имеет ситуацию равновесия в смешанных стратегиях. 
 

    2.3Игра  преследования с  фиксированной продолжительностью  и задержкой информации  у обоих игроков 

  Рассмотрим  антагонистическую дифференциальную игру преследования с предписанной продолжительностью T между нарядом  преследователей Р={Р1, …, Рm}, действующим, как один игрок, и преследуемым Е. Уравнения движения имеют вид:

   для игроков Рi     (i) = f(i) (x,u), uU(i) Rk

  для игрока Е         = g (y,v), vV Rl ,

где   x(i) Rn, yRn ,  x(i) (0) = x0(i) ,  y (0) = y0

  На  правые части уравнений (2.7) наложены все условия, гарантирующие существование, единственность и продолжимость  на отрезок [0,T] решения из начальных состояний х0(i), у0 при любой паре измеримых программных управлений u(t)={u(i)(t)},v(t).

  Заданы  числа l1>0, l>0 (l1>l), представляющие собой задержку поступления информации к игроку Е об игроке Р и соответственно к игроку Р от игрока Е. При 0≤t≤l игрок Р в каждый момент времени t знает свое состояние х(t)={x(i)(t)}, время t и состояние игрока Е в начальный момент y0. При l≤t≤T игрок Р в каждый момент t знает свое состояние х(t)={x(i)(t)}, время t и состояние у(t - l) игрока Е в момент t – l. Игрок Е в каждый момент t при 0≤t≤l1 знает время t, свое состояние y(t) и состояние х0={x0(i)} игрока Р в начальный момент времени. При l1≤t≤T игрок Е в каждый момент t знает свое состояние y(t), время t и состояние x(t – l1)={x(i)( t – l1)} игрока Р={Pi} в момент t – l1.

  Выигрыш игрока Е определяется как min ρ(x(i)(T), y(T)),      (2.8)

                                                                    i

где ρ(x(i), y) – евклидово расстояние между точками x(i), y. Обозначим таким образом игру через Г(x0, y0, T).

  Кусочно-программный  чистые стратегии.

  Под кусочно-программной чистой стратегией v игрока Е будем понимать пару {τ, β}, где τ – разбиение отрезка времени [0,T] конечным числом точек 0= t1≤ …≤ts=T и β – отображение, которое каждому состоянию x0, y(tk), tk   при 0≤ tk≤l1  ставит в соответствие отрезок измеримого программного управления v(t) при t[ tk, tk+1 ), а каждому состоянию tk, x(tk – l1), y(tk) при l1≤tk≤T ставит в соответствие отрезок измеримого программного управления v(t) при t[ tk, tk+1 ).

  Под кусочно-программной чистой стратегией u игрока P будем понимать пару {σ, α}, где σ –разбиение отрезка времени [0, T]  конечным числом точек 0= t1'< …< tk'=T и α – отображение, которое каждому состоянию x(tk'), y0, tk' при 0≤ tk'≤l ставит в соответствие отрезок измеримого программного управления u(t)= {u(i)(t)} при t[ tk', tk+1' ), а каждому состоянию x(tk'), y(tk'−l), tk' при l≤ tk'≤T – отрезок измеримого программного управления u(t)= {u(i)(t)}  при t[ tk', tk+1' ).

  Смешанные кусочно-программные  стратегии поведения.

  Под смешанной кусочно-программной стратегией поведения игрока v игрока Е понимаем пару {τ, с}, где τ – разбиение отрезка времени [0, T] конечным числом точек 0= t1< …< ts=T и с – отображение, которое каждому состоянию x0, y(tk), tk при 0≤ tk≤l ставит в соответствие вероятностную меру ν* (зависящую от x0, y(tk), tk) на множестве достижимости (y(tk )) игрока Е из состояния y(tk ) за время tk+1 - tk, а каждому состоянию tk, х(tk - l),  y(tk ) при l1≤tk≤T -  вероятностную меру ν* (зависящую от х(tk - l), y(tk), tk) на множестве достижимости (y(tk )) игрока Е из состояния y(tk ) за время tk+1 - tk. Под смешанной кусочно-программной стратегией поведения μ наряда Р={P1, …,Pm}понимаем пару {σ, d}, где σ – разбиение отрезка времени [0, T] конечным числом точек 0= t1'< …< tk'=T и d – отображение, которое каждому состоянию x(tk'), y0, tk' при  0≤ tk'≤l ставит в соответствие вероятностную меру μ* (зависящую от x(tk'), y0, tk') на множестве достижимости

  (x(tk'))= (x(i)( tk'))

  i

игрока  Р за время tk+1 - tk.

   Для каждой пары кусочно-программных стратегий (u,v) можно определить функцию выигрыша

  К(x0, y0; u,v)= min ρ(x(i)(T), y(T)),

  i

где x(i)(t), y(t) – траектории игроков, реализованные в результате применения стратегий u,v в игре Г(x0, y0, Т). Поскольку игра является игрой с неполной информацией, ситуации равновесия в чистых кусочно-программных стратегиях в ней может не существовать, поэтому введение смешанной кусочно-программной стратегии поведения является необходимостью. Каждая пара стратегий u,v при фиксированных начальных условиях x0, y0 индуцирует распределение вероятностей на множествах конечных состояний игры 

поэтому под выигрышем понимаем математическое ожидание (2.9), которое обозначаем через М(x0, y0, μ, ν). Под решением игры Г(x0, y0, Т) понимаем нахождение ситуации равновесия в классе смешанных кусочно-программных стратегий поведения.

  Движение  в ситуации в  смешанных кусочно-программных стратегий поведения μ, ν из начальных состояний х0, у0 строится следующим образом. Пусть μ={σ,d}, ν={τ, c}, где σ={tk'}, τ={tk'′}. В момент t1'′=0 игроки Р и Е реализуют меры μ*, ν*, диктуемые отображениями c,d в состоянии х0, у0, 0, и переходят в точки x(i)(t2′)(x0(i)) и y(t2'′)(y0) , используя любые программные управления, переводящие точку x(i)(t1′) в x(i)(t2′) и y(t1'′) в y(t2'′) (здесь точки x(i)(t2′) и y(t2'′) выбирают случайно в соответствии с вероятностными мерами μ*, ν*, входящими в стратегии μ, ν в качестве поведений). В состояниях x(t2′)=(x(i)(t2′)) и y(t2'′) опять реализуются вероятностные меры μ*, ν*, диктуемые отображениями с, d. В этих информационных состояниях игроки переходят в случайным образом выбранные точки x(t3′)=(x(i)(t3′)), где x(t3′)′)(x(i)(t2′)) и y(t3'′)(y(t2'′)) и т. д. В результате такого последовательного выбора поведения реализуются случайные траектории x(t), y(t) из начальных состояний х0, у0, соответствующие ситуации в смешанных кусочно-программных стратегиях поведения μ, ν. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  Заключение

  Невозможно  предсказать все захватывающие  неожиданности, которые может повлечь  за собой развитие теории дифференциальных игр. На пути развития этой теории новые  затруднения, по-видимому, никогда не перестанут появляться, и поэтому  нелегко определить, до какой степени  она сейчас завершена. Теория дифференциальных игр, развивающаяся и в настоящее время, весьма далека от завершения.

  Дифференциальные  игры открывают новую интересную тематику для исследований и в  перспективе своего дальнейшего  развития приведут к решению актуальных технических задач.. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Информация о работе Дифференциальные игры преследования с неполной информацией