Teoria de Juegos Juegos Dinamicos

Embed Size (px)

Citation preview

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    1/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    JUEGOS DINAMICOS DE INFORMACIÓN COMPLETA

    Juego Dinámico

    Un juego dinámico, es un juego secuencial (a diferencia de los juegos estáticos), donde los

     jugadores adquieren nueva información, respecto a lo realizado por los demás jugadores,mientras el juego se desarrolla. En los juegos dinámicos la estructura secuencial del juego tiene

    relevancia, es por ello que se recomienda utilizar la forma extensiva para poder analizar un

     juego dinámico.

    Juego de informci!n com"#e$

    Al igual que en los juegos estáticos de información completa, tanto la estructura del juego, la

    racionalidad de los jugadores los futuros pagos, de acuerdo a las estrategias utilizadas, son de

    conocimiento com!n.

    Un juego dinámico de información completa puede ser representado mediante la forma normal

    o estrat"gica, sin em#argo al utilizar esta representación podemos encontrar los equili#rios de

     $as%, tal como se %a estudiado en la parte de juegos estáticos de información completa. &in

    em#argo, en el caso de juegos dinámicos (como se dijo en la definición de juego dinámico)

    resulta más apropiado contar con una representación del juego que muestre la estructura

    secuencial del juego. 'a representación en su forma extensiva de un juego incorpora

    explcitamente la estructura secuencial. Utilizando esta representación de los juegos dinámicos

     podemos encontrar lo que se conoce como  Equilibrio de Nash perfecto en subjuegos , el cual es

    el concepto de solución en juegos dinámicos (a diferencia de los Equili#rios de $as% en juegos

    estáticos) que será explicado más adelante.

    E%em"#o &' Di#em de# Pri(ionero )diferenci en$re %uego( e($á$ico( * dinámico(+

    ecordemos el enunciado del dilema del prisionero, el cual se representa en su forma normal de

    la siguiente manera

    *+

     NC    C 

    *

     NC    (2,2) (0,3)

    C    (3,0 ) (1,1 )

    -ara poder representarlo en su forma extensiva utilizaremos el diagrama de ár#ol. -ara este caso

    como a %emos entrado a la parte de juegos dinámicos %aremos una distinción en la forma

    extensiva de representar un juego estático dinámico, para ello representamos el dilema del

     prisionero en su forma extensiva donde

    -anel A /ilema del prisionero en juegos estáticos

    -anel 0 /ilema del prisionero en juegos dinámicos. -ara esta versión del

    dilema del prisionero, tenemos que el jugador elige primero su acción, la cual es

    o#servada por el jugador + antes de que "l de#a elegir su acción. Es por ello que se les

    conoce como juegos secuenciales.

    A continuación la forma extensiva del dilema del prisionero

    Página 1 de 1

    Panel A! J"ego es#á#ico Panel $! J"ego diná%ico

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    2/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    'as lneas punteadas del panel A que unen los nodos de decisión del jugador + nos %ace

    referencia a que el juego es un juego estático, donde el plan de acción se toma al inicio del

     juego (por am#os jugadores) mientras que el juego representado en el panel 0 nos muestra la

    secuencialidad del juego, donde el jugador + decidirá qu" estrategia usar dependiendo de la

    estrategia tomada por el jugador .

     Diferencia entre acción y estrategia

    En los juegos estáticos vistos anteriormente no exista diferencia entre acción estrategia. 'a

    estrategia de un jugador consista en la elección de una acción. &in em#argo, en los juegos

    dinámicos una estrategia es mu diferente a una acción. 'os jugadores pueden ir tomando

    distintas acciones a lo largo del juego. 'a estrategia de un jugador es un plan contingente

    completo de acción.

    Re"re(en$ci!n e,$en(i-

    'a definición matemática de un juego en su forma extensiva consiste en la descripción de los

    elementos que lo componen

    . Un conjunto finito de jugadores  N  .

    Un conjunto finito de acciones A=×i∈ N  A i .

    Un conjunto finito de nodos  X  .

    A continuación se utiliza el ejemplo anterior donde se representan los nodos los cuales están

    encerrados con un crculo rojo

    Página & de 1

    J 2J 2

    J 1

    J 1

    J 2

    C  N 

     N C N C 

    (22) (03) (30) (11)(11)(30)(03)(22)

    C  N C  N 

     N C 

    J 2

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    3/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    +. Una función  p: X   que especifica en !nico inmediato predecesor de cada nodo.

    1a dos tipos de nodos

    •  Nodos terminales  T ={ x∈ X }  que no pertenecen a ning!n jugador, sino que

    representan los resultados del juego a los que se asocian los pagos

    correspondientes de cada jugador.

    • 'os demás nodos  X ∖T    son los nodos de decisión, donde alg!n jugador es

    requerido a tomar una acción. /entro de ellos está el nodo inicial   x

    0  donde el

     juego empieza.

    2. Una funciónγ : X ∖{ x0 }→ A  que asigna la acción que lleva %acia cada nodo (no

    inicial)  x  desde su inmediato predecesor.

    3. Una colección de conjuntos de información  H    una función  H : X ∖T → H   que

    a cada nodo de decisión  x  le asigna un conjunto de información h= H ( x )∈ H  .

    4. Una función  I : H → N   que a cada conjunto de información le asigna un jugador. El

    conjunto de información de i  se denota  H i={h∈ H : i= I  (h ) } .'a interpretación de un conjunto de información es que un jugador no puede distinguir 

    en qu" nodo está entre los nodos que pertenecen a un mismo conjunto de información

    cuando elige una acción cualesquiera de ellos. -or lo tanto, se requiere que todos los

    nodos de decisión asignados a un mismo conjunto de información tengan las mismas

    acciones disponi#les.

    Página ' de 1

    Panel A! J"ego es#á#ico Panel $! J"ego diná%ico

    J 2

    J 2

    J 1

    J 1

    J 2

    C  N 

     N C N C 

    (22) (03) (30) (11)(11)(30)(03)(22)

    C  N C  N 

     N C 

    J 2

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    4/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    As, podemos definir el conjunto de acciones disponi#les en cada conjunto de

    información h : A (h )= {a∈ A : a∈ A ( x ) para x∈h }

    A continuación se utiliza el ejemplo anterior donde se se5alan los conjuntos de información del

     jugador +

    6. Una colección de pagos v={v1 (∙ ) , … , vn (∙ ) }  que a cada jugador le asigna un pago en

    cada nodo terminal v i :T → R .

    -or lo tanto, podemos definir un juego dinámico en su forma extensiva por la colección de todos

    sus elementos  Γ  E= ⟨ X , A , N , p ( ∙ ) , γ ( ∙ ) , H , H  ( ∙ ) , I  ( ∙ ) , v ⟩ .

    &e %an asumido  N     A  finitos ( por lo tanto  X   finito), pero la definición se puede

    extender directamente al caso más general. Un juego dinámico se dice  finito si  X   es finito

    (que implica  N     A  finitos)

     Información perfecta e imperfecta

    Un juego extensivo es de información perfecta si cada conjunto de información contiene un

    !nico nodo. /e lo contrario, es un juego de información imperfecta. As, el juego del dilema del

    Página ( de 1

    Panel A! J"ego es#á#ico Panel $! J"ego diná%ico

    J 2J 2

    J 1

      J 1

    J 2

    C  N 

     N    C    N    C 

    (22) (03) (30) (11)(11)(30)(03)(22)

    C  N C  N 

     N C 

    J 2

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    5/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

     prisionero que vimos anteriormente (-anel A) es un juego de información imperfecta, mientras

    que la versión del juego en su forma dinámica (-anel 0) es un juego de información perfecta.

    E($r$egi Pur

     Definición

    Una estrategia pura para el jugador i   es una función si : H i → A   tal que

    si ( h )∈ A (h ) ,∀h∈ H i . Al conjunto de estrategias puras de i  lo denotamos por S i .

    Es importante enfatizar que una estrategia especifica una acción para todos y cada uno de los

    conjuntos de información del jugador. Ello incluso si de acuerdo a la estrategia alg!n conjunto

    de información no va a ser alcanzado en el juego.

    En concreto, sean h   h '   dos conjuntos de información que pertenecen al jugador i

    donde h '    se encuentra en una etapa posterior en el juego que h . Una estrategia del

     jugador i   de#e asignar una acción a h '    aun cuando la acción especificada en h

    impida que se llegue a h '   durante el juego. 'a idea detrás de una estrategia en un juego

    dinámico es que de#e especificar qu" %ara el jugador en cada nodo de decisión del juego. Es

     por ello que una estrategia en un juego dinámico es un plan contingente completo de acción.

    /os planes contingentes completos de acción que se diferencian sólo en una acción constituen

    dos estrategias diferentes. -or lo tanto, es com!n que los jugadores tengan muc%as posi#les

    estrategias en juegos dinámicos. Especficamente, si | A (h )|   es el n!mero de acciones

    disponi#les del jugador i   en el conjunto de información   h , entonces el n!mero de

    estrategias puras de dic%o jugador es

    |Si|=∏h∈ H 

    i

    | A (h )|

    E%em"#o &. Di#em de# Pri(ionero )e($r$egi( en %uego( en (u form e,$en(i-+

    ecordemos el enunciado del dilema del prisionero

    Página de 1

    Panel A! J"ego es#á#ico Panel $! J"ego diná%ico

    J 2J 2

    J 1

    J 1

    J 2

    C  N 

     N    C    N    C 

    (22) (03) (30) (11)(11)(30)(03)(22)

    C  N C  N 

     N C 

    J 2

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    6/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    En el juego del dilema del prisionero (-anel A), cada jugador tiene sólo un conjunto de

    información (aunque el jugador tiene un !nico nodo de decisión en el suo el jugador + tiene

    dos nodos de decisión), en el cual dos acciones están disponi#les  NC    C  . &us

    estrategias de#en especificar qu" acción tomar en dic%o conjunto de información. El conjunto

    de todas las estrategias puras posi#les de cada jugador son entonces S1= { NC , C }  

    S2= { NC , C } . 7emos que estos son iguales a los conjuntos de acciones de los jugadores

     A1= { NC , C }    A2= { NC , C }.  Es en este sentido que mencionamos anteriormente que

    no %a diferencia práctica entre acción estrategia en los juegos estáticos.

    En cam#io, el juego del dilema del prisionero presentado en el -anel 0 es un juego dinámico.

    En este caso el jugador sigue teniendo un !nico conjunto de información su conjunto de

    estrategias puras sigue siendo S1= { NC , C }.   &in em#argo, el jugador dos tiene dos

    conjuntos de información aqu"l al que se llega luego de que el jugador juegue  NC   

    aqu"l al que se llega luego de que el jugador juegue C .  Una estrategia pura del jugador +

    de#e especificar qu" acción va a tomar en cada uno de sus conjuntos de información. /efinimos

    una estrategia pura del jugador + como un vector ( X , Y ) , donde  X   indica la acción a

    tomar si el jugador juega  NC   e Y   indica la acción a tomar si el jugador juega C  .

    El conjunto de estrategias puras del jugador + será entonces

    S1=

    {( NC , NC ) , ( NC , C ) , (C , N C  ) , (C , C ) } .  El n!mero de estrategias puras del jugador +es 3, que es lo que se o#tiene al calcular 

    |S2|=∏h∈ H 

    2

    | A (h )|=2 × 2=4

    E($r$egi Mi,$

     Definición

    Página ) de 1

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    7/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    Una estrategia mixta  i  para el jugador i  es (al igual que para juegos estáticos) una

    distri#ución de pro#a#ilidad so#re su conjunto de estrategias purasS i .

     Representación Normal de Juegos Extensivos

    &iempre es posi#le reducir un juego en su forma extensiva a un juego en su forma normal o

    estrat"gica, donde los pagos están asociados a perfiles de estrategias en lugar de a nodos

    terminales. Un perfil de estrategias puras lleva a un !nico nodo terminal. &ea ! s∈T   el !nico

    nodo terminal asociado con el perfil de estrategias puras s . Entonces

    "i (s )=vi (! s ) ,∀ i∈ N  . Asimismo, el pago esperado asociado al perfil de estrategias mixtas

       es

    # i ( )=∑s∈ S (∏ $∈ N    $ ( s $ ))vi ! s

    En la práctica, veremos que para juegos dinámicos es muc%as veces más conveniente considerar 

    las estrategias de comportamiento de los jugadores en lugar de sus estrategias mixtas.

    E($r$egi de Com"or$mien$o

     Definición

    Una estrategia de comportamiento  i ( A (h) )   para el jugador i   es una distri#ución de

     pro#a#ilidad so#re sus acciones disponi#les en cada uno de sus conjuntos de información

    h∈ H i . En otras pala#ras, asumimos que un jugador asigna pro#a#ilidades a sus decisiones

    en cada uno de sus conjuntos de información, en lugar de asignar pro#a#ilidades a sus

    estrategias puras. Am#as definiciones son equivalentes #ajo el supuesto, que vamos a mantener,

    que los jugadores tienen 8memoria perfecta9 un jugador no puede olvidar lo que %izo en una

    etapa anterior del juego (este resultado es conocido como el teorema de :u%n).

    CONCEPTOS DE SOLUCIÓN

    E/UILI0RIO DE NAS1

    ecordemos la definición de equili#rio de $as% dada anteriormente un equili#rio de $as% es un

     perfil de estrategias  ¿

      tal que para cada jugador i

    # i ( i¿

    ,  −i¿ )% # i ( i ,  −i

    ¿ ) ,∀  i∈ &i .

    Sendero de E2ui#i3rio

    Página * de 1

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    8/15

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    9/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    J 1

     AAA   2,0 1,1 0,2

     AAR   2,0   1,1   0,0

     ARA   2,0 0,0 0,2

     ARR   2,0   0,0   0,0

     RAA   0,0 1,1   0,2

     RAR   0,0 1,1   0,0

     RRA   0,0 0,0 0,2

     RRR   0,0 0,0   0,0

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    10/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    no sea óptimo para *, * jugara rec%azar si *+ juega (1−1 ) . Este nodo no está en el sendero

    de equili#rio por lo que sólo constitue una 8amenaza9 de *. &in em#argo, es una amenaza no

    cre#le porque, de darse el caso, * actuara de manera óptima aceptando la propuesta (1−1 )

    de *+. As *+ preferira jugar (1−1 )   o#tener en lugar de jugar (0−2 )   o#tener   0 .

    -or su puesto, *+ puede realizar esta misma deducción por lo tanto, no esperaramos que el

    equili#rio de $as% ( ARR , (0−2 ) )  se d" en realidad.

    Analicemos otro de estos E$, por ejemplo ( ARA , (0−2 ) )

    J 2

    =Es este equili#rio secuencialmente racional>

    -ara encontrar los equili#rios de $as% que son secuencialmente racionales podemos aplicar el

     procedimiento conocido como inducción hacia atr!s. -osteriormente vamos a explicar 

    detalladamente este procedimiento. -or a%ora, sólo lo ilustramos aplicándolo al ejemplo

    anterior. Empezamos determinando las acciones óptimas de * en los !ltimos nodos de decisión

     A   luego de (2−0 ) ,  A   luego de (1−1 )   tanto  A   como  R   luego de

    (0−2 ) . En seguida vamos %acia atrás determinamos qu" es lo óptimo para *+ en el primer 

    nodo de decisión dado que anticipa correctamente lo que óptimamente va a %acer * en cada

    uno de los nodos finales de decisión. ;omo luego de (0−2 )   tanto  A   como  R   son

    óptimos para *, de#emos tratar cada uno de estos casos por separado. En caso de que * juegue

     A   luego de (0−2 ) , lo óptimo para *+ es jugar (0−2 ) . En caso de que * juegue

     R luego de

    (0−2 ), lo óptimo para *+ es jugar

    (1−1 ). As, vemos que en el ejemplo

     previo sólo %a dos E$ secuencialmente racionales

    Página 1 de 1

    (1−1 ) (0−2 )(2−0 )

    J 1

      J 1J 1

     R R R A A A

    0 12   000

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    11/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

     EN = ( AAA , (0−2 ) ) , ( AAR , (1−1 ) )}

    En #ase a estos resultados podemos identificar tres posi#les casos de acuerdo a las acciones

    óptimas para el jugador

    . &iempre Acciones de color celeste

    +. ;aso Acción de color verde (En caso de que * juegue  A  luego de (0−2 ) , lo

    óptimo para *+ es jugar (0−2 ) )

    2. ;aso + Acción de color naranja (En caso de que * juegue  R  luego de (0−2 ) , lo

    óptimo para *+ es jugar (1−1 ) )

    /e igual manera podemos identificar los casos para el jugador + de acuerdo a sus acciones

    óptimas

    . ;aso Acción de color verde (En caso de que * juegue  A  luego de (0−2 ) , lo

    óptimo para *+ es jugar (0−2 ) )

    +. ;aso + Acción de color naranja (En caso de que * juegue  R  luego de (0−2 ) , lo

    óptimo para *+ es jugar (1−1 ) )

    El juego en su forma extensiva quedara de la forma

    J 2

    -or lo tanto los equili#rios de $as% secuencialmente racionales son los a %allados.

    1emos visto cómo se puede aplicar el principio de racionalidad secuencial en un ejemplo de un

     juego finito de información perfecta. El concepto de solución que incorpora este principio de

    Página 11 de 1

    (1−1 ) (0−2 )(2−0 )

    J 1

      J 1J 1

     R R R A A A

    0 12   001

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    12/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    manera más general es conocido como equilibrio de Nash perfecto en "ubjuegos Antes de

     presentar este concepto, necesitamos primero definir qu" es un su#juego.

    Su3%uego

    /ado un juego en forma extendida, un su#juego es cualquier su#conjunto de nodos queconstitue un juego por derec%o propio. Ello significa que de#e satisfacer dos condiciones

    . ;omienza con un conjunto de información que contiene un !nico nodo contiene todos

    los sucesores (inmediatos su#siguientes) de este nodo. El su#juego no contiene otros

    nodos además de "stos.

    +. &i el su#juego contiene el nodo  x , entonces contiene todos los nodos que están en el

    mismo conjunto de información que  x . (Es decir, no %a conjuntos de información

    8rotos9)

    Página 1& de 1

    Panel A! J"ego es#á#ico Panel $! J"ego diná%ico

    J 2J 2

    J 1   J 1

    J 2

    C  N 

     N    C    N    C 

    (22) (03) (30) (11)(11)(30)(03)(22)

    C  N C  N 

     N C 

    J 2

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    13/15

    Universidad Nacional del Callao - FCE TEORIA DE JUEGOS

    -odemos identificar que el -anel A (juego estático) cuenta con un !nico su#juego que es el

     juego mismo. El panel 0 (juego dinámico) cuenta con tres su#juegos el juego mismo cada

    su#juego que comienza en un nodo de decisión del jugador +.

    -uesto que un su#juego es un juego en s mismo podemos aplicarle los conceptos de solución

    usuales. -recisamente eso es lo que %ace el equili#rio de $as% -erfecto en &u#juegos.

    E2ui#i3rio de N(6 Perfec$o en Su3%uego(

    /ado un juego en su forma extensiva, un perfil de estrategias  ¿

     es un equili#rio de $as%

    -erfecto en &u#juegos (E$-&) si induce un equili#rio de $as% (E$) en todos los su#juegos del

     juego (incluendo el juego original).

     $otese que si  ¿

     es un E$-&, entonces tam#i"n es un E$ (dado que el juego original

    tam#i"n es un su#juego). -ero no todo E$ es un E$-&. -or lo tanto, el conjunto de los E$-& es

    un su#conjunto del conjunto de los E$ { EN(S }⊆ { EN } .  As, el E$-& nos #rinda una

     predicción más precisa so#re los resultados que ca#en esperar en un juego dinámico.

    El procedimiento de inducción %acia atrás que ilustramos previamente es clave porque #rinda un

    m"todo para encontrar los E$-&. /ado que en cada su#juego los jugadores eligen sus acciones

    óptimas anticipando correctamente las acciones óptimas de los demás, a ning!n jugador le

    conviene desviarse de su estrategia , por lo tanto, estamos encontrando un E$ en cada

    su#juego.

    /etallamos los pasos del m"todo de inducción %acia atrás para juegos finitos de información

     perfecta

    . Encontrar las acciones óptimas en los !ltimos nodos de decisión.

    +. Encontrar las acciones óptimas en los pen!ltimos nodos de decisión dado que los

     jugadores anticipan correctamente las acciones óptimas que van a ser tomadas en los

    !ltimos nodos de decisión.

    2. As sucesivamente %asta llegar al nodo inicial.

    &i nunca se encuentra más de una acción óptima en cada nodo, entonces el procedimiento

     #rinda un !nico E$-&. En caso contrario, todos los E$-& se encuentran repitiendo el

     procedimiento para cada acción óptima identificada.

    -ara esta categora de juegos, contamos con el siguiente teorema

    Teorem de 7erme#o

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    14/15

  • 8/16/2019 Teoria de Juegos Juegos Dinamicos

    15/15