博弈论矩阵

2024-04-28

1. 博弈论矩阵

a>e, b>d, c>g,f>h
a>e, b>d

博弈论矩阵

2. 博弈论有三人博弈吗？能不能画出矩阵

你好！博弈论中有三人博弈或多人博弈。但是矩阵只能表示两人博弈，要用立体的矩阵才可以表示三人博弈。经济数学团队帮你解答，请及时采纳。谢谢！

3. 博弈论扩展式

这个题目是经济博弈论习题指南上的。一模一样。书我可以给你，你自己去看 149页。
现在出的题目都差不多，我已经解决这个问题4次了，奶奶的连数字都没变。无语.....

博弈论扩展式

4. 如何用数学来表达复杂的博弈论关系？

博弈论的数学模型



作者： 竺可桢学院01混合班

王大方 何霈 邹铭

摘要

博弈论现在得到了广泛的应用，涉及到人的决策问题都可以用博弈论的模型加以解释。本文首先用数学的方法表述实际生活中的博弈行为，并导出一般情况下的博弈的结果，进而讨论一些不同的外部约束条件对博弈过程的影响。我们用经济学中的垄断竞争现象作为博弈问题的一个实例，讨论生产者在不同状态下的决策，进而分析双方共谋的动机和可能性。

（一）基本博弈模型的建立

一, 博弈行为的表述

博弈的标准式包括：

1． 1． 博弈的参与者。

2． 2． 每一个参与者可供选择的战略集。

3． 3． 针对所有参与者可能选择的战略组合，每一个参与者获得的利益在n人博弈中， 
用Si为参与者i的可以选择战略空间，其中任意一个特定的纯战略为si，其中任意特定的纯战略为si，si∈Si，

n元函数ui（s1，s2，……sn）, 当n个博弈者的决策为s1，s2，……sn时,表示第I各参与者的收益函数。

二, 博弈的解

当博弈进入一个稳定状态时，参与者选择的战略必然是针对其他参与者既定战略的 最优反应，在此状态下没有人愿意单独背离当前的局势。这个局势叫纳什均衡： 
在n个参与者标准式博弈，G={ S1，S2，……Sn；u1，u2，……un}中，若战略组合{s1*，s2*，……sn*}满足对每一个参与者i，si*是针对{ 
s1*，s2*，……si-1*，si+1*……sn*}的最优反应战略，，目标战略组合{s1*，s2*，……sn*}为该博弈的纳什均衡。即：ui { 
s1*，s2*，……si-1*，si*，si+1*……sn*}≥ui { 
s1*，s2*，……si-1*，si，si+1*……sn*}，对一切si∈Si均成立。

纳什于1950年证明在任何有限个参与者，且每个参与者可选择的纯战略为有限个的博弈中，均存在纳什均衡。（包括混合战略）混合战略指认某种概率分布来取一个战略空间中的战略，在本文中不加讨论。

在一般情况中，纳什证明保证了我们的均衡分析有意义。

三, 博弈实例：单阶段博弈古诺竞争

在古诺竞争中，少数厂商通过改变产量来控制价格，以使他们的收益最大化。

我们作如下假设：

1． 1． 厂商生产的商品是相同的，消费者没有对某家厂商的偏好。

2． 2． 市场上价格与供给量的函数为p=a-bQ，且供给增加不会导致过剩，而仅仅使价格降

低，即厂商可以将生产的产品全部售出。

3． 3． 厂商都是理性的，即面对既定的情况都做出决策使自己利益最大化。

4． 4． 信息是完全的，每个厂商都知道其他厂商时理性的，且每个厂商知道别人是理性的

这一事实为所有参与者的共识。



（二）博弈模型的求解与讨论

为了简单起见，我们从一家企业的情况做起：

只有一家企业时，目标收益函数u=Q（a-bQ）

针对max u 的解为Q0=a/2b，u0=a2/4b

当有两家企业时，设产量分别为Q1，Q2，则

p=a-b（Q1+Q2）

u1（Q1，Q2）=p*Q1=Q[a-b（Q1+Q2）]

u2（Q1，Q2）=p*Q2=Q[a-b（Q1+Q2）]

纳什均衡点Q1*，Q2*为方程组

?u1/ ?Q1 =0 （1）

?u?Q

2/2=0 （2） 的解。

整理，得到

2bQ1+bQ2=a （3）

bQ1+2bQ2=a （4）

解得 Q1*=Q2*=a/3b，对应的u1=u2=a2/9b

纳什均衡点是一个极值点，一旦达到该点时双方都没有率先改变的动机。

下面我们讨论纳什均衡点的孤立性，即在对方初始决策不在纳什均衡时，双方能否通过理性的利益最大化策略使博弈形势变化至纳什均衡点。

(1)式表示厂商1的最优函数，在给定对方产量Q时它根据（1）来使自己收益最大， 由

(3)式, 厂商最优函数为Q1=（a-bQ2）/2b同样（2）时表示厂商（2）的最优函数，由（4）式，厂商2的最优函数为Q2=（a-bQ1）/2b

这是两条直线，如图，交点E为纳什均衡点。



AB为厂商1的最优函数，CD为厂商2的最优函数，

当双方的初始选择点为A，即Q1=0，Q2=a/b，A在厂商1最优函数上，故厂商1不会改变，但厂商2针对Q1=0的最有点为C，于是双方的决策点转移到C，在C点厂商1会调整自己的产量时双方决策点到F，然厂商2又会调整策略到CD上，以此类推，最后将到达E点，在第一象限的任何初始选择点，按以上分析双方都能经过一系列调整到达E点。

在完全信息的假设下，上面这一系列的调整过程在任何一方决策之前就能被预测到，任何一个厂商都回绝的任何一个异于E点的决策都不是在给定条件下最好的选择，于是双方会不约而同的按E点做出产量决策。但是当

Q1=Q2=1/2 * a/2b （5） 时双方才能获得最大收益。

Q1=Q2=1/2 * a2/4b （6）

这一方面说明纳什均衡点并不是一个最好的决策点，另一方面也说明与独家垄断比起来两家厂商的竞争提高了社会效应，社会总产量从a/2b增加到了2/3 * 
a/b=2a/3b。



当厂商数增加至n家时，模型变为

n p=a-b*∑i=1Qi （7）

ui=p*Qi，i=1，2，……n (8)

i/ i =0 I=1,2……n (9)

由归纳法可证明（9）可化为方程组（以矩阵形式表示） ?u?Q

?2??1

?1??:

?1?1....21:11??....11?2....1??:::?....12?? 
1?Q1??1?????Q2???1??:??:?????:???:??Q????n?= a/b *?1? (1)



由线性代数分析可知，该方程组有唯一非零解

Q1*=Q2*=…Qn*=a/(n+1)b,

ui*=a2/(n+1)2b

社会总产量为na/（n+1）b。

这说明h厂商垄断竞争也必有纳什均衡点，同样方法可证明纳什均衡点不是孤立的，于是理智的各方均会按均衡点做产量决策。

另外n越大，竞争越彻底，社会总产量越高。当n很大时，总产量趋于a/b，此时价格p为0，这时价格p为0，此时这个模型不适用。因为在n较小，（一般小于5）时垄断厂商才有能力通过自己的产量来控制价格。

厂商们的整体最好选择是Q1*=Q2*=……Qn*==a/2nb, 
分别能获得收益，a2/4nb。显然n越大，厂商们理性博弈的结果和他们的最好选择点间的差距越大。



（三）多阶段博弈与共谋

以上可以看出，作为博弈者的厂商很有必要共谋限制产量，但最好的选择点是不稳定的，率先违约的一方都能获取额外利润，因此需要一些条件来约束双方的行为。另外共谋只有在长期过程中才有效益，双方需要不断检查是否已经违约，并决定自己是否要违约，每次这样的过程就是上文的单阶段博弈。

这里的信息条件为每企业在n阶段可以观察的前n-1阶段博弈结果。规则为一旦对方违约，自己就违约，且永不守约，这为双方所共识。

我们新引入一个时间贴现因子v，0<v<1,用来计算以后阶段收益的现值，如已知下一阶段收益为R，则折合到当阶段相当于收益为vR。一开始双方约定共同生产a/4b，每阶段收益为a2/8b，一直守约，双方的收益为

a2（1+v+v2+……）/8b=a2/[8（1-v）b] （10）

对先违约的一方，根据对方a2/4b的产量，由（3）和（4），它的最优产量为3a/8b，该阶段收益为

[a-b（3/8+1/4）a/b]*3/8*a/b=9a2/64b （11）

此后双方都明白共谋破裂，均按a/3b的均衡产量生产。设一方在N阶段违约，则收益2为a（1+v+v2+……vN-1）/8b+9vN/64*a2/b+vN+1*a2/[（1-v）ab] 
（12）

（12）-（10），得 [vN/64-vN+1/72（1-v）]*a2/b

解得 当v<0.529时，先违约方有利，且违约越早， 额外利润最高。此时共谋很难达成。



（四）共谋与监督问题的深入

长期博弈中，人们需要一套更为复杂的机制来维持一种非纳什均衡，以维持利益的最大化。和之前的那个模型不同，在每一次作单阶段博弈时，人们不仅仅通过前一次的结果，而是通过一种长期的经验来对对手做出判断。这里涉及一个信誉问题，他是一个标证不确定因素的概率，这样的模型使得我们可以根据对手不同的策略作出最有利于自己的决断。合作的结果一般出现在离博弈结束较远的阶段，而在最后几个阶段的博弈中博弈者往往只注重当前的利益。

我们提出的维护声誉的策略是“投桃报李”，即下一次作的决策与对手上一次的决策相同，

将上文中的垄断竞争模型修改如下：

1． 1． 理性博弈者B知道博弈者A有P的概率选择投桃报李的策略，有（1-P）的概率选

择其他策略（此时A即成为一个理性的人）。A也知道B时理性的。

2． 2． 在每个阶段N, 双方都同时作决策，都知道前N-1次彼此的决策结果。一旦A未使

用“投桃报李”的原则而理性地做出利益最大化决策，则B就把A当作理性的，这一点也成为AB双方的共识。此后的博弈退化到上文讨论的一般完全信息理性博弈，得到的解为纳什均衡点。



单阶段博弈

对于单阶段博弈，由上文中（5）式的讨论，合作意味着厂商生产a/4b的产量，否则厂商将按利润最大化原则生产。首先违约的厂商将生产3a/8b，获利9a2/64b，而后所有厂商均会按a/3b生产，获利a2/9b。（为了描述方便，这里将常系数a2/b略去，下同）双方面对的策略-收益矩阵为

A \ B 合作 不合作

合作 （1/8，1/8） （5/48，5/36）

不合作 （5/36，5/48） （1/9，1/9）



两阶段博弈

在两阶段博弈中，理性的B在第二阶段将选择不合作。在第一阶段开始时他要推测A的情况，A有P的概率为投桃报李类型的，于是，若B在第一阶段选择合作，则B对第一阶段预期收益为 
P*1/8+(1-P)*5/48 （12）

B对第二阶段的预期收益为P*5/36+(1-P)*1/9 （13）

（因为若A不是投桃报李型的，在第一阶段结束时B就会知道这一事实，双方在第二回合便选择纳什均衡点。）



若B在第一阶段选择不合作，则B生产a/3b，（这里不合作并非生产3a/8b，因为此时B不知道A是否为理性的博弈者，经验算我们发现a/3b的产量决策比3a/8b的决策有更高的期望受益）。 
于是B对第一阶段的期望收益为 5P/36+(1-P)/9 ; （14）

B对第二阶段的期望收益为 1/9 ； （15） （此事无论A是否理性，双方都不会合作）。

当P≥52%时，讨论 式 （12）+（13） ―[（14）+（15）] ≥0

所以在两阶段博弈中，只要估计A会有52%的可能投桃报李，B就会选择合作。

考虑模型中信息假设，A也完全明白B以上的想法，于是A也至少有装扮“投桃报李”的动机。



三阶段博弈

现在扩展成三阶段的情况，只要B在第一阶段合作，后来的两个阶段又退化至两阶段博弈的结果。由上文的分析, B对三个阶段的期望收益为

u1= P/8+5/48(1-P)

u2=P/8+(1-P)/9

u3=5P/36+(1-P)/9

总期望收益u1+ u2+ u3= 47/144 + P/16 (16)

如果B在第一阶段不合作，则无论A是否为投桃报李型的在第二阶段都不会合作。而理性的B在第三阶段肯定会不合作。

如果此时B在第二阶段继续选择不合作，则B从这种背离中获得的各阶段期望收益为 u1=5P/36+(1-P)/9 u2=1/9 u3=1/9

总期望收益 u1+ u2+ u3= 1/3+P/36 (17)

比较（16），（17），得，当P≥20%时，式(17)> 式 (16) , B就没有动机在第一阶段背离。

如果B在第一阶段不合作，在第二阶段合作，第三阶段不合作，则他的各阶段期望收益为

u1= 5P/36+(1-P)/9 u2=5/48 u3=5P/36+(1-P)/9

总期望收益为P/18+47/144 恒小于（16）式，此时B也没有动机在第一阶段背离。 
综上，只要A有20%的可能为投桃报李型的，B在前两阶段就没有背离合作的动机。

对于A，一旦他在第一阶段就背离合作，那么自第二阶段起A为理性的就成为博弈双方的共识，此时他的期望收益为5/36+1/9+1/9=13/36

而A如果始终合作，其均衡收益为1/8+1/8+1/9=13/36

所以在三阶段时A是否要背离合作无所谓，不过这只是由于本问题数据特殊性的巧合。

多阶段的扩展

从上面的三个阶段扩展就可以看出，随着阶段数的增多，每个博弈者更多的会考虑长久的收益情况，而非眼前。这意味着之需要一个很小的信誉概率P，就有可能约束对方不发生背叛的行为。

当共有T阶段博弈时,我们可以用归纳法证明理性的双方在从1到T-2阶段选择合作，而在T-1和T阶段按照上文讨论的两回合博弈行动。假设任何t(t<T)博弈中上述假设均成立。 
如果A在t<T-1的任意阶段不合作，则他是理性的便在以后的阶段成为共识，他在t期的收益为5/36，以后均为1/9，总收益为 （t-1）/8 + 5/36 
+ (T-t)/9

而A的均衡收益为从1到T-2阶段每一阶段均为1/8，T-1的收益为5/36，最后一期为1/9。显然提前违约的收益小于均衡收益。



对于B, 由两阶段博弈可知, B没有在前T-2阶段合作，T-1阶段不合作的动机，B只可能再t≤T-3的阶段背离合作。 一旦B在t阶段背离合作, 
则无论投桃报李的还是理性的A都将在t+1阶段不合作, 
于是在前t+1阶段B无法确认A是否为理性，从t+2阶段起双方的博弈等同于一个T-(t+1)阶段的博弈。

由归纳假设，这后一部分博弈中双方会合作到T-2阶段，然后按照上文的两阶段博弈进行。B的总收益为

u= 1/8 * (t-1) + 5/36 + 5/48+[T-2-(t+2)+1]*1/8 + [P/8 +(1-P)*5/48 +5P/36 + 
(1-P)/9] 这小于B从1到T的均衡收益（T-2）/8+ [P/8+ 5(1-P)/48 + 5P/48 + (1-P)/9]

所以B也没有只背离一次的动机。

更为一般的情况是在前（T-3）次博弈中B有多次的背离与合作，则按以上方法多次使用归纳法，可以发现获得的期望收益更少。其根本原因是率先背约者无法判断对方的真正类型，所以无法保证自己的利益能够最大化，而一旦约定破裂后修复的成本很高，使得背信弃义的额外收益比双方合作来的少。 
（ 5/36+5/48）<2*1/8 ) 这样的模型就使得共谋更有约束力。



小结与进一步的研究

本文主要为静态博弈问题建立了数学模型，并用他分析了一个实例：垄断市场上的古诺竞争和共谋。在静态博弈中，数学上的极大值就是博弈的均衡解。理性决策迫使人们的行为向利益极大值点移动，而信息问题是理性决策最重要的前提条件，可以说不同的信息条件可以推导出不同的理性决策。本文讨论的是最完美的信息假设：完全信息。它不仅指双方彼此了解对方的情况，而且彼此知道对方了解自己情况这一事实，以此类推，等等，最后形成了一个无穷的递归链。最后讨论的投桃报李模型不是完全信息的，但是它也有一套为双方所共知的评判标准来约束双方的决策。总之，本文讨论的模型是双方都知道规则的情况下进行的博弈，这是一个对实际博弈相当理想化的简化。在这样的简化下，如何妥善的处理无穷信息递归链，是个有待进一步研究的问题。而就垄断这个经济问题本身而言，本模型最大的理想化就是价格与供给量成一次函数关系，进一步可将这个函数关系拟合得更符合实际，由此还可推导出不同的收益函数和多个纳什均衡点，做出进一步分析。



参考文献

罗伯特.吉本斯: 《博弈论基础, A PRIMER IN GAME THEORY》

约瑟夫. 斯蒂格利茨: 《经济学》
张涛 方城等, 基于累积期望差异评价策略的重复博弈仿真研究 《系统工程.》2002,20(3).-87-91

霍沛军 双寡头的经济捕鱼策略 《数学的实践与认识》2002,32(2).-201-205

薛伟贤, 冯宗宪, 陈爱娟 寡头市场的博弈分析 《系统工程理论与实践》, 2002 Vol.22 No.11

5. 人工智能中符号表示法与连接机制表示法的区别是什么？说明性表示法与过程表示法的区别是什么？

符号表示法是用各种包含具体含义的符号，以各种不同的方式和次序组合起来表示知识的一种方法。连接机制表示法是用网络技术表示知识的一种方法，它把各种物理对象以不同的方式及次序连接起来，并在其间互相传递及加工各种包含具体意义的信息，以此来表示相关的概念和知识。相对于符号表示法而言，连接机制表示法是一种隐式的表示知识方法，它特别适用于表示各种形象性的知识。说明性表示方法是一种静态表示方法，主要特征是把领域内的过程性知识与控制性知识分离开来。而过程性表示方法着重于对知识的利用，它把与问题有关的知识以及如何运用这些知识求解问题的控制策略都表述为一个或多个求解问题的过程，每一个过程一段程序，用于完成对一个具体时间或情况的处理。在问题求解过程中，当需要使用某个过程时就调用相应的程序并执行。

人工智能中符号表示法与连接机制表示法的区别是什么？说明性表示法与过程表示法的区别是什么？

6. 博弈论收益矩阵

博弈论标准型 中两人策略有限博弈，通常采用博弈矩阵表示。

其中，参与人一策略处于左边，参与人二策略处于上边，矩阵中的数字表示参与人1和参与人2的收益，其中同一个方框中，左边代表参与人1的收益，右边代表产于人二的收益。 
举例如下：参与人1和2玩剪刀石头布。规定输得给赢的一元钱，平局不给钱，则矩阵如下。

                           参与人2
                  剪刀      石头         布                
参   剪刀     0,0        -1,1         1,-1
与   石头     1,-1        0,0         -1,1
人    布       -1,1        1,-1         0,0
1

7. 什么是非常数和博弈与常数和博弈

非常数和判定就是两者利益之和不是常数,一般有第三者参与的博弈,
如,两个电信公司的盈利,定价0.2元,挣0.1元,定价0.3元,挣0.2元,利益之和不是常数,有第三者客户参与.
再如,两个超级大国,核武器都不使用,都无害,都使用都有害,利益和不是常数.
这个例子没有第三者参与.
常数和博弈,一般没有第三者参与的博弈,
如,一块蛋糕,你吃1/2,我吃1/2,但是你如果吃了3/4,我就只能吃1/4,咱俩吃的总和为1个.

大多数的博弈都是非常数和的博弈.

什么是非常数和博弈与常数和博弈

8. 博弈论的收益矩阵

那些数字0,1,5等不是算出来的，而是假设的，它们的相对大小说明了双方的偏好，具体数值可以有多种选择（不同书上有不同的版本）。
比如只把5换成2或3等，完全不影响博弈的分析。

博弈论矩阵

1. 博弈论矩阵

2. 博弈论有三人博弈吗？能不能画出矩阵

3. 博弈论扩展式

4. 如何用数学来表达复杂的博弈论关系？

5. 人工智能中 符号表示法与连接机制表示法的区别是什么？说明性表示法与过程表示法的区别是什么？

6. 博弈论收益矩阵

7. 什么是非常数和博弈与常数和博弈

8. 博弈论的收益矩阵

5. 人工智能中符号表示法与连接机制表示法的区别是什么？说明性表示法与过程表示法的区别是什么？