2020-09-08课程笔记10 分钟读完 (大约 1555 个字) 0次访问

CMSC 5728 Decision Analysis & Game Theory - Lecture 01

Lecture 01 Introduction

Two-person Zero-sum Games零和博弈

所有博弈方的利益之和为零或一个常数，即一方有所得，其他方必有所失。也可以说：自己的幸福是建立在他人的痛苦之上的，二者的大小完全相等，因而双方都想尽一切办法以实现“损人利己”。零和博弈的例子有赌博、期货和选举等。——维基百科

重点是如果P1赢，就意味着P2输，双方是一种对立关系。比如你和朋友吃一张披萨，你多吃一口，他就少吃一口。

我们拿围棋举例说明。为了简单起见，我们就假定X、Y两人下围棋，该X走下一步棋了，他有3种可选的下法，分别是x1、x2、x3，Y也有三种，分别是y1、y2和y3。

在围棋中，一方的所得必然是另一方所失，因此这是一个零和游戏，比如说X走了x1这步棋后，在盘面上的胜率所得是7点，那么Y的胜率损失也是7点。在这样的情形下，我们只要考虑X的胜率变化即可，因为X赢了多少就是Y输的。

我们知道当X采用了x1、x2、 x3之中的一种策略后，Y也有相应的三种策略y1、y2和y3,因此它们的组合就有9种结果，就构成了一个3x3的矩阵。在每一个组合中， X有一个胜率的变化，这些变化就构成了矩阵的值：(我们假设这9个结果对应了X能获得的9个分数。)

在这个矩阵中，你可以看到，当X采用x1策略时，他最好的情况是碰上Y采用y1，这时X的胜率就增加7点，但是如果Y是一个高手，他采用了y3策略应对，你可以看到X的胜率就小了10点。因此X如果考虑到Y可能的应对策略，他就应该知道，x1其实不能算是一步好棋。

相比之下，采用x2策略就稳健得多，因为无论Y如何应对，他至少可以让自己的胜率增加一点。至于x3，因为有胜率减少一点的可能性，也没有x2好。因此，在制定策略时，如果我们不考虑对方的应对，显然x1是最好的，x2是最差的，但是考虑到对方应对的情况，可能最好和最差的策略就反过来了。

具体到博弈这件事，特别是计算机博弈，最通用的策略是，“在对方给我们造成最糟糕的局面里，选择相对最好的”。也就是说，我们要把x1、x2和x3所有策略算出来后，在可能得到的最糟糕结果中进行比较，具体到这个问题，就是-10、 1和-1这三个结果，然后排序找到最大的，那就是1。在计算机算法中，这种策略被称为最小值中的最大值策略（min-max algorithm）。

接下来我们站在Y的角度来看看他的选择。我们假设他先行棋后，胜率变化的矩阵还是上面那个，当然负值表示他的胜率上升。如果他选择y3，虽然可能让胜率增加10点（对应-10那个值），但是，也冒着损失4点的风险。相比之下，y2的选择就比较好，因为最不济也不过让胜率损失1个点。类似的，可以分析出来y1也不如y2。

回到课件。对P1来说，数值越大得分越高，B的每一列都比C小，则称C ”dominates“ B；对P2来说，数值越大失分越多，B的每一列都比C小，则称B ”dominates“ C。

Saddle Points鞍点

然而这种分析方法并不是每次都有用，因为会出现如下的情况。

此时P2没有一列能够”dominates“另一列，因此需要另一种解决方法，鞍点。

Salle Point鞍点：非局部极值点的驻点。——维基百科

此时，对P1来说，鞍点是所有最小值（-1、2、-16）中的最大值；对P2来说，是所有最大值（12、2、3）中的最小值。

在两方的博弈中，大家其实就是在寻找马鞍点这样一个平衡点，因为大家都知道，如果自己走出了这个平衡点，试图扩大自己的利益，对方就会有反制手段，让自己的利益受损。

当然并非所有的问题里这样的平衡点都在。比如前面那个对弈的胜率矩阵，如果里面的数字都是些很大的正值，也就是说X的实力可以秒杀Y，采用什么策略可能Y都无法应对，这种情况其实不用担心。但是当参与方的水平势均力敌，不相上下时，很多时候寻找最小值中的最大值才是最好的出路，或者说其实双方必然会被锁死在那个平衡点上。

这里需要补充一点的是，我们其实作了一个隐含的假定，就是双方的策略都是透明公开的，即双方都知道对方所有可能的选择，也就是说一切是阳谋，不是阴谋。双方所不知道的，无非是对方最终采取的策略。

其次，双方都足够理性（rantional），能够判断出该采用什么策略。

#决策论与博弈论

CMSC 5728 Decision Analysis & Game Theory - Lecture 01

Two-person Zero-sum Games零和博弈

Saddle Points鞍点

喜欢这篇文章？打赏一下作者吧

评论

目录

分类

最新文章

归档

标签