亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

博弈論輕松學

看起来真聪明 😂。这张图是由AI工具DALL·E 3生成的——作者保留来源和版权。

你们中的很多人,打赌你们在生命中的某个时候听说过博弈论。如果你想显得很懂行并给你的女朋友留下深刻印象,只需要提到“零和博弈”,你今晚把她带回你家的机会增加了50%。或者你可以用它来做决定,比如投资(这可能毁了你)或决定是否结婚(这也很可能毁了你)。正如你所看到的,博弈论确实是一个全方位有用的理论。

不仅要显得聪明,还要真正懂点东西——让我们来看看博弈论到底是什么。

最早与游戏理论相关的记录出现在18世纪数学家查尔斯·沃尔德格拉夫的一篇文章中。他提出了一种名为“勒·埃尔”的双人纸牌游戏的策略解。从游戏的名字来看,似乎他也想向某位女士展示自己的魅力。游戏的规则已遗失在历史中,但基础已奠定。

博弈论的现代数学形式化始于约翰·冯·诺伊曼于1928年发表的论文《论博弈》。这篇论文详尽地探讨了两人零和博弈的理论。该领域在1944年出版的《博弈论与经济行为》一书中得到了显著的扩展和系统化,该书由约翰·冯·诺伊曼和奥斯卡·摩根斯特恩合著(并不是那个无足轻重的摩根斯特恩,而是那位真正有贡献的摩根斯特恩)。这本书将博弈论应用于经济学和社会科学,彻底地改变了这些领域。

大多数术语直接来源于游戏。参与者被称为玩家(players),每一个动作都称为一步棋。

现实世界十分复杂,所以游戏理论处理的是这些模型。在你开始想象某种简化模型之前——我的意思是简化了的现实世界过程模型。

理智

DALL-E 3生成的图片——作者拥有出处和版权信息

在我们深入探讨之前,我必须指出玩家的一个重要特质——理性。这是一种熟练玩家所具备的特质,他们了解规则并能做出合乎逻辑的决定,以最大化他们的收益。博弈论中有这样一个有趣的概念叫作普遍理性认知,假设你知道其他玩家是理性的,其他玩家也知道你知道他们也是理性的,以此类推,无穷无尽。任何一个有配偶的人都知道这其实是个巨大的夸张。这就是为什么它只是一个理论。

凯恩斯博弈

DALL·E 3生成的图片,作者拥有出处权和版权

一个更实际的例子是约翰·梅纳德·凯恩斯提出的凯恩斯美丽大赛,凯恩斯是一位非常著名的经济学家,他因创立国际货币基金组织并且拥有世界银行,以及拥有一位俄罗斯妻子而出名。他将股市比喻成选美大赛,但不是那种简单挑选最漂亮的脸孔的比赛。这对我们复杂且精明的金融市场来说太简单了。

在这场经济选美大赛中,重点不是找到最有内在价值的那只股票。而是猜测大家认为哪只股票最美。这是一场需要第二层思维的游戏:你试图超越那些试图超越大众的人群。就像在镜子里下棋一样——每一步都反映出多重策略。

所以,投资者们互相用机智的笑容打量着,心想:“我知道你知道我知道……”这让市场变成了一面镜子,想要听到风中的一丝低语一样困难。这不仅仅是一种投资,也是一种心理游戏。

凯恩斯的观点突显了市场的讽刺之处:投资的成功往往不是衡量基础价值,而是预测群体心态,就像试图根据蝴蝶拍动翅膀来预测天气一样。投资者过于专注于揣测他人的想法,以至于忘记了他们最初预测的目标是什么。

可以说,凯恩斯式的选美博弈提醒了世界的复杂性。这不仅仅是一场数字与逻辑的舞蹈,而是一场心理游戏,主角——理性的投资者——必须在一系列的反射、感知与错觉之间穿梭。这确实是一场严肃的游戏,但人们不禁会为游戏的规则及其常常循环的逻辑感到好笑。

理查德·泰勒提出了一种更简单的思维实验版本,叫做“猜三分之二的平均数”游戏。游戏中,参与者需要选择一个0到100之间的数字。目标是猜出所有参与者数字平均值的三分之二。如果每个人都是理智的,并且知道其他人也一样理智,那么逻辑推理是这样的:

最高平均分可以是 100 分,2/3 就是 66.67

但是,如果每个人也都这样计算,新的平均值将会是 66.67,而 2/3 的这个值大约为 44.44

这个迭代过程继续下去,逐渐下降到零,在完全理性的玩家的游戏中,这是唯一的均衡点。

金融时报实际上进行了这个实验,平均结果是19。这是多理性呢?实际上,玩家具有“有限理性”,。我们也不要冒被烧死的风险来讨论受限的投机,但让我指出泡沫的存在——这也是理性非理性的顶峰。

同时行动的游戏

下一个重要的基本概念是同时动作型游戏。在这些游戏中,玩家在同一时间做出他们的选择,且无法得知其他玩家的选择,这在现实世界中更为普遍。这与序贯型游戏不同,在序贯型游戏中,玩家轮流做出选择,并且对之前的行动有一些了解。

一个典型的同一时间行动的游戏例子是“剪刀石头布”,每个玩家必须同时选择一个选项。一个经典的商业例子是双头垄断市场中的定价决策过程,其中两家公司在定价上互相竞争。让我们考虑两家公司A和B,它们生产类似的产品。每个公司都必须在不考虑对方定价决策的情况下确定自己的价格。

如下所示:

  • 决定:每家公司必须决定给自己的产品定一个高价格还是低价格。
  • 结果是:每家公司的利润不仅取决于自身的定价,还取决于竞争对手的定价。

可能的情况有以下几种:

  1. 两者都选择较高的价格:如果A和B都设定较高的价格,他们可以保持较高的利润率,但总需求可能减少。
  2. 两者都定低价:如果两者都设定低价格,他们的产品需求可能会增加,但利润率会降低。
  3. 一高一低:如果A设定高价格而B设定低价格,顾客可能会更多选择B的低价产品,从而增加B的市场份额但减少A的利润。反之亦然。

在这个游戏中,每家公司都得考虑对手可能会用什么价格策略。如果觉得对手会定高价,他们可能会被诱惑定低价来抢更多市场份额。然而,如果觉得对手会定低价,他们也可能会定低价来保持竞争力,即使这会导致利润减少。

这种情形可以用博弈论来分析,以预测可能的结果,并找到纳什均衡点,在这种均衡状态下,任何一家公司都没有动机偏离其选定的战略,只要另一家公司不改变策略。

纳什均衡点

这图是由AI工具'DALL·E 3'生成的,作者拥有它的出处和版权。

纳什均衡(Nash Equilibrium):这个概念叫做纳什均衡,是以数学家约翰·纳什的名字命名的。由于参与者同时做出决策,他们通常希望在假设其他玩家策略不变的情况下,通过自己的策略获得最佳结果。在纳什均衡中,每个玩家都无法通过单方面改变策略来获益,只要其他玩家策略不变。

再来看看一个例子:Alice 和 Bob 每周末都会一起看电影。Alice 喜欢喜剧片,而 Bob 则特别喜欢动作片。不过,他们都挺乐意一起看纪录片:

他们挑选电影的过程如下:

  1. 电影选择:每到周六晚上,他们必须决定要看哪个类型的电影。他们各自写下选择,但不透露给对方。选择的类型有喜剧、动作或纪录片。
  2. 味道不同:如果爱丽丝选喜剧,鲍勃选动作,他们意见不合,最后谁都不让步,结果就是都没看电影,两人都失望了。如果两人选择一致,他们就一起看。
  3. 如果他们都是理智的,只能选择纪录片,因为他们都清楚对方的选择会是纪录片。虽然这不是对他们每个人来说最理想的选择,但这确实解释了我为什么看了那么多动画片。
囚徒困境

囚犯困境是游戏理论中另一个经典例子,展示了两个理性的人为何可能不会合作,即使合作对他们看似更有利。这个困境通过一个故事来说明,故事中两名被捕的罪犯,分别叫爱丽丝和鲍勃,分别在不同的房间里接受审讯。

情况如下:

  1. 罪行:爱丽丝和鲍勃是犯罪搭档,因一起犯罪行为而被捕。警方没有足够的证据来支持对他们的主要指控,但有足够的证据将他们定罪于较轻的罪名。
  2. 审讯:警方将爱丽丝和鲍勃分开,向每个人提供同样的交易:如果一个人出卖另一个人(背叛),而另一个人保持沉默(合作),则背叛者将被释放,而合作者将面临严重的判决(比如说 10 年监禁)。如果两人都保持沉默,他们将因较轻的罪名被定罪,各自面临中等的判决(比如说 2 年)。如果两人都背叛对方,他们将各自面临较重的刑期(比如说 5 年)。
  3. 两难困境:困境在于每个囚犯有两个选择,但他们无法自信地做出选择,因为他们不知道对方的决定。对双方而言,最佳的结果是合作并保持沉默,总共只需坐 4 年牢。然而,担心对方可能背叛而让自己面临严重的判决,通常导致双方都选择背叛,结果总共要坐 10 年牢。在博弈论中,他们说“背叛”策略 占优 于其他策略。

作者的得分表

这种情形展示了当人们无法相互信任合作时,达成最佳结果的困难。囚徒困境不仅仅应用于刑事调查,还被广泛应用于经济学、政治学和生物学等领域,解释竞争环境中各参与者的行为。其中每个参与者的结局取决于其他人的选择。

由AI工具DALL·E 3生成的图片,作者保有版权。

这个词在现实世界中有很多实际例子。例如核武器竞赛或人工智能竞赛。对于所有参与者来说,达成协议并停止竞赛可能对他们都有好处,但由于各方互相不信任——因此,继续增加军备似乎更合理。

有时候会出现多个平衡点。这被称为多重均衡现象,意味着根据初始条件或参与者的行为,系统可以达到不同的稳定状态。这些点可能代表了对玩家来说可以有非常不同的结果。

通常,达到哪种均衡取决于相关参与者的预期和协作。例如,如果所有经济主体都预期市场会繁荣,他们的投资可以形成繁荣的市场状况。相反,如果他们预期市场会失败,他们不进行投资可能导致较差的市场状况。

示例 — 银行挤兑:典型的银行挤兑例子。存在两种平衡情况:一种是所有人都信任银行并把钱存进去(没有挤兑),另一种是所有人都怀疑银行并试图取回他们的钱,从而导致自我实现的预期,最终导致银行倒闭(银行挤兑)。没有挤兑的状态在人们信任银行的情况下是稳定的——但如果人们看到银行前面排起了长队取款,他们也会去取款。这种协调方式通常表现为观察他人的行为或遵循社会规范。

对于股票或货币市场也是如此。对冲基金发起的一种投机攻击,即他们先在某公司持股或做空其股票,随后发布某种调查报告——试图改变纳什均衡点。有些基金专门这么做,其中最著名的案例是1992年乔治·索罗斯做空了英镑。

混合策略游戏

注:混合策略游戏是指在博弈论或策略讨论中,参与者采用多种策略组合以应对不确定性的游戏。

到目前为止,我们讨论的是纯策略下的均衡状态,在这种状态下,玩家做出决策时充满把握,因为只有一个理性的选择。但这并不总是可能的。让我们拿剪刀石头布游戏作为例子。这是一个零和博弈,这意味着如果一名参与者赢了,另一名参与者就会输。因此,玩家的行为是不可预测的——因为如果一名玩家的行为可以被预测,另一名玩家就会利用这一点。这些情况没有均衡,是随机的。在现实生活中,这种情况类似于逃税。由于税务机关无法对每个人进行审计,一些纳税人可能会选择逃税,希望不会被审计。他们可能是基于自己的考虑做出了这个决定,但从外部来看,这个决定显得随机。对于税务机关来说,唯一理性的选择是随机审计,因为他们不知道谁在尝试逃税。

多次重复的对局 vs 一次性玩的对局

到目前为止,我们只讨论了一次性游戏,在这种一次性游戏中,参与者仅互动一次。这种一次性游戏中的决定仅基于当前的情况,而不考虑未来的互动或过往。例如,经典的囚徒困境中,两名囚犯在不知道是否还会有未来互动的情况下做出决定。

也有重复游戏:在重复游戏中,同一个游戏(或非常相似的游戏)会被多次进行,通常重复次数是不确定的。这就有点像婚姻和酒吧里的一夜情的区别。在这种情况下,玩家在做决定时会参考以前的互动,并可以根据其他玩家的行为来调整策略。这就使得信任、对不良行为的惩罚以及合作等概念得以发展。

在一次性互动中,玩家往往会采取更具有攻击性和自私的策略,因为没有未来互动的惩罚。相比之下,在重复互动中,玩家可能会寻求合作和长期的策略,因为每一轮的行动会影响他们在后续轮次中的行为。

关于重复囚徒困境的一个例子:如果囚徒困境被重复多次,玩家可能会选择合作策略来最大化长期的整体收益,即使这种策略短期内看起来不太有利。Reinhard Zelten 实际上进行了这个实验,让人们为了金钱玩囚徒困境游戏,但他们不知道游戏何时结束。合作策略最为普遍。

进化博弈论

由AI工具DALL-E 3创建的图片,作者拥有其来源和版权。

正如你记得的最初,经典博弈论将所有参与者视为理性的。但有些人认为实际情况并非如此。约翰·梅纳德·史密斯和乔治·普莱斯,由于与许多英国科学家的交流,持有不同的看法。他们认为,许多人和动物的行为是社会和遗传编程的结果。他们提出的这个“鹰 vs 鸽”博弈仍然是进化生物学的基本原则。这一博弈指出了进化稳定性的重要性。

在这场游戏中,鹰会为了争夺可用资源而斗争,而鸽子则会表现出愿意斗争的意愿,但实际上会退缩。比如说,假设资源对生存来说的潜在价值是100:

如果鸽子遇到鹰,它总会逃跑,结果总是这样:

鹤:100,鸽:0

如果两只鸽子相遇——其中一只可能有50%的概率逃跑。平均来说,它们各自得到50%的奖励,结果就是:

鸽子1: 50, 鸽子2: 50

鹰遇鹰,必有一战。胜者生,败者死。然而,双方皆有可能受伤,代价高昂。胜率各半,故平均而言,结果如下。

鹰1,鹰2:(100 - 罚分)/2

如果冲突的成本比回报低,那么对于一个理性的玩家而言,唯一的理性战略就是鹰战略,这样就会出现很多战斗。我们来看一个例子,假设惩罚是40,回报是100:

作者的成绩表

在这种情况下,鹰总是能捞到好处,甚至常常赢鸽子。在这样的情况下,攻击性行为往往能获得更好的结果,增加生存机会。这可能在物种进化过程中改变它们的身体特征。比如,动物往往会变得更大,因为体型大的动物通常更强大,更能在冲突中存活。

但如果冲突的成本高于回报,情况就会改变。比如说,代价是120。

作者的分数表

哎哟……现在这一切都取决于鹰派的数量。如果鹰派太多了——就会有很多致命的冲突,所以做鹰派就不再有趣了,选择做鸽派会是更好的策略。我们把遇到鹰派的概率记为 p,那么遇到鸽派的概率就是 (1- p)。鸽子的进化适应度为:

    dove_fitness = (p * 0) + # 遇到鹰时的适应值  
    (1 - p)*(100/2)           # 遇到鸽时的适应值
dove_fittness = 50—50p

而对于霍克来说:

鹰适应度 = p * ((120-100)/2) + # 鹰对抗的奖励  
对抗鸽子的奖励 = (1 - p) * 100                  # 针对鸽子的奖励
    或者  
    hawk_fitness = 100-110p

所以只有鹰的适应度高于鸽的适应度才有意义,即:hawk_fittness > dove_fittness。

100–110p > 50–50p

注:此处表示某种数值或概率范围的比较。

也就是说,或,p < 5/6

因此,如果鹰的数量少于总数量的5/6,那么做鹰更有利。在这种情况下,最优的鹰的数量比例接近5/6,而鸽子的比例为1/6,从而形成进化平衡状态。动物并不像通常意义上那样是理性的,但这相当于它们如果是理性的话会达到的纳什均衡。

没有什么是永恒的,正如枪与玫瑰乐队的歌词所言,环境变化会不断调整着冲突的成本,而鹰派(Hawks)和鸽派(Doves)的比例也会因此随之改变。

按顺序行动的游戏

这类游戏是指玩家轮流进行操作,而不是同时进行。这种游戏有一个明确的行动顺序,让玩家在采取行动前可以观察和回应其他人的行动。许多回合制游戏都是完美信息游戏,意味着每个玩家在做出决策时都完全了解之前的所有行动。

一个经典的顺序行动游戏的例子是象棋。每一步棋都基于观察对手的行动,然后再决定自己的下一步。策略在于根据当前棋局预测对手的下一步。

顺序游戏通常使用博弈树来表示,这些树直观地展示了移动的顺序和每个选择可能的结果。树中的每个节点代表玩家的决策点,而分支则代表他们可以做出的各种选择。

在顺序游戏中,玩家必须通过考虑对手对其每一步可能的反应来制定策略。这通常涉及提前思考几步远的,预测对手的反应并据此调整策略。

除了棋盘游戏之外,按顺序进行的游戏模拟了现实世界的场景,例如商务谈判、竞标,甚至是某些政治策略,其中时机和行动的顺序对结果至关重要。

参与者通常会使用一种倒推法来分析序贯游戏,这种方法从结果倒推,找到较早阶段的最佳行动方案。这种方法特别适用于步骤明确的有限游戏。

回到之前提到的鲍勃和爱丽丝的例子,

  • Alice 首先可以在“看喜剧片”(她最想看的)、“看动作片”(她的第二个选择)或“什么都不做”(最不想做的)中做出选择。
  • 如果 Alice 选择看某部电影,Bob 决定是否加入。

奖励如下所示:

  • 如果他们一起看片,他们将获得各自的首选奖励(比如,Alice看喜剧片得100分,动作片得50分;Bob看动作片得100分,喜剧片得50分)。
  • 如果一个人独自看片,他/她将获得相应选择的一半奖励。
  • 如果两人都选择“什么都不做”,两人的奖励都为0分。

作者的图片

这个游戏显然握有先发优势。在这个纳什均衡点中,鲍勃会选择看喜剧。但并非所有游戏都是如此,还有其他因素可能改变均衡。例如,如果鲍勃胆子够大(或疯到)声称不论什么情况都不会看喜剧——那么艾丽斯要是理智的,她会选择看动作片。

有时候战争也像是有步骤的游戏,特别是在政治领域:对手会根据对方的动作作出反应。比如说,到现在为止,核打击似乎只能作为回应另一次核打击的手段(所以没有人愿意先动手)。

不透明信息的游戏

由AI工具DALL·E 3生成的图片——作者拥有版权和出处。梗图(memes)由作者设计

这些是玩家无法平等获取游戏所有信息的游戏,其中某些玩家则掌握更多信息。这种信息不对称影响了所有玩家的策略和决策。

拥有更多信息的玩家可以利用自己的信息优势,而信息较少的玩家则需要更谨慎地根据可能的信息不对等来调整自己的策略。

信息不对称的几种类型:

  • 隐藏行为:也称为“道德风险”情境,其中一方的行为不可被其他方观察到。例如,雇主无法完美地监控员工的工作表现。
  • 隐藏信息:也称为“逆向选择”情境,其中一方拥有其他方不具备的私人信息。例如,二手车销售者比潜在买家更了解车的实际情况。

例子:

  • 保险市场:保险公司经常面临信息不对称,因为它们可能不了解客户的真正健康状况或风险状况。
  • 金融市场:投资者可能掌握不同的信息,比如投资的价值或风险,从而导致例如内幕交易等现象。

信号与甄别:面对不对称信息,参与者可能会进行信号传递(发送可信信号来传递其私人信息)或甄别(采取行动来揭示或推断他人隐藏的信息)。例如,求职者可能通过学位或资格证书来展示其能力,而雇主则可能通过测试或面试来甄别候选人。

不对称信息游戏常常使用精炼的均衡概念,如贝叶斯纳什均衡,其中参与者对未知因素的估计,并基于这些估计来最大化他们的预期效用。

柠檬市场问题

信息不对称会导致 市场失灵以及随之而来的监管措施,正如乔治·阿克洛夫的“柠檬市场理论”的经典例子所示。卖二手车的人知道他们的车是好车(桃子)还是坏车(柠檬),但买家不幸的是,买家无法预知。他们认为每辆车有一半可能是柠檬,一半可能是桃子,出价介于两者之间。卖桃子的人对这些出价感到不满,这些卖家只好把车撤出市场,结果市场充斥着柠檬。结果就是,市场变得没人愿意购买的这样一团糟。

桃子退出,柠檬登台的问题不仅仅局限于二手车市场。就像是买了一个盲盒——你希望得到的是珍宝,但往往得到的只是一件小玩意。为了避免市场充斥着比喻意义上的“柠檬”,我们制定了保修、认证和禁止这种行为的规章制度等解决方案。

特别是在品牌声誉方面,市场营销也能起到类似保证的作用,因为一个在市场营销上投入大量资金的公司,不太可能自愿作假,以免声誉受损。

集体决策

这张图片来自marketoonist.com。作者通过支付墙费获取了图片,并对该图片的真实性负责。

到目前为止,我们讨论的都是单个玩家的游戏。但如果决策是由群体做出的呢?事实证明(不出所料),这是一个相对独立且较为复杂的问题,因为即使每个成员都是理性的,群体的决策也可能变得非理性。原因在于,对于理性的人来说,他们的所有决定都是非固定的。也就是说,如果我更喜欢热狗胜过汉堡,更喜欢汉堡胜过沙拉,那么我应该也更喜欢热狗胜过沙拉。

对于一个群体而言,情况并非如此,因为群体中的个体成员可能有不同的优先事项,这些优先事项可能并不一致。肯尼斯·阿罗因他的理论获得了诺贝尔奖,该理论表明对于一个拥有独立成员的群体,决策可能变得非理性且无法达成一致的共识。无需举例子——任何参与过委员会的人都知道这种情况。

有问题或意见,请在评论区写下。

本文参考的资源链接如下:

  1. https://en.wikipedia.org/wiki/Game_theory (博弈论)
  2. https://en.wikipedia.org/wiki/Prisoner%27s_dilemma (囚徒困境)

平安!

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消