囚犯困境计算器

在经典博弈论场景中分析战略决策和收益矩阵

输入收益值和玩家策略,分析最优决策、纳什均衡以及合作与背叛的后果。

示例

点击任意示例将其加载到计算器中

经典囚犯困境

经典囚犯困境

标准收益矩阵,纳什均衡为双方背叛

诱惑收益 (T): 5

双方合作 (R): 3

惩罚收益 (P): 1

傻瓜收益 (S): 0

玩家1策略: 始终合作

玩家2策略: 始终背叛

重复博弈:以牙还牙 vs 始终背叛

重复博弈:以牙还牙 vs 始终背叛

10回合,比较合作与背叛策略

诱惑收益 (T): 5

双方合作 (R): 3

惩罚收益 (P): 1

傻瓜收益 (S): 0

回合数: 10

玩家1策略: 以牙还牙

玩家2策略: 始终背叛

宽容 vs 记仇者策略

宽容 vs 记仇者策略

15回合,宽容与记仇策略对比分析

诱惑收益 (T): 6

双方合作 (R): 4

惩罚收益 (P): 2

傻瓜收益 (S): 0

回合数: 15

玩家1策略: 宽容以牙还牙

玩家2策略: 记仇者

随机 vs 巴甫洛夫策略

随机 vs 巴甫洛夫策略

20回合,测试自适应策略与随机策略

诱惑收益 (T): 5

双方合作 (R): 3

惩罚收益 (P): 1

傻瓜收益 (S): 0

回合数: 20

玩家1策略: 随机 (50/50)

玩家2策略: 巴甫洛夫 (胜留败变)

其他标题
理解囚犯困境计算器:全面指南
通过经典囚犯困境框架掌握博弈论、战略决策和纳什均衡分析

什么是囚犯困境?博弈论基础

  • 博弈论和战略互动的基石场景
  • 理解战略决策中的合作与背叛
  • 纳什均衡和理性选择理论的数学基础
囚犯困境是博弈论中最著名的场景,展示了个人理性与集体利益之间的根本矛盾。两名囚犯被分别关押,必须决定是合作(保持沉默)还是背叛(告发对方)。
困境在于每个囚犯都有背叛的主导策略,但双方合作会带来更好的结果。这导致纳什均衡为双方背叛,尽管合作对双方更有利。
标准收益矩阵遵循 T > R > P > S 的不等式,其中 T 为背叛的诱惑收益,R 为双方合作的奖励,P 为双方背叛的惩罚,S 为在对方背叛时合作的傻瓜收益。
这一简单框架对经济学、政治学、生物学和社会科学有深远影响,解释了从军备竞赛到环境合作和市场竞争等现象。

核心困境示例

  • 经典案例:T=5, R=3, P=1, S=0 构成困境结构
  • 双方背叛 (P,P) 是纳什均衡,尽管不是最优
  • 双方合作 (R,R) 是帕累托最优,但没有强制难以维持
  • 诱惑收益 (T) 必须大于合作奖励 (R) 才能形成困境

逐步使用囚犯困境计算器指南

  • 配置收益矩阵并理解参数关系
  • 为单回合和重复博弈选择合适的策略
  • 解读结果并识别战略互动中的纳什均衡
我们的计算器为单回合和重复囚犯困境博弈提供了全面的分析工具,支持多种策略方法和收益配置。
收益矩阵配置:
  • 双方合作 (R):双方合作时获得的奖励。应足够高以吸引合作。
  • 诱惑收益 (T):当一方背叛而对方合作时获得的最高收益。这激励了背叛。
  • 傻瓜收益 (S):当自己合作而对方背叛时获得的最低收益。通常设为零或负数。
  • 惩罚收益 (P):双方都背叛时的收益。在真正的困境中,高于S但低于R。
策略选择:
  • 始终合作:永远不背叛的天真策略,容易被利用。
  • 始终背叛:永远不合作的激进策略,在单回合中通常表现较好。
  • 以牙还牙:先合作,然后复制对方上一次的动作。在比赛中非常成功。
  • 宽容以牙还牙:类似以牙还牙,但偶尔原谅背叛。
  • 记仇者:直到第一次被背叛前都合作,之后永远背叛。
  • 巴甫洛夫:胜留败变策略,成功时重复动作,失败时切换。

配置示例

  • 标准困境:T=5, R=3, P=1, S=0 满足 T>R>P>S 不等式
  • 以牙还牙 vs 始终背叛,10回合通常有利于合作
  • 单回合博弈通常导致双方背叛(纳什均衡)
  • 重复博弈允许声誉和互惠机制出现

博弈论与战略决策的现实应用

  • 经济与市场竞争:价格战与合作
  • 国际关系:军备竞赛与条约谈判
  • 环境政策:气候变化与资源管理
  • 生物与进化:自然界的合作与生存策略
囚犯困境框架贯穿于人类社会和自然系统,揭示了合作何时出现、竞争何时占主导地位:
经济应用:
在寡头市场中,公司面临定价策略困境。共同高价有利于所有公司(合作),但每家公司都有动力压价(背叛),导致价格战,损害整体利益。
广告大战是另一种经济困境,公司本可通过克制获益,但却被激励去超越对手,最终导致广告支出过高而市场份额变化甚微。
国际关系:
军备竞赛体现了困境结构:国家本可通过共同裁军获益,但担心自己裁军时他国继续扩军而变得脆弱。核威慑理论高度依赖博弈论原理。
贸易协定和气候协议面临类似挑战,全球合作有利于所有人,但个别国家可能倾向于搭便车。
环境与社会问题:
气候变化是全球囚犯困境,各国希望他国减排而自身继续高排放,导致全球次优结果。
资源枯竭问题,如过度捕捞或干旱期间用水,说明个人理性行为可导致集体非理性和资源崩溃。
生物与进化背景:
进化生物学用博弈论解释自然界的合作,从细菌共享资源到动物合作狩猎和防御。

现实困境情境

  • 欧佩克石油定价:成员通过配额获益,但有过度生产的诱惑
  • 核威慑:相互确保毁灭(MAD)作为安全困境的解决方案
  • 疫苗接种决策:个人风险与集体免疫利益
  • 企业研发:共享研究有利于行业但也让竞争者受益

常见误区与正确战略分析方法

  • 理解何时背叛实际上是理性选择,何时应合作
  • 区分单次博弈与重复博弈的动态
  • 避免认为合作总是带来更好结果的谬误
许多人误解囚犯困境,导致现实中战略思维错误。理解这些误区对于正确分析至关重要:
误区1:合作总是最优
虽然合作带来最佳集体结果,但在单次博弈中,个人背叛可能是理性的。纳什均衡(双方背叛)代表了个体理性,即使集体上不是最优。
正确做法:先分析博弈结构。在T>R>P>S的真正困境中,单次博弈背叛是主导策略,无论道德如何。
误区2:困境无解
许多人认为囚犯困境证明合作不可能,但重复互动、声誉效应和沟通可促成合作。
正确做法:考虑未来的影响。在无限重复博弈或未来互动重要时,以牙还牙等策略可通过互惠维持合作。
误区3:加重惩罚总能促进合作
提高双方背叛的惩罚并不一定能提升合作,如果背叛的诱惑仍高于合作奖励。
正确做法:关注整体收益结构。关键比率是T-R(诱惑溢价)和R-P(合作优势),而非绝对值。
误区4:博弈论鼓励自私
博弈论常被误解为鼓励自私,实际上它帮助理解合作何时出现及如何维持。
正确做法:用博弈论设计制度和激励,使个体与集体利益一致,让合作成为理性选择。

合作问题的战略解决方案

  • 通过产权或配额解决公地悲剧,而非仅靠道德劝说
  • 国际条约通过监控和渐进制裁实现,而非仅靠信任
  • 企业合作通过明确合同和争议解决机制取得成功
  • 社会规范通过声誉和社会制裁促进合作

数学推导与高级博弈论分析

  • 纳什均衡计算与稳定性分析
  • 进化稳定策略与复制动态
  • 混合策略与战略互动中的随机化
囚犯困境的数学基础揭示了战略行为和均衡概念的深刻见解:
纳什均衡分析:
在T>R>P>S的标准囚犯困境中,双方背叛(D,D)是唯一纳什均衡。无论对方选择什么,背叛都能获得更高收益:T>R(对方合作时)和P>S(对方背叛时)。
数学上,如果玩家i背叛的收益对所有对手策略都高于合作,则πi(D,s{-i}) > πi(C,s{-i}) ∀s_{-i},背叛为主导策略。
重复博弈动态:
在无限重复博弈中,民间定理(Folk Theorem)表明,只要玩家足够有耐心(高贴现因子δ),任何理性且可行的收益组合都可作为纳什均衡。
可持续合作的条件为:δ ≥ (T-R)/(T-P),其中δ为玩家对未来收益的重视程度。
进化博弈论:
在群体博弈中,对当前群体组成表现好的策略会增加其频率。复制方程ẋi = xi[f_i(x) - φ(x)]描述了策略频率的演化。
对于囚犯困境,始终背叛是进化稳定的,因为它无法被其他策略入侵,尽管集体合作更有利。
混合策略分析:
虽然标准分析中纯策略占主导,但在有噪声环境或玩家对收益/对手类型不完全了解时,混合策略变得重要。
混合策略σ = (p, 1-p)的期望收益取决于对手策略,可计算为E[π] = p·π(C,·) + (1-p)·π(D,·)。

数学示例

  • 标准困境:T=5, R=3, P=1, S=0,唯一纳什均衡为(D,D)
  • 关键贴现因子:δ ≥ 2/4 = 0.5,才能在无限重复中实现合作
  • 以牙还牙在群体互动中对始终背叛具有进化稳定性
  • 当玩家收益矩阵或信息不同时,混合策略自然出现