经济常识:纳什均衡
纳什均衡是一个博弈论中的核心概念,描述的是在多人参与的博弈(即策略互动情境)中,当每个参与者都选择了自己的最优策略,并且在该策略下,没有任何一个参与者可以通过单方面改变自己的策略而获得更多好处时,所达到的一种稳定状态。
下面我们循序渐进地理解它:
第一步:从基础情境出发——什么是“博弈”?
想象一个简单的场景:两个竞争对手公司(A和B)要决定明年产品的广告预算,是投入“高”预算还是“低”预算。每家公司的利润不仅取决于自己的选择,也取决于对手的选择。这就是一个典型的“博弈”。博弈论就是研究在这种存在相互依赖性的决策中,理性参与者会如何行动的科学。
第二步:理解“策略”与“收益”
在每个博弈中:
- 参与者:做出决策的主体(如公司A和B)。
- 策略:每个参与者可供选择的行动方案(如“高预算”或“低预算”)。
- 收益:在所有人做出选择后,每个参与者得到的结果(通常用数字表示,如利润、效用)。收益由所有参与者的策略组合共同决定。
第三步:关键问题——如何预测结果?什么状态是稳定的?
博弈分析的核心是预测参与者最终会选择哪种策略组合。一个合理预测的结果应该具有“稳定性”:即在这个结果下,没有人有动力独自偏离它。试想,如果一个结果中,某个人可以通过独自改变行动而获得更多利益,那么这个结果就不稳定,因为那个人会去改变它。
第四步:纳什均衡的精确定义与逻辑
纳什均衡就是这样一种稳定的策略组合状态。它的正式定义是:
在给定其他所有参与者策略不变的情况下,没有任何一个参与者能够通过单方面改变自己的策略来增加自己的收益。
这意味着:
- 每个人都在针对别人的选择做出最优反应。
- 没有人有“单方面偏离”的动机,因为偏离不会变得更好(甚至可能更差)。
- 这是一种“策略僵局”:在别人策略不变的前提下,我的策略已经是最好的;同时,我的策略也使得别人的策略成为他们最好的选择。
第五步:通过经典例子——“囚徒困境”来理解
这是阐释纳什均衡最著名的模型。
- 情境:两个共犯被分别审讯。他们无法串供。
- 策略:每个囚徒可以选择“坦白”或“抵赖”。
- 收益(刑期):规则通常是:
- 如果两人都抵赖,因证据不足,各判1年。
- 如果两人都坦白,各判5年。
- 如果一人坦白、一人抵赖,坦白者因立功立即释放,抵赖者重判10年。
- 分析:
- 从个体理性出发:无论对方选择什么,“坦白”都是对我更有利的策略(如果对方抵赖,我坦白可获释;如果对方坦白,我坦白判5年,抵赖则判10年)。因此,“坦白”是每个人的“占优策略”。
- 纳什均衡点:(坦白,坦白)。在这个组合下,给定对方坦白,我没有动机单方面改选抵赖(否则刑期从5年变为10年)。双方都是如此。虽然(抵赖,抵赖)整体结果更好(各1年),但它不是均衡,因为任何一方都有动机单方面背叛去选择坦白以获释。
第六步:纳什均衡的特点与重要性
- 不一定是整体最优(帕累托最优):如囚徒困境所示,均衡结果可能对所有人来说都不是最好的。这解释了现实中的许多合作困境(如价格战、军备竞赛)。
- 可能不止一个:一个博弈可能有多个纳什均衡。例如“协调博弈”(如选择开车靠左还是靠右),(靠左,靠左)和(靠右,靠右)都是均衡。问题在于如何协调到一个均衡上。
- 可能包含混合策略:在某些博弈中,纯策略(明确选某个行动)没有均衡,但参与者以一定概率随机选择不同策略时,可以达到均衡。例如猜拳游戏,均衡策略就是以1/3的概率随机出石头、剪刀、布。
- 应用广泛:它是分析经济竞争(寡头市场)、拍卖设计、政治谈判、进化生物学、社会规范形成等领域的基石工具。
总结:
纳什均衡为我们提供了一个预测和分析策略互动结果的强大框架。它描述的不是人们“应该”怎么做以实现最佳社会结果,而是在理性、自利的假设下,人们实际决策可能达到的一种“互为最优反应”的稳定状态。理解纳什均衡,就理解了为什么有时个体理性会导致集体非理性,以及制度、规则和沟通在引导人们走出困境中的关键作用。