您现在的位置: 天下网吧 >> 网吧天下 >> 网吧行业 >> 网络追踪 >> 正文

科普:“石头剪刀布策略”的意义

[作者:佚名 来源:不详 时间:2014-5-6我来说两句
:科普:“石头剪刀布策略”的意义

引言:昨天发过“石头剪刀布策略”引热评的文章,有很多网友留言表示对科研的支持和理解,也有些网友表示不解,这简单游戏的背后到底有何意义。小编这种学渣是无法讲清楚的,但总有大神来科普,让我们一起来看一下吧,当然,如果你和小编一样看不大懂,默默地顶下吧。

昨天,一篇来自浙江大学、浙江工商大学和中科院理论物理研究所的论文公布在了预印本网站上。根据媒体的宣传,研究者“找到了石头剪刀布的制胜策略”。

自然而然地,很多网友的反应是:“这还需要你研究?”

但是只需扫一眼就会发现,研究者不幸又被标题党坑了。他们寻找的不是怎样玩赢剪子包袱锤,而是通过人们在剪子包袱锤里的行为来判断哪一种理论更能预测人类——是传统博弈论的纳什均衡,还是演化博弈论。

因此,我打算从我熟悉的演化博弈论角度来越俎代庖,尝试解读这项研究为什么不是在浪费钱。

为了帮助理解它,我会讲四个故事。这四个故事从易到难,如果你已经对这个领域很熟悉了,可以跳过前面的几个故事。

第一个故事:囚徒困境

一个有钱人被发现死于家中。警方抓获了两个犯罪嫌疑人并查获了赃物,但两人辩称说他们只是小偷,进屋时那个人已经死了。没有更多证据,调查陷入僵局。

于是警方把两人分开,分别对他们说:

如果你俩都不认罪,我只能判你盗窃,一年了事;如果你招了他没招,你算作立功,不用坐牢,而他得十五年。如果如果他招了你没招,那反过来。但如果他和你都认了,谋杀罪每人十年。

嫌疑人X心想:如果Y不招,那么我也不招的话会判一年,我招了无罪释放。招了更划算。

而如果Y招了,那我不招的话十五年,招了只有十年。还是招了更划算。

显然我应该招啊。

而嫌疑人Y当然也是这么想的。结果,两人都判了十年。任何一人改策略都只会让自己处境更糟,这便是一个纳什均衡。

可是,如果从整体上看,最好的结果显然是两人都不招,各判一年。双方都是理性考虑谋求自己的最大利益,结果却是两人都遭遇了坏场景;无论是整体最好场景(各判一年)还是个人最好场景(直接释放)都不可能发生。这就是为何囚徒困境是个“困境”。每个人都很精明,最后怎么弄了这么个烂摊子?

▲囚徒困境示意图(或者,“收益矩阵”)

按照囚徒困境术语,不招的行为算作“合作”(和你的狱友合作,不是和警方合作),而招认的行为算作“背叛”。双方都合作最好,双方都背叛则两败俱伤。按照这个故事,合作根本不可能出现啊。

现实中类似囚徒困境的场景常常出现。但是,更多的结局似乎是合作,而不是背叛。为什么?

可能的原因是,困境不止这一次。

第二个故事:重复囚徒博弈

如果嫌疑人X和Y是陌生人,那么两人的下场都是十年。但是他们也许是两肋插刀的好哥们,或者有血亲,或者属于同一个组织——总而言之,用博弈论的术语,他们以前也许打过交道,将来还很可能继续打交道。这时,“合作”就不是什么难以想象的事情了吧。

因此,一位名叫罗伯特·阿克斯罗德的政治学家在上世纪80年代初做了一个名垂青史的实验。他在计算机里摆了一场锦标赛,有很多名虚拟的参赛选手,双方捉对厮杀——哦不,是捉对进行重复囚徒博弈。按照博弈的结果记分,你背叛他合作,则你得5分他得0分,双方都合作各得3分,双方都背叛各得1分。

然后,他向全世界征集策略,每一个得到的策略变成一个参赛选手。提交的策略共有14个,来自经济学、社会学、政治学和数学等等领域,再加上一个“完全随机”的对照策略,共15“人”进行比赛。这里面有些策略极其复杂极其精妙,比如有一个策略用马尔科夫过程为对方的行为建立模型,然后用贝叶斯推断最好的选择。

但是,最后得分最高的竟然是所有提交策略里最简单的一个——“一报还一报”(TFT, tit for tat)。这个策略一共只有两条规则:(1)第一步先合作,(2)从第二步开始,对方上一轮出的是什么,我就出什么。提交这个策略的是维也纳的安纳托·拉伯波特,他写这个策略只用了4行BASIC代码。

阿克斯罗德发表了锦标赛的分析结果,并邀请大家吸取经验教训提交新一轮策略——这次他获得了62个策略,不但有上面提到的领域,还包括了演化生物学、物理学和计算科学等新学科。只有一个人厚颜无耻地原样提交了上次的卫冕冠军,那就是拉伯波特本人。你猜对了。他又一次获得了胜利。

TFT这个“报仇者”成功的秘诀并不复杂。阿克斯罗德说,它有三个要素:它第一轮总是合作,先表示善意;它会惩罚背叛者;如果对方改过自新,它也不会咬住不放。

但是甘地说过:“以眼还眼,举世皆盲。”现实中总会因为各种原因结下仇怨,但我们也没有从此冤冤相报何时了。这又是为什么?

可能是因为,现实本来也和阿克斯罗德的模型有些重大差别。

第三个故事:有突变和自然选择的重复囚徒博弈

(1)自然发现了宽恕

阿克斯罗德锦标赛有两个重大缺陷。

其一,双方的行为都是完美的,没有误会,没有失误,哪怕不知道对方想什么,至少知道对方做了什么。但现实里多少悲剧源于双方一开始的误会啊!这个重要因素显然不该忽略。

其二,每一个策略的“环境”都是武断决定的。一个策略能否成功,和它身边别的策略如何有很大的关系。假如群体里全都是永远背叛者,那么报仇者完全占不到任何便宜。而阿克斯罗德锦标赛里的参赛选手都是人为提交的,这可不能说是有代表性的样本。

因此,在阿克斯罗德实验的基础上,马丁·诺瓦克制定了一轮新的锦标赛:引入了自然选择。

他不再邀请人类专家设计策略,而是规定了一个大小合适的策略空间,允许策略在里面进行“繁殖”和“突变”。每一轮得分高的策略后代多,得分低的没有后代甚至自己都消失掉,但每个后代的策略也都和自己有十分微小的差异。此外,每次行为都有一定的“误会”概率——本来我应该合作,但实际出手的却是背叛。

一开始,故事的发展和上面一样。起始的一团糟很快被谁都不信任、每一局都背叛的“背叛者”横扫,但其中很快又出现了一小团一报还一报的“报仇者”。然后报仇者有很大的概率靠自己内部合作,反过来推倒背叛者。

但是现在故事不会到此结束了。因为有误会。

报仇者很擅长对付坏人。但是如果对方不是坏人,而是犯了错误的好人呢?报仇者太记仇,不会放过这一点,如果对方也是报仇者,那相互合作立刻会变成相互背叛,就要陷入冤冤相报何时了的永远循环之中了。

这时,突变出现了“宽恕者”。它的策略学名叫“慷慨的一报还一报”(GTFT)。它的特点是,即使对方出了背叛,下一轮也有一定的概率选择合作,这样就可以挽救陷入无穷背叛的可能。在论文里,诺瓦克骄傲地宣布:“自然选择发现了宽恕”。

显然,宽恕存在的前提是周围有足够多的好人(报仇者或者其他宽恕者

关注天下网吧微信,了解网吧网咖经营管理,安装维护:


本文来源:不详 作者:佚名

相关文章
没有相关文章
我来说两句(请遵守法律法规)
声明
本文来源地址:http://www.ithome.com/
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。若文章侵犯了您的相关权益,请及时与我们联系,我们会及时处理,感谢您对本站的支持!联系邮箱:support@txwb.com.,本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧 网吧天下

扫一扫,关注天下网吧微信