数学行为中的人工智能游戏.docx-淘文阁

资源描述

《数学行为中的人工智能游戏.docx》由会员分享，可在线阅读，更多相关《数学行为中的人工智能游戏.docx（24页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、本科毕业设计（论文）外文翻译译文学生姓名：王淑晶院（系）：计算机学院专业班级：计0702 指导教师：黄全舟完成日期： 2011 年 3 月 15 日数学行为中的人工智能游戏Behavioral Mathematics for Game AI作者：DAVE MARK起止页码：7992页出版日期：March 5, 2009出版单位：Course Technology PTR外文翻译译文：理性与非理性行为冯诺依曼其中的一个问题，和其他人期望的对博弈论的应用，在这样做时人们有着合理的行为举止。并且总是试图选择最好的结果。我们可以在第5章中，从一些例子可以看出，这并非总是如此。通常，人

2、们要么无法选择到最佳的选择，要么甚至不以任何理由来选择。结果导致地就是这样一个规范性决策理论和决策理论的描述有差别的原因。而这种有着一大截的差距在于非理性行为。当然，试图找出那些行为是一个棘手的问题。而计算机只善于计算出理性行为的答案。一个非理性的想法但有合理的前瞻性的答案却完全是另一种伎俩。我们大多数人习惯于这样的概念，不合理的东西是需要避免的，甚至回避。然而，正如我们已经深入看到的那样，并且会继续探讨下去，非理性不仅仅是非常真实的，并且它是对行为的性质赋予了深度。试图与非理性的行为走一起是一个重大的问题。无论如何，通常一个问题都只有一个正确的（即理性的）回答。但在非理性行为的解集中往往是很

3、宽松的。这一切并不是说是否是“正确”的答案是需要看一切是不是很合理。但有些事情是完全错误的。如果你记得在第1章中所说的，我所画的一幅可爱的猪的画。虽然我对猪的写照描写很容易但是不够完美。这在“piggishness” 的范围内是很好的。它没有第五条腿伸出在其背脊上，像鱼的背鳍一样。虽然不是十全十美，但它是合理的猪的形状。还有，实话来说，人们可以通过无穷个途径来描绘出猪，但只有一些他们挑选出来的数目会属于可接受的范围内，并且观察员才可以接受“看起来是猪的样子”。当然，其中有些可能是归类为“古怪的猪”，但仍是合理的，足够不与其他的弄混淆，比如说，一匹马，鬣鳞蜥，或鸭嘴兽（虽然鸭嘴兽本身是不易混淆的

4、）的糊涂思想。最后，在规范决策理论和效用最大化的算法中，它给我们提供了无结果的但“应该做”的答案。我们需要在研究的理性与理性的基础上再作补充，并且合理地再进行复制。完全理性由于非理性的是如此难以界定，而它实际上是从理性的顶尖来理解更加容易开始这一尝试。代理商说，有完善的理性行为，如果他们总是以最好的方式，这样做即使使他们必须进行广泛而难以的计算工作。如果，通过实例的理论来说，我们要降低到一个简单的游戏空间，我们可以利用一字棋这样的游戏。正如我们在第1章中指出，我们是否想要赢，则选择在游戏中的任何一点，可用于缩小到一个房间中的决定。如果我们想赢，有一个明显的选择。如果我们不想赢，有一个同样显而

5、易见的选择。因此，我们在一字棋中的成功是完全基于我们是否想获胜。玩家将始终发挥一个完全合理的正确的举措。如果我们选择甚至错误地发挥这些举措之一，我们将不再被认为是完全合理的。完全理性的其他例子可以应用到第5章中的游戏中。谁是囚犯，没有任何其他信息知道，选择以出卖他的囚徒困境中的合作伙伴是展示了完美的合理性。是谁在最后的游戏通牒中给了最低限度和独裁者，体现了完全理性的行事方式。正如在把蛋糕切割出一半，以减少预期中暴露的贪婪给（而且完全理性的）其他玩家是完全合理的。即使是不论谁扮演了一个匹配几个便士的混合策略，以防止他的对手通风报信的模式是完全合理的。如果存在最优解，完全理性的代理人会抓住每一次。

6、还有什么能比如此还好呢？结果是完美的合理性有着严重的弱点，需要通过运行试驾来暴露出。为此，我们需要一个测试赛道，让我们可以看到完美的理性行动。海盗游戏最后通牒博弈是指两个人以其“要么接受，要么拉倒” 的有趣的像鸡那样的冲突的游戏。正如我们上面提到的，它也是一个多么完美的合理性，但可能也会导致一个极端的例子。以优良的解决方案来说，在这种情况下，需要给其他人提供最低限度的支付的可能性变得更加有趣。它可以推广到许多人，而海盗游戏确实就是这样的。在海盗游戏中，我们将有一个合理的海盗号（在本例中，我们将使用五）。尽管我所希望的是要拿出真的很酷的海盗名字。我们将制定它们为A，B，C，D和E。字母绰号是可以

7、真正帮助我们进行下一个问题，即海盗有严格的资历顺序：A优于B，谁又优于C，谁又优于D，而谁又优于E。作为一个群体，5个海盗需找到100个金币，正试图决定如何分发。在海盗的世界分布的规则如下。最高级的海盗应该提出一个硬币的分配意见。然后其他海盗来投票决定是否接受这一分配。申请人也是可以投票的。如果是平局则申请人投决定票。如果拟议的分配是通过投票批准，这项建议进入结果中。如果表决失败，则将申请人从海盗船扔到海里死亡。下一个最高级的海盗作出了新的建议，开始重新处理。海盗基地四个因素的决定。每个海盗：1、是完全合理的。2、要生存下去。3、要最大限度地利用他所接受的金币数量。4、除非所有其他的结果宁愿选

8、择抛出另一个极端，否则一律平等。乍看之下，这似乎是在说海盗A，寡不敌众于其他的同级人。可能要尽量减少自己的分配，以避免被开除了。毕竟，如果其他四个海盗认为他是接受过多，他们会下降从中的受益。否决他的建议，并在甲板上送他下来。在这一点上，总是只会分给他们四个人，而不是五个。然而，这不是解决办法，并且能够惊奇地发现不同于他的最佳方法。完全理性的决定的申明如果我们的工作落后，纯策略的解决方案变得更加明显。如果要做到这一点，让我们假设，我们不知道怎么设法使最后两个海盗D和E下来。我们知道，作为资深海盗，D比E更加有决定性的一票，D决定自己可以获得100个金币，而E则只能够不幸地得到零个。如果只剩他们两

9、个的话，这可能就是最后得出的结果。海盗金币表决结果D 100 同意*E 0 不同意如果我们现在的情况是有三名海盗离开C，D和E，那么C就知道D将执行上述战略，在下一轮中什么也没有给E提供。因此，C将提供E一枚硬币，不断给自己休息，并使D无所得。而E，基于完全合理的，也意识到，如果归结到D和他本人，他将什么也得不到。因此，相比从C那获取一个硬币，看起来不错。所以E投票给C的建议。海盗金币表决结果C 99 同意*D 0 不同意E 1 同意当然，为了使三个海盗的论述成立。四个海盗中一定有一些不对劲的情况发生。如果仍然是B，C，D及E留下，B（再一次是完全合理的）知道，由C在上面提及的建议的

10、三个海盗都将离去。因此，他需要安抚D，因为下一轮D知道他不会很好。如果B提供了D一个硬币，D将采取这一提议。这一举措使得他从C那不会获得什么。D知道他自己有着决定性的一票，从而可以获得一个金币。而B也不再需要担心C或者E的意见，并且不给他们提供任何的金币。若B是建议者则投票结果将是两票对两票。海盗金币表决结果B 99 同意*C 0 不同意D 1 同意E 0 不同意当然，B可以采取同样的方法为C和E的提供一个金币。毕竟，因为E知道他不会得到任何多个金币，如果B放弃投票的话。或许你会认为他将投票支持这一建议。但是，请记住，根据规则3以上，每个海盗都急于把其他人抛到海里。在这种情况下，他在对B的

11、投票上会有兴趣，因为他可以在下一轮从C那里获得到一个金币并且分配对手。 E将不会投赞成票，因此，仅仅因为他只是提供一个金币的相同的方式。D将会认识到这一点，B会继续沿用D的投票。当然，A对所有难以预料，但却是完全理性的。并因此能够很好地处理上述所有的情形。正如我们所看到的，如果是B在负责分配，那么C和E就像在寒冬中一样什么都没有留下。A知道这一点，并且知道这两票都是他需要的。更何况他知道，这一票的价格仅仅只是一枚金币。而C和E，是理性的，会明白有一枚金币比什么都没有好多了，或者在C的情况下，最终会被揭去。所有的这些想法，A的建议如下。海盗金币表决结果A 98 同意*B 0 不同意C 1

12、同意D 0 不同意E 1 同意最后一点：像B上面的选择，A也可能分配这两个硬币以另一种方式。例如，给一个给D代替C。然而，就像上面说过的E的例子一样，D可能会将A抛弃，从而拒绝倾向于某一边的海盗，并且在下一轮中从B那收集他的那一枚金币。因此，A只会给一枚金币给C，而不是D。/* 你对于那些熟悉使用递归法。这是一个怎样的问题，可以通过启动用最小的可能的方案（在此情况下，两个海盗）和使行动往反方向。在每个级别中，应用同样的规则解决了很好的例子，但与从以前获得的知识相比。鉴于此，如果你有足够的黄金来支持海盗人口，您可以解决任何贪婪但友好的数量的海盗游戏。（你甚至可以这么做，高达200个海盗有100

13、金币。）/*对于那些你们不熟悉的递归的定义，这是它提出的方式在我的AP计算机课在高中的时侯。递归式n：1（见递归）要吸取的教训是，即使是纯粹的理性和代理商有完善的信息（或挂钩），有时理性的事情需要一点挖掘，发现。在这种情况下，必须考虑到开发什么，C和B将提出（按该顺序），以及他们将如何投票支持每一个这些建议。所有这些问题都得卷到一起，而A需要提出什么。这是规范决策理论方法。我们应该做的在数学和算法上已经被告知。迭代的合理性质疑该解决方案的合理性，我们在使用的迭代到达不同于第一眼见到的做法。当我们一开始在看比赛时，我们计算过，一个海盗至少需要提出一个稍微公平的解决方案。事实上，如果我们要运行一

14、个我们真实参与的海盗游戏，这是非常可能的。像在前一章的最后通牒里，独裁者，信任游戏，海盗将提出一个行之有效的一些显着不同的最佳解决方案。在此基础上的行为建模是描述行为理论的方法，即，是什么。人们往往要在这种情况下。而在这种情况下，人们往往会做的事情是他们不应该这么做的。什么样的机制会导致他这样做？当然不会是赤裸裸的利他主义作为，而这似乎是独裁者博弈中的唯一的解释。海盗不知道他们的慈善倾向。这表明别的东西作为不合逻辑提供的原因。如果不是以其他慈善为中心的利益（甚至在潜意识水平中），也许是更多的自我的利益？立足于自身利益的决定，这似乎更可能导致我们得到最大的（即贪婪）解决方案，我们得到了。那么如何

15、才能利己，引入错误的方向？有一种不同的方式，代表自我利益的得到。请记住，钱不是在游戏中的唯一考虑。海盗们试图避免了成为鱼类的食物，以及非常现实的威胁。因此，它是一种自身利益的合法表达说法，“如果我显得过于贪婪，他们会驱逐我”。为此，海盗可能会倾向于让数学计算，相比需要一个特定的命运，以避免更多不利。在这一点上，我们已经找到了一个类似的心态，最后通牒博弈的困扰。也就是说，“如果我给的太少，我会拒绝对方泄愤，并会得到什么”。只是得出了最后通牒博弈的情况下。错误的想法是，因为这种太小了所以其他人（接收器）会拒绝提供，而是采取什么。当然，这是不合逻辑的接收器的做法。他决定得到任何东西，甚至是一元，总

16、比一无所有都好。因此，送礼者只应提供一美元并期望它被接受。但是，这并不是什么真正的最后通牒博弈参赛者的做法。在海盗游戏中，心态是相似的，但结果略有不同。比没有钱相比，放着可能会更加没有钱，并且很有可能会走向死亡的顶尖的可能性。（而且，正如我们都知道，经典的错误之一是“永不与海盗抗争的时候死亡就在边缘线上了”。）任何特定的高级海盗会觉得他要担心自己是否无私奉献，他的下属不仅如此，他们会接受他的建议，以及至今他将生存的整个过程。当我们发现，无论如何，这种尴尬的做法是不正确，甚至是远程的。除了购买价格是在一个或两个非常小的表决中，排名海盗可以简单地保持自己休息，也没有人可以做任何事情。至少没有牺牲自

17、己，在后面的过程中。因此，如果我们把情况放入一个游戏中，我们应该选用哪种方法好呢？我们的海盗规范性提供了一个对什么是应该做的回答。一个描述性的东西提供给了海盗（或至少是假装的），往往不回答我们。前者是最佳的解决方案，后者则是更“现实”。SUPERRATIONALITY在囚徒的困境中，我们谈到了之间的叛逃的严格占优策略和保持安静的帕累托最优战略的区别。在这种情况下，唯一可以实现的方式的最佳的策略是，如果我们的合作伙伴当选，以及保持安静。只有这样，我们可以感到舒服，并作出该决定。如果我们知道我们的合作伙伴将承认，而最佳战略，并认为我们要遵循它。因此，重要的问题是，我们这一理性行为并不简单。而且根据

18、假设所有其他玩家的行为，以及理性行事。这就是所谓的superrationality，由侯士格道格拉斯在1985年描述金币的兼收并蓄的文章之一的书中说到。Metamagical Themas（书号，0-465-04566-9）。诚然，作出理性的决定必须在其成功的事实下。每个人都在房间里，其他人也作出合理决策的时侯是有点夸张。但事实上，在某些情况下会采取这一切的整个框架是一个人的不理性行事将送入滚筒。而这我们将探索之后去发现，这是在规范性中的决定。而这在第4章中所讨论的理论的最大障碍之一。请记住，对于规范性决策理论的要求是：拥有所有可用的相关信息。能够感知到所需的信息的准确性。能够完美地执行所有的

19、计算并且要运用这些事实。是完全合理的。这是一个好主意，如果我们是一个谜，不涉及其他思想的代理交易。然而，仅仅通过将其列入，我们都可能在前两个项目的名单上丧失资格。总之全知的一些形式，我们无法读取其他玩家的头脑，因此怀疑后面的屏幕上的所有相关信息。我们可以看到，即使信息并不一定完全准确。正如我们所看到的，是规范性决策理论与“应该”，它吐出来，而我们可以解决一些问题，每每有益的，它开始显示其他人参与的弱点.五分之四的海盗调查在海盗游戏中，我们质疑海盗A的决定，因为这不符合我们的直觉。他感觉适合什么则应该做的部分原因是，我们对其他海盗观点可能有点偏离。其中一个初步的指导单位的设立的比赛，“所有的海

20、盗都是理性的”。而再一次，那就是不合理的superrationality，从单纯的规范性办法假设的可信度不够格。如果其他海盗是不理智的，那么所有的计算，我们上面所做的是没有意义的。如果他们不是纯粹理性的，那么像恐惧，怨恨，羞愧，甚至是简单的计算也是错误的乱七八糟的东西，会蔓延到他们的决策。如果他们的决策是妥协和不可靠的，那么我们不能准确地把自己的度，可以吗？因此，不管我们是否是纯粹的理性，并不是唯一的需要加以解决的问题。如果我们要制定我们的方法。如果我们是理性的，所以是他们休息，则一切都很好。但如果其中一人甚至是不理性的，则它可以表现歪斜的任何预测结果的排序。当然，在囚徒困境中，这是我们共同努

21、力的最佳利益。在海盗游戏中，参赛者都希望对方推出去落水，并使自己得到更多的财富。难道我们真的认为他们都是非常理性和为自己的利益考虑着？所以，也许我们的困惑在于，我们正在努力解决错误的问题。而不是试图确定“正确的答案”。完全合理的世界优化了我们的解决方案，我们需要努力模拟的行为，考虑到人们的所有合理的但不纯粹的信息和计算能力。对这个问题的答案是一个什么样的游戏问题，我们正在努力解决的功能更多。此外，答案可能是什么,我们正在努力实现在这个特殊的计算。如果我们需要很高的数学精度，那么最好的是使用规范的做法。如果我们需要心理可信度，描述一个是可取的。而在中间某个地方，我们可以有两个特点。事实上，只有

22、这两种方式是并列的。我们领导的事实是，描述性的方法（例如，作为利他主义）是彻头彻尾的从效率的角度考虑是不正确的。只有通过分析他们两个人，而我们同时能够确定规范性方法（当数学方法用尽时），没有考虑到潜在的心理因素。也就是说，“应该”似乎是完全可行的。直到我们的数据表明，真实的人根本没有做什么，但他们带来了“应该做的”。所以，也许我们的直觉是太过遥远。把这一奇妙的数学和逻辑都要讲好。计算机和人工智能（AI）的程序员是如此得喜欢自身世外。如果是我们的海盗的外观和行为的实际行动，他们可能会认为不完全合理。如果他们有不完全理性的行为，他们将不使用算法来产生最佳结果。因此，没有花哨的数学来帮助我们，A海盗

23、提供了什么是正确的解法，以避免不幸的潜水探险。虽然可能没有直接的解决办法，但从这节来说我们也有学到点什么。平均三分之二的猜测游戏幸运的是，在海盗游戏中，规则指出，“所有的海盗都是理性的”。虽然superrationality中断言（即每个参与者是完全理性的）似乎是在海盗定型介绍一个伸展位的基础上。但这当然比要到达一个解决方案简单了很多。当我们走过的每一步迭代过程中，我们可以解决那些和每一个步骤相关的说法。因此，他将这样做。这种假设的合理性留给我们的是每一个单一的代替的解决方法的结果。其中，为此之上，建立一个单一的结果为“最佳”来引领海盗提出的安排。这时候，我们暗示了一个事实，即数学上的最佳解决

24、方案。我们到达了我们所拥有的，不同的海盗有的只是一些非理性的猜测。我们中的大多数将提供更多的，海盗比较需要购买他们的同事的默许。幸运的是，我们的同胞可能不会知道和海盗之间一样的非理性其中的差别。只要我们提供有意义的长期的给他们（不论他们喜欢与否），他们将很可能与它一起去，因为它“感觉好极了”。一个流行的例子类似于，海盗游戏是充分体现了这个理性的缺乏，一个游戏所谓平均猜测三分之二。标题是不是很隐蔽。游戏字面上包括询问一组人猜测从0到100之间的数字。我们的目标是猜测最接近于三分之二的人的所有猜测将平均三分之二。例如，如果所有的参与者平均猜测是75，那么获胜的猜测是最接近50。如果大家都猜平均为3

25、3，获胜者将是一个谁猜中最接近22。再一次，就像海盗游戏种，我们很多人已经制订计划读这篇。在我们要思考的是我们如何处理这一游戏规则。我确实知道我错了。海盗游戏不同的是，没有明确的法令定义superrationality。也就是说，参与者可能是完全合理的，但很可能并非如此。这注入的不确定性将导致决策的水平的窘境。这个礼物，具有讽刺意味的是必须作出的决定之一，但是否是完全不理智的行为（如果你知道如何做）。这取决于是否和在某种程度上，甚至认为，其他球员都将是合理的。在囚徒的困境中，这种表现本身相当不错。严格占优策略是背叛所承诺的其他玩家。因为是最好的结果，无论其他人是什么样子。然而，当我们探讨时，

26、最佳策略是两个玩家保持安静。一个玩家的唯一方法将选择这个选项，但是，如果他知道其他人是要在完全理性的行为方式中，以及保持安静。如果其他人的理性是不知道的（无论如何，他或者被称为是一个松散的大炮），然后回落的是严格占优策略。在平均猜测三分之二的比赛中，我们的面临都是类似的。但对困境，规模较大。我们需要决定是否对其他玩家的游戏要理智行事，或在此之前，我们可以决定我们是否应该扮演理性的策略。更何况，现在我们已经偏离了冯诺伊曼的博弈论，例子简单了，我们要占更大的变数。与囚犯的困境相比，我们必须确定一个人的理性来决定他会选择哪两个选择。在这种情况下，如何与其他很多玩家相处都将是合理的。以及在何种程度上？

27、消除非理性回答的申明在这里的问题是，有没有严格的主导战略。刚开始，也就是说，我们不能说“这是最好的游戏方式，不管别人怎么做。”不同的是囚徒的困境，我们不能说“出卖给了我们最好的机会。”有趣的是，独特的纯策略。在囚徒的困境，这种战略是保持与我们的合作伙伴的相互了解。这样做是要是宁静，因为他是合理的。同样，在平均猜测三分之二游戏中，这种方法使得到我们最好的结果。如果每个人在游戏中纯粹以理性行事。无论如何，我们将得到了一个完全不同的答案，与我们期望的那样相比来说。为了得出这个答案，我们需要经历一遍从一开始工作的时候。就像我们与我们的强盗一样吝啬。在这种情况下，消除这我们通过反复严格的主导战略。要做到

28、这一点，我们必须找到严格主导战略。通过使用这些对我们有利的信息。我们可以缩小我们的解决方案，使设置明显回落。正如一个严格的主导战略之一是，不管的局面是否清楚。严格的主导战略是一个是最坏的局面，无论什么。在平均猜测三分之二游戏中，没有严格的主导战略，但也有严格的主导战略。也就是说，有办法发挥，将永远失去，不管是什么。其原因是，在游戏中的数学是不可能的。由于游戏的状态，人们从0和100之间选择号码的规则。我们知道这是不可能的，如果平均猜测是在100以上。当然，也可能是100，但只有当所有玩家都猜到了100。（不要笑。正如我们将在后面看到，还有哪个人会这样做）。如果平均不能超过100，那么这两个三

29、分点不能高于66.67。因此，什么将上述66个不合理的猜测。因此，要划掉一大块的可能性。现在，因为我们的前提是，每个人都是理性的工作，我们必须假定让他们知道。上述66个猜测是不合理的。因此，我们也知道，没有人会猜测66以上。那么，如果没有人会去猜测66以上，那么我们也可以断言，三分之二以上的44点将不会出现（双66的三分之二）。由于我们的理性合作的玩家没有一个人会猜测44以上，我们知道三分之二以上的点不会是29.48（双44的三分之二）。车床，漂洗，重复.（图6.1）。图6.1通过迭代消除了严格主导战略（即那些没有获胜的可能），我们确定的唯一的纯策略，猜测为零。最后，通过消除理性的玩家的可能的

30、猜测，我们得到这一步，任何大于0的猜测是不合理的。这意味着，在平均猜测三分之二的游戏中，纯策略的猜测是零。当然，这个答案只存在于superrationality世界。每个人都必须参与一样纯粹理性的战略，但其发生的机率相当渺茫。猜测猜测者的猜测就像是这个问题，海盗游戏的的存在，这种纯粹的策略应该是并不适合与我们的感觉很好的解决方案相关的。所不同的是，在海盗游戏中，不同的是比我们自己提出的98枚金币少，我们没有得到合理的解决。我们没有意识到那些。我们在司机的座位上是不合理的。在海盗游戏中的解决办法是最合理的计算方案，就告诉其他玩家，然后让他们看到，让他们别无选择。如果我们不能提出自己的98枚金币

31、，这是因为我们自己没有得到合理的对待。在这种情况下，解决方案并不完全掌握在我们手中。这是一个移动的目标，其他玩家的程度为基础的合理性。随后，他们的猜测。既然我们不能假设的其他球员是完全合理的，我们完全有能力提出解决方案，并解释事物的方式不只是“存在这里将成为”。我们必须考虑到问题所在，在其他玩家的合理性提前上。这就是为什么零纯策略的猜测并不一定是正确的。但是，什么是正确的猜测？正如我们刚才所说，实在是一个也没有。任何游戏给定的运行可能会产生不同的平均数与疯狂地不同的答案。但是，这可能是一个最佳的猜测。这将是一个考虑到人们可能会需要做的。请记住，我们没有搞清楚什么是每个人会做，我们只需要弄清楚聚

32、合该集团打算干什么。如果我们足够接近，其中大部分时间里，平均会得出我们的一般预期。在什么地方，这是一个令人高兴的点，如果我们能够找到它。而不是通过理性的方式解决这一迭代的问题，我们需要通过更加可能的遍历它的解决方案的做法。由于游戏的目的是确定哪两个，平均有三分之二会是这样的。我们首先要确定我们相信，所有其他玩家的平均猜测会是怎样的。如果人们所不知道的不是完全的规则或（或完全随机）是数学游戏。我们可以假设，猜测将均匀地分布在范围从0到100中。所有这些猜测平均将接近50。在这种情况下，我们猜测应该是双向的三分之二，即33。但是，如果是其他玩家，甚至是一些以同样的方式正在考虑我们是谁？他们会猜测3

33、3吗？如果是这样，一个受过教育的猜测33不成比例的数量将混合到非理性的人中，纯粹是随机的背景噪声。所有的猜测现在平均不到50，稍将有下降到三分之二点。例如，如果平均猜测45岁，那么三分之二将是30。我们的33个猜想已经太高。也许是30猜测更准确。但是，如果我们和其他人都在思考同样的事情，而不是猜测33，选出猜30呢？这是否更加平均，我们有同样的三分之二的目标。当然，你可以看看，这是领导的人越多，谁的行为则是合理的集团。更多的平均水平（以及相关的三分之二的目标）是否受到影响。更重要的是，有些人可能是在较浅的行事合理水平上（例如，猜测33）。有些可能是轻微行事上更合理地考虑到第一级的理性玩家。即使

34、其他人可能要承担，每个人都在浅理智行事的平均水平，猜测将是33而不是50。这将使他们猜22的三分之二。有点让你头晕，不是吗？在2005年，在丹麦哥本哈根大学经济学系的一个丹麦报纸上的Politiken的游戏的审判广为人知的。他们提供了5000丹麦克郎（约合1000美元）的现金奖，谁能有这样的最接近的猜测。吸引了超过19,000份意见书，他们通过互联网网站。不用说，这是个不错的样本大小。（事实上，大约有1300丹麦人参加）在其审判的平均猜测为32.407，这导致了21.605的赢的目标。在完成对材料的提交的直方图调查中（图6.2），两件事情从中脱颖而出。首先，有一种猜测，包括有些人究竟是谁也猜1

35、00广为散发。事实上，尽管它绝对只是图表的稀面积，但有数量惊人的人猜上面的“不可能点”66.7。图6.2 在丹麦的实验结果表明，两种最流行的猜测分别为33和22。事实上，平均为32.4猜测，使得打赢了21.6的目标。图形来自“制作一个猜测”的工作文件。经济学系，哥本哈根大学的Jean-Robert Tyran和Frederik Roose vlisen使用许可（2009年）。猜测接收（超过6）得票最多为33个。记得我们有33个是一个潜在的解决方案。但是只有当其他票都被平均分配0到100之间，使得平均猜50。所以，有些人很明显针对这些方针的思想。然而，他们的致命缺陷是期待均匀分布。正如super

36、rationality，所有参加者的合理性，是一种不合理的期望，期待所有的参与者是完全不合理的，只是因为有缺陷的一个前提。接到的猜测只稍低于33票，猜测是22的第二数量最多，占6。再次，在这里工作的心态似乎是一个我们在早期的一个感动。谁猜中的人有22人指望这样一个事实：绝大多数的其他人将要被猜测33。他们希望一些玩家将至少对应他们的回答思路（例如不像的玩家猜中100），但不能想太多。通过考虑到这些人，然后根据这些信息为基础的行动，人们谁猜22人，其实是非常接近的解决方案。翻译原文：Rational vs. Irrational BehaviorOne of the problems that

37、von Neumann and others had with their application of game theory was the expectation that people behave rationally and, in doing so, will always attempt to select the best outcome. As we saw from some of the examples in Chapter 5, this is not always the case. Often, people either fail to select the

38、best option or even elect not to for whatever reason. The result is the reason for such a difference between normative decision theory and descriptive decision theory. In that gap lies a whole lot of irrational behavior. Of course, trying to figure out what those behaviors are is a bit of a knotty p

39、roblem. Computers are good at figuring out the rational answers. Coming up with an irrational but reasonable-looking answer is another trick entirely. Most of us are accustomed to the notion that irrationality is something to be avoided or even shunned. And yet, as we have seen so farand will contin

40、ue to exploreirrationality is not only very real but it is what bestows depth of character on behaviors.There is a significant problem in trying to work with irrational behavior, however. While generally there is only one correct (i.e., rational) answer to a problem, the solution set on irrational b

41、ehavior tends to be a bit wider. That is not to say that everything that is not the “correct” answer is going to look reasonable. Some things are just plain wrong.If you recall in Chapter 1, I wrote about my beloved pig painting. While my prone porcine portrayal was less than perfect, it was well wi

42、thin the bounds of “piggishness.” It didnt have the fifth leg sticking out of the top of its back like a dorsal fin. While not perfect, it was reasonably pig-like. There are, in truth, an infinite number of ways that one could paint a pig, but only a select number of them would fall within an accept

43、able range that observers would accept as “looking like a pig.” Sure, some of them might be categorized as “an odd-looking pig” but would still be thought of as reasonable enough to not be confused with, say, a horse, an iguana, or a platypus (although a platypus is confusing enough on its own).In t

44、he end, while normative decision theory and the utility-maximizing algorithms that fall out of it provide us with the sterile “should do” answers, we need to look a little further into the basis of reason and rationality to begin to replicate it.PERFECT RATIONALITYBecause irrationality is so difficu

45、lt to define, it is actually easier to start this foray by starting from the summit of the mountain of rationality and working down. Agents are said to have perfect rationality if they always act in the best possible manner, even if they have to perform extensive and difficult calculations to do so.

46、If, for the sake of example, we were to reduce this to a simpler game space, we could use the game of Tic-Tac-Toe. As we noted in Chapter 1, the choices available at any point in the game can be narrowed down to a decision between whether or not we want to win. If we do want to win, there is an obvi

47、ous selection. If we do not want to win, there is an equally obvious selection. Therefore, our success at Tic- Tac-Toe is based entirely on whether or not we want to win. A perfectly rational player will always play those correct moves. If we were to elect to play incorrectly on even one of those mo

48、ves, we would no longer be considered perfectly rational.Other examples of perfect rationality can be applied to the games from Chapter 5. The prisoner who, without any other information to go on, elects to betray his partner in the Prisoners Dilemma is exhibiting perfect rationality. The person who gives the minimum in the Ultimatum and Dicta

展开阅读全文