? 永利博娱乐场 ,大多数人的意见就是正确的?美科学家开发出纠错新算法-科技世界网 - 太阳城集团游戏娱乐注册
大多数人的意见就是正确的?美科学家开发出纠错新算法
2017-02-10 09:46:36   来源:科学网
内容摘要
群众智慧不靠谱怎么办?美国科学家开发出纠错新算法,这种新算法更有效地找出正确答案的比例高出了21%至36%。它更加善于回答“是”与“非”的问题。

? ? 正确的答案并非总是最受欢迎的那一个。大多数人的意见也有不正确的时候,美国麻省理工学院的科学家就根据这一现象开发出一种新的纠错算法。

? ? 但在有些情况下,这一经典理论将面临着分崩离析的危险。如果你问一群人,费城是不是美国宾夕法尼亚州的首府,大多数人都会错误地回答“是”。这是因为他们知道这样一组事实——费城是宾夕法尼亚州的一座大型城市,而省会城市往往是巨大的。但另一群更少的人会给出正确的答案:哈里斯堡。

? ? 由剑桥市麻省理工学院社会科学家Drazen Prelec率领的一个研究小组在日前出版的《自然》杂志上报告称,一种新的算法可以帮助正确的答案从人群中脱颖而出,即便最流行的答案是错误的也没有关系。

? ? 在这项研究中,科学家要求试验受试者回答一组给定的问题。随后研究人员要求这些受试者猜测其他人会怎样回答这些问题。新的算法之后便会寻找那些“出人意料流行”的答案,抑或是比大多数受试者所认为的更加流行的答案。在大多数情况下,超出预期的答案往往是正确的。

? ??

? ? 两人有限注德州扑克(HULHE)因为玩家的选择比较少可以暴力计算,已经在2015年被Univ of Alberta解决,得到的策略离纳什均衡点非常近了(见这篇文章,发上了Science,AI叫Cepheus,用的方法是CFR+)。

? ? 这次CMU和Alberta用的方法,也和之前的类似,都是Counterfactual regret minimization (CFR)的变种。这次的主要贡献在于:

? ? DeepStack用上了Continuous Resolving,即动态地解子游戏以避开存储海量策略时内存不足的问题,还有值网络;

? ? CMU用了endgame solving以细化状态空间和策略空间,当然他们的文章似乎还没有公布,细节还不明朗(比如说剪枝应该是用上的)。

? ? CFR的思路非常简单,从随机策略开始,每次优化一个玩家的策略以提高其收益并反复迭代,最后取平均策略作为最终策略。每次优化用的是悔恨值最小化(Regret minimization)的办法,所谓悔恨值就是事后最优选择的收益,减去当时选择的收益,悔恨值最小化就是把到目前为止的累计悔恨值拿过来,看哪一步累计悔恨值高,以后就多走这一步,至于多走的概率,有各种算法(比如说Regret Matching和Hedge)。

? ? 对于两人零和游戏,可以证明CFR会收敛到纳什均衡点,也就是“反正我就这么一招,你怎么也破不了”这样的终极招数。所以计算机现在使用的算法,最终目的并不是要利用对方弱点获得胜利,而是找出神功以达到无人可敌的境界。当然要达到这个境界,训练过程中仍然是不断找对方弱点让自己变强。

? ? CFR是个带有理论界的通用算法,说它可以解决一切的非对称信息博弈问题也不为过。但是世界上自然没有免费午餐,在跑CFR的时候,每次都要遍历一次游戏所有可能的状态,而任何一个稍微复杂点的游戏都有指数级的状态,所以运行时间上肯定是不能接受的。

? ? 这就有很多折中办法,比如说状态量化(认为2到9都是小牌用同一个策略处理),剪枝(对方不太可能走这一步,那就不用再搜索下去了),随机采样(采样一些路径以代替全部的游戏分支),函数拟合(比如说用值网络来代替深层搜索),等等。

? ? 总的来说,CFR和几年前的RL很像,都是传统AI的带理论界的老方法,都是在现实问题中有指数复杂度,都是现在渐渐开始深度学习化,所以我相信以后会有更广阔的发展。

(如需转载,请注明来源自 科技世界网
新金沙游戏 澳门新金沙在线 e世博新备用网 葡京现金赌博 澳门新濠天地现金网站
新葡京注册网站 葡京盘口网 龙8国际注册赌场 大发赌博网站 澳门24小时真人百家乐
澳门BBIN游戏平台大全 盛大现金开户 澳门ag真人赌钱app 葡京在线盘口 AG大厅真钱
银河真人赌场app 澳门金沙客户端下载 太阳城亚洲真人赌场投注 沙龙亚洲第一品牌 鸿运官网开户