大市中国

大市中国 > 宏观 >

桑德霍姆:为什么不能用AI来改善自己的战略逻辑?

2017-11-07 08:47:00

 

来源:财新网

【财新网】(记者 李明明 张榆)“完美信息和非完美信息的游戏两者本质不一样,AlphaGo所应用的技术不可以应用到扑克游戏里面”,在11月6日举办的京东金融全球数据探索者大会上,卡耐基梅隆大学计算机系教授、德扑AI之父托马斯·桑德霍姆探讨了“超人类”的AI技术如何进行战略性的分析和推理,并接受了财新记者专访。

AlphaGo的训练过程一直被视为是基于大数据的深度学习,但桑德霍姆认为,人工智能不光局限于此,还有一些新的技术和领域,成为战略性逻辑,是战略博弈的一部分。

桑德霍姆表示,AlphaGo的技术可以用于所有完美信息游戏。所谓完美信息游戏,是指双方都掌握对等信息的游戏,在其中,一个大游戏可以分解成各小的子游戏,机器通过别的子游戏的结论就可以学习。比如在防御的时候,只用观察其中的一步怎么样做,就能学习,比如围棋游戏。

而在非完美信息的游戏中,玩家并不知道对手手中是什么牌,所以在一个子游戏学到的,无法用于另一个子游戏,比如德州扑克。

“我不知道我的扑克对手的以往的行动,他也不知道我的,我们也不知道对手背后的盘算,对手的行动对我有怎样的启示?我怎样通过对手的行动来推测到背后的动机,我的行动泄露了我的哪些意图?” 桑德霍姆以德州扑克游戏为例,描述了会遇到的各类复杂情形。

桑德霍姆团队开发的冷扑大师Libratus在与真人对打的扑克牌比赛中,打败了诸多德州扑克高手,其中包括中国的龙之队。

桑德霍姆详细介绍了冷扑大师运行背后设计的原理,采用了他们已验证正确的技术,并没有采用基于大数据的深度学习。他表示,冷扑大师是从零开始学习德州扑克的,主要是在了解既定的游戏规则之后,依靠自我的对局来学习,“好像是对着镜子给自己进行拳击,然后突然跳起来飞踢(拳王)泰森”。因而,冷扑大师的打法并不跟AlphaGo类似,是不靠人类经验的,而更多的是“博弈”的过程,并能够根据对手的行为,来发现战略漏洞,进行“自我改善”。

在现实生活中,类似围棋的“完美信息”场景是少见的,更多的是类似德州扑克这种“非完美信息”场景,充满随机性和信息隐匿。机器如果能够“战略博弈”,可能被更多被用于现实。桑德霍姆提出了几种被运用的可能性,如在定价中,可以根据竞争对手的价格变化,来进行战略性定价;在拍卖活动中,在没有人知道底价的情况下,进行合理的竞猜;对于电影版权,帮助流媒体公司构建更好的视频流组合,进行更好的谈判。此外,还可能运用到的领域涵盖驾驶规则管理、患者健康管理等。

桑德霍姆对财新记者表示,“我们为非完美信息游戏制定的这种战略推理(stragetic reasoning)在金融领域有许多的应用,尤其是对投资组合经理(portfolio manager)交易,在建立产品组合和执行交易的时候,都需要战略推理。因为当进行大型交易的时候,其实是将市场放在了对立面。”

“我们使用眼镜改善我们的视力,为什么不能用AI来改善自己的战略逻辑呢?” 桑德霍姆说。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。