AI技术不止于大数据 未来或还能“战略博弈”
【摘要】在未来,AI能不能用来改善人类的战略逻辑?AI技术必须要依靠大数据吗?
金评媒(https://www.jpm.cn)编者按:在未来,AI能不能用来改善人类的战略逻辑?AI技术必须要依靠大数据吗?
“完美信息和非完美信息的游戏两者本质不一样,AlphaGo所应用的技术不可以应用到扑克游戏里面”,在11月6日举办的京东金融全球数据探索者大会上,卡耐基梅隆大学计算机系教授、德扑AI之父托马斯·桑德霍姆探讨了“超人类”的AI技术如何进行战略性的分析和推理,并接受了财新记者专访。
AlphaGo的训练过程一直被视为是基于大数据的深度学习,但桑德霍姆认为,人工智能不光局限于此,还有一些新的技术和领域,成为战略性逻辑,是战略博弈的一部分。
桑德霍姆表示,AlphaGo的技术可以用于所有完美信息游戏。所谓完美信息游戏,是指双方都掌握对等信息的游戏,在其中,一个大游戏可以分解成各小的子游戏,机器通过别的子游戏的结论就可以学习。比如在防御的时候,只用观察其中的一步怎么样做,就能学习,比如围棋游戏。
而在非完美信息的游戏中,玩家并不知道对手手中是什么牌,所以在一个子游戏学到的,无法用于另一个子游戏,比如德州扑克。
“我不知道我的扑克对手的以往的行动,他也不知道我的,我们也不知道对手背后的盘算,对手的行动对我有怎样的启示?我怎样通过对手的行动来推测到背后的动机,我的行动泄露了我的哪些意图?” 桑德霍姆以德州扑克游戏为例,描述了会遇到的各类复杂情形。
桑德霍姆团队开发的冷扑大师Libratus在与真人对打的扑克牌比赛中,打败了诸多德州扑克高手,其中包括中国的龙之队。
桑德霍姆详细介绍了冷扑大师运行背后设计的原理,采用了他们已验证正确的技术,并没有采用基于大数据的深度学习。他表示,冷扑大师是从零开始学习德州扑克的,主要是在了解既定的游戏规则之后,依靠自我的对局来学习,“好像是对着镜子给自己进行拳击,然后突然跳起来飞踢(拳王)泰森”。因而,冷扑大师的打法并不跟AlphaGo类似,是不靠人类经验的,而更多的是“博弈”的过程,并能够根据对手的行为,来发现战略漏洞,进行“自我改善”。
在现实生活中,类似围棋的“完美信息”场景是少见的,更多的是类似德州扑克这种“非完美信息”场景,充满随机性和信息隐匿。机器如果能够“战略博弈”,可能被更多被用于现实。桑德霍姆提出了几种被运用的可能性,如在定价中,可以根据竞争对手的价格变化,来进行战略性定价;在拍卖活动中,在没有人知道底价的情况下,进行合理的竞猜;对于电影版权,帮助流媒体公司构建更好的视频流组合,进行更好的谈判。此外,还可能运用到的领域涵盖驾驶规则管理、患者健康管理等。
桑德霍姆对财新记者表示,“我们为非完美信息游戏制定的这种战略推理(stragetic reasoning)在金融领域有许多的应用,尤其是对投资组合经理(portfolio manager)交易,在建立产品组合和执行交易的时候,都需要战略推理。因为当进行大型交易的时候,其实是将市场放在了对立面。”
“我们使用眼镜改善我们的视力,为什么不能用AI来改善自己的战略逻辑呢?” 桑德霍姆说。
(编辑:杨少康)
来源: 财新网 李明明 张榆
财经360
- 情报 | 软银旗下Arm 计划9月IPO;松下宣布清算LCD面板子公司;大众旗下捷达品牌或购零跑技术平台
- 情报 | 每日优鲜被约谈;百度无人车起步价16元;映客已申请上百条映宇宙商标
- 情报 | 特斯拉年底前或推出新降价手段;法拉第未来称FF91今年不会交付;马斯克恐失去世界首富位置
- 情报 | 富途控股预计于12月30日在香港上市交易;蔚来将在 NIO Day 2022 推出全新车型;睿蓝汽车宣布将进行价格调整
- 情报 | 滴滴被罚80.26亿;恒驰5订单数破3.7万辆;字节跳动估值跌破3000亿美元
- 情报 | 威马车机App暂停服务;Mate 60系列供应商回应涨价;网易有道推出虚拟人口语教练Hi Echo
- 情报 | ofo被恢复执行2276万;青年汽车资产被拍卖;特斯拉中国降价3天获3万订单
- 情报 | 腾讯成立职业技能培训学校;广汽菲克破产4S店已无售后;法拉第未来宣布达成1.35亿美元融资
- 情报 | 预计2023财年微软将裁员1.1万人;宁德时代上半年营收几乎等于整个韩国电池行业;马斯克称汽车行业两年内或从缺硅变缺电
- 情报 | 蚂蚁集团拟回购不超7.6%股份;我爱我家杭州分公司所有高管均被停职;特斯拉呼吁收紧史上最严排放标准