102 格斗定义(1 / 2)
“现在强化学习在机器人领域的应用也越来越广,不过目前还没有产生如同当年阿尔法狗或者最近chatgpt问世后产生的巨大效果,包括这几年最厉害的波士顿机器人主要也不是靠强化学习做出来的。
这其中很大一部分原因是,现实机器人的目标功能各式各样,对每种功能都要设置单独的目标函数,效率太低,而且很多功能的目标函数具体是什么也很难描述清楚,导致强化学习在机器人领域的泛化能力不够。
不过在我们所处的游戏中,在格斗领域,却不一样。游戏中各种物体的物理模型都是理想的,研究其物理运动规律比现实简单了很多,更重要的是,在格斗领域,目标只有一个,即以最小的代价战胜对方,而对应的目标函数就是刚才所讲的总伤害期望函数。
只要目标函数确定,那即便用完全随机求解方式也能求解出最优策略,只要算力够强或者时间够长。
当然,大家也看出来了强化学习模型的总状态空间近乎无限大,而目前我们算力有限,还不足以实时计算出动作策略,因此还不能在实战中使用强化学习程序,所以当前只能像状态机那样在战前计算出动作图表,并且是相对简化图表。
首先要将动作空间减小,每种状态下考虑一类动作即可,然后再靠人手动设定各状态对应动作。这里只需要设定大致动作,然后交由计算机做计算迭代,将动作细化至局部最优即可。
动作设定方式在资料上写了,部分继承了状态机的动作策略,另一部分是新的。这种设定方式难度不大,因为我们不需要找到特别优异的策略,在高机动飞行格斗中只要有效果过得去的策略并照此执行就已经很不错了。
即便如此,用第二类技术能做的飞行格斗动作也远比第一类技术,也就是感性状态机,更全面和细致,比如在感性状态机中防守和进攻动作都只有几类,而第二类技术的防守和进攻动作类别几乎无限,在小半径缠斗中效果会更好。
第二类技术整体模型就是半自动半手动的强化学习模型,他的主要内容集中在状态转移概率模型上面,所需的前置知识也不少,主要包括机器人动力学和空气动力学,在场的机器人团队研究者们应该已经学过,那我们这里只做下整体介绍,具体内容需要看资料,有不懂的问我,另外资料上还包含了对应第二类技术的地面格斗技,也可以看下。”
廖蒙又花了半个多小时将第二类技术前置知识及其应用技术大致介绍了一遍。
“关于第二类技术就介绍到这,大家也不用急着学,因为第三类技术也是一种完整的机器人格斗技术,就算不学第二类技术也行。而相比起第二类技术,第三类技术效果更好,计算量也更小,不过学起来更抽象一些。大家可以听完第三类技术的整体介绍再选择要学哪一种技术。
第三类技术叫做基于几何学的格斗技。在场的研究者应该有来自数学专业的,那你们应该知道研究有度量的对象的学科就是几何学,而作用力就是有明确度量的对象,那么力学也可以用几何学表示。
事实上现实中已经有一本叫做经典力学的数学原理的教材,从几何学角度介绍了经典力学,而我们今天要介绍的内容是具体到格斗领域的用几何表示的力学,基本框架是用现代微分几何的流形来研究格斗。
在介绍之前,需要从几何的角度明确一点,格斗是什么?”
关于格斗的定义是什么大多数人并没有仔细想过,网上查资料也只是简单介绍了句格斗就是搏斗、战斗,没有详细定义,因此在场观众也好奇廖蒙会怎么定义格斗。