强化学习——关于行动的智能 |俞扬

发布时间：2023-05-31

3891

（以上是“墨子沙龙X 2023年科技节”的报告回放。基于报告内容所整理的科普文章也将会在近日推出。）

内容概要：

ChatGPT这样的大语言模型之所以演变成今天这样强大的样子，与它的学习能力密不可分。那么，机器是怎么学习的呢？

事实上，机器学习原本并不是人工智能最受关注的研究方向，它的蓬勃发展缘于上世纪九十年代之后人们对于人工智能效率的需求——希望机器可以自主地从原始数据中提炼知识，而不是总等着人们总结好了再被动“投喂”。

如果我们把机器学习比作小学生的日常学习，可以将机器学习分为三类——做完了可以对比答案的练习叫做监督学习；做完了可以得到一个评分的作文叫做强化学习；而既无答案也无评分的课外阅读就相当于无监督学习。

强化学习的过程与训练生物执行指令的过程很相似，都是利用奖励，让智能体自己摸索应该如何执行任务。在变化万千的强化学习算法中，万变不离其宗的方法就是“试错”。智能体在环境中作出各种行动策略，得到不同的奖励，在反复的试错中，机器找到了最好的答案。而研究人员，则需要把这些过程用数学的语言描述出来，并在计算机中加以实现。

从1992年至今，机器学习在各种棋牌类游戏上，展现出了足以挑战人类甚至远超人类的强大能力。

具体到时下最流行的大语言模型，强化学习正发挥着越来越重要的作用。机器可以通过人类的打分，自己摸索出一个打分模型，当机器可以自己对自己进行打分，它就可以不断调整自己以使评分增加，也即形成“自我进化”。

而到目前，强化学习的发展还远远不能尽如人意。未来，强化学习将不仅仅被用在“动动嘴皮”，人们需要它在行动上也可以自我进化，在实际活动中服务于现实的生活和生产；在效率的提高上也亟待加强，未来，希望机器可以不用经过很多次的反复训练，就能找到正确的那个答案。

俞扬，南京大学人工智能学院教授，主要从事机器学习、强化学习的研究工作，工作获4项国际论文奖励和3项国际算法竞赛冠军。入选国家青年人才计划、IEEE AI's 10 to Watch，获CCF-IEEE青年科学家奖，首届亚太数据挖掘“青年成就奖”，并受邀在国际人工智能联合大会 IJCAI 2018上作“青年亮点报告”。