“我，人工智能”专栏 | 破题篇 III：人工智能的子领域

发布时间：2020-06-24

5026

作者 | 周熠

上海脑科学与类脑研究中心

张江实验室脑与智能科技研究院

分而治之。

——俞樾《群经平议·周官二》

• “智能”指出了人工智能的众多方向和子领域。

• 智能行为种类和研究方法论交互作用，形成了人工智能的诸多子领域，包括：计算机视觉、语音识别和处理、自然语言处理、知识表示和推理、知识工程、机器学习、多主体系统、不确定性、约束满足问题求解、行动选择、机器人学等等。

• 除此之外，人工智能和其他学科交叉、融合、渗透，产生很多交叉领域，包括：数据挖掘、人机交互、语义网、信息检索、人工智能行业应用等。

“智能”指出了人工智能的众多方向和子领域。在智能行为的种类和人工智能的研究方法论的相互作用下，形成了人工智能的诸多子领域，诸如：

感知输入部分（视觉、听觉是机器和人共有的主要感知手段）

- 计算机视觉（Computer Vision）：主要采用智能外延的方法论，研究智能体如何处理和理解图像和视频。一些具体的任务包括图像和视频识别、图像和视频理解、物体鉴别与监测、动态捕捉、图像增强与恢复、图像自动生成、图文转换等等。目前，计算机视觉是人工智能在商业上最成功的应用之一。

计算机视觉

- 语音识别和处理（Speech Recognition and Processing）：主要采用智能外延的方法论，研究智能体如何识别和合成语音，实现语音和文字的相互转换等等。语音识别和处理也主要在商业上取得了很大的成功，其效果整体上已经能达到跟人媲美或者更好的程度。

语音识别与处理

- 自然语言处理（Natural Language Processing）：主要采用智能外延的方法论，研究智能体如何处理和理解自然语言。一些具体的任务包括分词、解析、机器翻译、问答、对话、情感分析等等。不少专家认为自然语言处理和理解极有可能成为人工智能下一个商业应用的突破口。

自然语言处理

智能体部分（知识、学习、问题求解、不确定性、多主体等是其中的核心内容）

- 知识表示与推理（Knowledge Representation and Reasoning）及知识工程（Knowledge Engineering）：虽然这两者都是关于知识的，但由于研究方法论的不同，而形成了两个相关但不太一样的领域。知识表示与推理采用智能内涵的研究方法论。前文中提到，把智能解释为“对知识和技巧的获取和使用”，那么理论上，如果我们能够把智能体所拥有的知识用机器能够理解的语言表示出来，然后通过机器自动推理来使用这些知识，人工智能岂不是可以实现了？这个朴素的想法是如此简单且诱人，所以知识表示和推理一直是人工智能（特别是前30年）的核心子领域之一。

而知识工程有所不同，它主要采用智能外延的研究方法论，从应用出发，研究如何构建和使用大规模知识库。20世纪80年代的专家系统（Expert System），本世纪初的本体论（Ontology）和语义网（Semantic Web），以及近期的知识图谱（Knowledge Graph）都是知识工程的典型代表。

知识表示与推理

- 机器学习（Machine Learning）：当前在机器学习领域，智能外延的方法论占主导地位，主要研究机器如何从数据中学习。因此，数据在机器学习中起着至关重要的作用。机器学习关心如何从给定数据中近似学习一个函数。函数（function）即是一个功能体，实现“把输入转换成输出”的功能，广义上来说，很多问题都可以抽象表示成函数，如：语音识别，其输入为音频，输出为文字；围棋，输入为棋盘当前状态，输出为可选的落子；人脸识别，输入为不同人脸图像，输出为人的身份。而<输入、输出>对，就是数据。根据数据的不同特性，机器学习可以大致细分为监督学习（Supervised Learning）——有完整的输入输出对、无监督学习（Unsupervised Learning）——数据仅有输入而无输出、半监督学习（Semi-supervised Learning）——数据介于前两者之间、强化学习（Reinforcement Learning）——数据不是一步的输出，但在多步输出之后有奖惩。

但是机器学习也可以从智能内涵的方法论来解读。除了显式地把智能体抽象成为知识之外，另外一条实现人工智能的思路是通过成长和学习。一开始智能体的能力不需要太强。但是，如果智能体能够从与环境的交互中不断增强自己的能力，就如同人类学习一样，那最终智能体可以复现各种智能。注意到在智能体与环境的交互图中，智能体从环境中感知信息，这些信息也包括环境对智能体行为的反馈，而这些反馈能够有效地帮助智能体学习。

机器学习

- 多主体系统（Multi-agent Systems）：在智能体与环境的交互图中，所展示的仅仅是一个单一的智能体与环境的交互。事实上，人是社会性动物，我们的相当多智能行为需要和其他人交互（包括协作、协同和竞争等），例如足球、选举等。社会学和经济学等领域的众多研究表明，群体体现的智能并不简单等于其中个体智能的简单叠加。因此，平移到人工智能上来，这个问题就变成了：如果环境中包括多个智能体，那么这些智能体与环境以及这些智能体之间如何更好地交互？目前多主体系统主要还是采用智能内涵的研究方法论。

多智能体系统

- 不确定性（Uncertainty）：主要采用智能内涵的方法论，研究机器如何在各种假设下处理不确定性，如环境感知的不确定性、行动后果的不确定性、推理本身的概率等等。

- 约束满足问题求解（Constraint Satisfaction Problem）：主要采用智能内涵的方法论，给定一些变量的约束条件，找到一组变量的解以满足所有这些条件。其中，命题逻辑可满足性问题也是特殊的一类约束满足问题。

行动输出部分

- 行动选择（Action Selection）：主要采用智能内涵的方法论，研究智能体如何选择更好的行动。根据不同的假设和技术手段，又可以分为人工智能规划（AI Planning）、行动推理（Reasoning about Action）、决策论（Decision Theory）、马尔可夫决策过程（Markov Decision Process）、反应式系统（Reactive System）等等。

行动选择/决策

- 机器人学（Robotics）：严格意义上，机器人学是和人工智能平行的一个分支，是人工智能与机械制造业的交叉。智能体需要与环境进行交互，这种交互既需要通过具体的硬件实现，也需要通过软件来操控。简而言之，机器人学管硬件，人工智能管软件。在早期，由于机器人学和人工智能的发展都没达到一定高度，两个领域相对较为独立。随着技术的发展，两者的融合趋势也越来越明显。

机器人

按照上面的思想，我们不仅可以把人工智能的现有子领域归类并指出其来龙去脉，而且我们也可以发现新的人工智能方向。比如在感知输入部分，人有五感，视、听、触、嗅、味。而前面提到的人工智能感知部分主要集中在视觉和听觉等，也就是说，如果机器人也有触觉、嗅觉等传感器，人工智能也自然会相应产生计算机触觉、计算机嗅觉等方向。之所以这些方向没有成为人工智能的主流，只是因为目前机器在触觉、嗅觉和味觉的传感相对较为弱势而已，并不代表它们就不是人工智能的研究范畴。对智能体部分而言，也是类似。例如，在人类智能行为中，时间和空间信息特别重要，因此，也会有对应的人工智能关于机器如何处理时空信息的子领域。

除本身的子领域之外，人工智能不可避免地和其他学科交叉，产生了一些重要的交叉领域，主要包括：

- 数据挖掘（Data Mining）：人工智能和数据库的交叉。数据库中包含大量的数据，而这些数据中隐藏着很多有用的信息和知识。数据挖掘正是研究如何从数据库中挖掘出这些信息和知识。因为这些挖掘的手段很多都与机器学习相关，所以数据挖掘和机器学习结合尤为紧密。

数据挖掘

- 人机交互（Human-Computer Interaction）：人工智能和系统设计的交叉，主要关心如何设计出更加对用户友好、方便用户使用的系统界面。由于对于一般用户来说，系统界面很大程度上代表了系统本身，所以人机交互在应用上面显得尤为重要。其中，人工智能的诸多技术，如语音识别等，有很大用武之地。

人机交互

- 语义网（Semantic Web）：人工智能和万维网（World Wide Web）的交叉。早期的万维网是基于语法的。机器能在语法层面做搜索等操作，但是并不能理解万维网中蕴含的海量信息和知识。20世纪末到21世纪初，万维网联盟提出了语义网的概念，意图在万维网上更多的加入语义的元素从而使机器能够自动处理更多的事情。

语义网

- 信息检索（Information Retrieval）：主要研究用户如何更高效检索需要的信息，这些信息隐藏在万维网、杂志、书本等等之中，往往以文本的方式存储，也包括图片、视频、音频等等。在初期，信息检索主要关心语法层面的信息搜索，和人工智能还有一定距离。随着需求提升，用户还期望将检索来的信息进行加工整理。这就需要对信息进行某种语义层面的处理。从而信息检索和人工智能，特别是自然语言处理和知识工程，关系越来越密切起来。

信息检索

- 人工智能行业应用（AI in X）：主要关心人工智能在具体垂直领域X中的应用，包括教育、医疗、金融、司法、社交网络、电商等等。重要的应用有个性化推荐系统（Recommender System）等。

以上列举了很多人工智能以及其交叉的重要领域和方向，但它们无法囊括人工智能的各方各面。一些未列出的方向也相当有意义，不单独拿出来提及只是由于目前关注的人相对较少。例如，算法信息论（Algorithmic Information Theory），其关心的基本问题为测量一个01字符串所含的信息量以及对下一位字符的预测，这也许能为人工智能提供另一思路。这里，我们也没有把通用人工智能（Artificial General Intelligence ）单独列出来作为一个子领域，其主要原因在于它目前所提出的愿景和独特的技术与人工智能早期并无显著差异。

虽然我们分开介绍了上述领域，但是，这些领域本身深度融合和交叉。很多工作有可能横跨一个或多个领域。例如，在计算机视觉和语音识别领域，当前主要使用的技术都是深度学习。而这些领域，都是从不同角度出发得到的人工智能不同侧面；需要把它们整合起来，才能更好地看到人工智能的全貌。另外，这些领域是有机联系在一起，而非对立的。不是说机器学习和知识表示与推理就是两个完全不同的领域。相反，我们应该更多地思考它们之间的联系。诚然，受限于技术的发展，目前处理它们的技术在原理假设上就很难相容。但是，这正是人工智能亟需解决的最重要的问题之一。

作者介绍

周熠，现任张江实验室脑与智能科技研究院/上海脑科学与类脑研究中心认知智能研究组课题组长，研究员，中国科学技术大学兼职教授。研究方向为认知人工智能，主要的研究兴趣为如何受脑启发，深度融合基于逻辑的符号流派和基于神经网络的连接流派，及其在认知人工智能领域中的应用，包括AI+教育、自动智商测试、智能语言处理等。

由于微信公众号试行乱序推送，您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散，请将“墨子沙龙”设为星标账号，以及常点文末右下角的“在看”。

这里是墨子沙龙——中国科学技术大学上海研究院于2016年起开始举办的公益科普论坛，致力于专业、权威、有深度的沙龙科普活动，每月一次，邀请国内外知名科学家为大家讲述科学那些事。关注墨子沙龙，我们在这里等你来。

授权或合作请联系微信号MICIUS-SALON或mozi@ustc.edu.cn，转载微信原创文章可直接后台回复“转载”查看转载说明

墨子沙龙是由中国科学技术大学上海研究院主办、上海市浦东新区科学技术协会及中国科大新创校友基金会协办的公益性大型科普论坛。沙龙的科普对象为对科学有浓厚兴趣、热爱科普的普通民众，力图打造具有中学生学力便可以了解当下全球最尖端科学资讯的科普讲坛。

关于“墨子沙龙”