从大自然寻找灵感 启迪人工智能研究
- 来源:中国高新科技 smarty:if $article.tag?>
- 关键字:人工,智能,发展 smarty:/if?>
- 发布时间:2021-01-01 09:20
随着人工智能的发展,对话机器人可以更多理解人的意图,在日常生活和工作中给人以切实帮助,大大提高社会生产效率和生活质量。阅读大量文献的机器人不仅可以帮助人们回答日常问题,还可以为科学文学研究提供便利,以及帮助政府企业进行大数据分析,预测市场和将来可能发生的社会事件。让计算机像人类一样理解语言和使用语言,一直是西湖大学特聘研究员张岳追求的研究梦想。
创造方法 打破科研瓶颈
张岳是一个拥有积极进取精神的人,在其学习科研道路上总是努力尝试寻找完成工作的最好办法,因为张岳坚信方法总比问题多,即使再困难、再复杂的问题只要你不断思考,就有可能找到最好的解决方法。2003年张岳以优异的成绩考入清华大学,“清华”高手如云,在学习方面,张岳总是精益求精。“我相信良好的课业成绩是科研工作的基础,更是学习态度的体现,完成课程要求所需要的踏实、认真的品质也是科研工作的根本。”正是这种学习态度,让张岳在清华计算机系读本科的过程中,积累了扎实的理论和编程基础。
如果说本科是张岳基础量变的积累,那2009年开启的牛津博士征程则是他从量变到质变的飞跃,也是从那时起,张岳开始追寻受到人类语言理解启发的人工智能语言处理。因受到人脑启发,张岳一直跟随神经网络的发展。在张岳读博士最初的日子里,由于计算机计算能力的限制,张岳选择了运算速度较快、运算量较低的单层线性感知机模型作为主要的研究工具,进行机器学习的算法研究。张岳的研究工作从中文的词法、句法分析开始,逐渐发展到中文和英文的句法分析、信息抽取、文本生成、机器翻译等任务,覆盖了自然语言处理的大多数领域。张岳研究的主要是方法,是机器如何取法人类,进行语言的理解和运用。在张岳读博士的期间,动态规划等精确搜索算法是解决句法分析等自然语言处理任务的主要方法。这些方法运算效率较低,而且对算法能够使用的信息范围有较大的限制。受人类从左向右的阅读习惯启发,张岳研究了一套用机器学习去引导近似搜索的方法,解决了传统方法速度和精确度之间的内在矛盾。这套方法在句法分析上,2013年取得了比伯克利句法分析模型和斯坦福句法分析模型速度快15倍以上、精确度更高的佳绩。随着计算机算力的提高,多层神经网络的运算时间大大降低,张岳从2013年开始把研究重点从单层的感知及模型转向了深度学习,开发了上述机器学习引导搜索算法的神经网络版本,受到了工业界和学术界的关注。这些算法的普遍性,让它们可以用于解决自然语言处理中的大部分问题,即结构预测问题。在信息抽取中的实体识别、关系抽取、事件检测、情感分析等任务,以及文本生成方面该方法均得到了学术界领先的成绩。
博士期间的研究成果鼓舞了张岳,让张岳继续追求取法于人类的自然语言处理思路。张岳注意到,人类在解决问题时,不是一个一个地去研究,而是把许多问题联合在一起,举一反三,触类旁通。比如,背诵了古诗词,散文写作的水平也可以提高。这与当时自然语言处理领域各个任务单独研究的传统有所不同。受启发于人类的这个特点,张岳研究了自然语言处理多个任务联合学习的模型,比如中文的分词、词性分析,句法分析的联合模型,信息抽取领域的命名实体识别和关系抽取、情感分析、事件抽取等问题的联合模型。这一系列的任务表明,多个任务联合学习对于机器学习算法也可以在各个任务之间取长补短,获得相互提升。
人类自然语言理解的另一个特点,是进行语言学习的时候,不需要大量的资料,可以通过对少数案例的分析,得出一般性的结论。例如,我们认识了一个生字,把它记住,就可以在不同语境下理解这个生字,不需要重复学习。这是因为在我们的心中形成了概念。然而,基于神经网络的深度学习,在处理自然语言时,往往需要大量的训练数据,进行题海战术。这类似于死记硬背式的学习。这种学习的最大缺点就是当样本改变,比如文字的领域(新闻、社会媒体、小说、科技文献)改变时,对于同样的词汇可能机器又不知道怎样处理了。针对这个问题,张岳的另一项主要研究内容,是探讨鲁棒的神经网络模型,减小对训练数据的依赖,增强不同领域、不同文体、不同规范之间的通用性,以及小样本的学习能力。
执着前行 探索科研新思路
2018年8月张岳以国家高层次人才计划青年项目全职加入西湖大学。至今张岳依旧坚持着人类语言启发的机器学习模型的研究工作。除了坚持上述研究以外,在过去的一年里,张岳开始尝试2种很有意思的研究工作。
首先,人类语言处理的另一个特点,是综合利用背景常识知识,进行语言理解中的推理判断。例如,在人类的对话交流中,存在着大量的省略,双方默认具有相同的基本背景常识,在沟通过程中,不需要重复介绍。张岳近些年尝试如何把人类语言理解中合理运用知识与常识的这一特点,和神经网络模型进行结合,改进自然语言理解性能。张岳探索了一套基于图循环神经网络的表示学习方法,可以对有循环边的图结构进行深度学习表示,方便对知识进行编码,融入语言理解系统。此外,张岳研究了在大规模文本上进行训练的语言模型,如何获取和表示常识内容。今年,张岳还研究了一系列对话系统中常识使用和逻辑推理问题的数据集,以推动相关研究发展。
其次,张岳开始思考如何通过对自然的观察,给人工神经网络以启迪。一方面,由于脑电和近红外等技术的不断发展,探索人类思维过程的种种生物信号,变得越来越可行了。张岳和中国科学院心理所等研究机构合作,探索录制人类脑电信号,启发神经网络研究的自然语言处理算法。另一方面,张岳和西湖大学的生物学神经科学专家合作,通过对果蝇的所有神经元和连接的可视化研究,来研究生物神经网络对于记忆和概念形成以及联想的基本方式。
张岳说:“投身于这些基础研究工作,让我感到很充实,做中国自然语言处理事业的奋斗者,为每个人提供更美好、更幸福的生活,这是我的理想,但是路还很长,还有很多工作要做。”所谓,理想虽远,只要步子不停歇,终有向它走近的那一天。
