科技魔方

人工智能皇冠上的“明珠”:自然语言处理

人工智能

2019年09月26日

  据外媒报道,美国的Facebook最近在自然语言处理(Natural Language Processing,简称NLP)方面取得了重大突破。Facebook通过使用半监督和自监督学习技术,利用未标记的数据来提高纯监督系统的性能,正在构建一种新型的分布式平台SuperGLUE。有关专家认为,这项成果将进一步推动NLP领域的研究进步;而NLP的研究进步将会推动人工智能整体进展。

  NLP被誉为人工智能皇冠上的“明珠”;它大体包括了自然语言理解和自然语言生成两个部分,实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等,前者称为自然语言理解,后者称为自然语言生成。NLP是计算机以一种聪明而有用的方法来分析、理解和从人类语言中获取意义的一种方式。它是人工智能领域中的一个重要方向,它已成为人工智能技术的核心领域。

  NLP研究的内容包括但不限于如下分支领域:文本分类、文本生成、文本分析、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、语音识别与合成等。用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。随着NLP技术的发展和应用,人机协作的未来有很大想象空间。

  在全球范围内,具有一定NLP能力的实用系统已经出现,有些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。我国的百度、腾讯、京东、阿里巴巴、科大讯飞等都有涉及NLP的业务,另外还出现了爱特曼、出门问问、思必驰、蓦然认知、三角兽科技、森亿智能、乂学教育、智齿客服等新兴企业。可以说,NLP的应用无处不在,因为人们用语言进行大部分沟通:网络搜索、网络游戏、广告传播、语音识别、语言翻译、电子邮件、手机微信等。

  无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是十分困难的。从现有的理论和技术现状看,通用的、高质量的NLP系统,尤其是应用软件,仍然是较长期的努力目标。就像我国著名学者周海中教授曾在《自然语言理解的研究历程》一文中指出的那样:“虽然现今市场上出现不少可以进行一定自然语言处理的商品软件,但要想让机器能像人类那样自如地运用自然语言,仍是一项长远而艰巨的任务。”造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性;这是有待进一步研究的重点课题。

1.jpg

  由于机器尚不具备“背景知识”和“世界知识”,当人和机器进行交流时,歧义现象就表现得尤为突出。NLP的关键就是如何识别与消解自然语言的歧义。首先,根据自然语言分词结果与实际环境辞典库计算语言信息与实际环境的映射关系,确定出语言中所涉及的实际环境,利用模型排序算法将实际环境排序,接着运用实际环境事实库补充完善环境省略信息,并根据实际环境知识库拓展相关信息,使用上下文信息补充模糊信息;其次,依据实际环境辞典库,对补充后的语言信息进行二次分词,提升分词结果与实际环境的贴合度,降低分词歧义;再次,利用自然语言语义解析,解析出语义搭配关系,给出理解结果,将可执行结果通过输出端展现给用户;最后,确定疑问信息并重新对话,以获取模糊信息或问题的准确信息。这样做还可以为歧义消解提供有用的条件,这些条件包括再分类、句法制约条件、语义制约条件等。

  NLP目前已成为各类企业及开发者用于文本分析及挖掘的核心工具,并广泛应用在电商、金融、物流、文化娱乐等行业客户的多项业务中。它可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品,也能够通过合作,定制个性化的解决方案。NLP技术助推各行业催生的新产品为生产力带来了质的飞跃。由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以NLP也被视为解决强人工智能的核心问题之一,其未来一般也因此密切结合人工智能发展,尤其是设计一个模仿人脑的神经网络。

  人类语言(自然语言)经过数千年的发展,已成为一种微妙的交流形式,承载着丰富的信息,这些信息往往超越语言本身。NLP将成为填补人类通信与数字数据鸿沟的一项重要技术,并将推动着语言智能持续发展和突破。

  (作者:吴连登 作者单位:哈尔滨工业大学计算机科学与技术学院)

+1

来源:科技魔方 作者:吴连登

推荐文章