在办公室里,那些常年和各类表单打交道的文员们总戏称自己为“表哥、表姐”。这些表单常常很套路,要填好它们却往往耗时耗力,一不留神就会犯错。
人类已经进化到了21世纪,居然会被表单束缚住生产力?
开玩笑。
在今天举行的自然语言处理学术交流研讨会上,记者感受到了另一种可能。
只见操作人员按下了“神奇一键”后,计算机自动开始跑程序,自动开始阅读文档内容、抽取核心信息,并把这些信息罗列出来,自动完成各种表单填报。
人类要花几小时才能完成的工作量,交给机器,只要几分钟,准确率还能高达98%。
凡是有套路的文档内容,都可以这么操作。包括:招股说明书、上市公告、基金合同、保险条款、银行借款合同、采购合同等等。
这套技术的提供方达观数据CEO陈运文介绍说,基于这套技术,他们还开发了一套机器人流程自动化系统,它可以与原有的办公系统链接融合,员工不用再额外多操作什么,只要点开系统界面,从打开文档、读取信息、再到填写表单形成报告甚至发送邮件,这些都可以由系统自动完成。
彻底把人类从键盘那里解放出来。
说到这里,很多人就搞不懂了,软件是怎么理解语言的呢?
其实,这门被称之为自然语言处理的技术难度是相当大的,它被称之为人工智能皇冠上的明珠。
中国科学院自动化所副研究员刘康举了一个例子。外交部发言人华春莹说“孟晚舟事件是引渡条约滥用,敦促美方纠正”,机器要如何理解这句话呢?首先,机器必须知道华春莹是谁、孟晚舟是什么样的事件。同时,还需要了解一定的背景材料,比如,外交部是何机构等等。“这些背景知识大量存在于文本中,可如何用计算机语言来解释这些背景材料仍然是科学中面临的问题,目前,还没有很好的方法把这些背景知识精准地表现出来,更不要说把它们提取出来。”刘康说。
其实,在过去,科学家们普遍采用规则方法或统计学习的方法来处理自然语言,一直到人工智能技术出现后,人们才开始用更高维的方法来处理自然语言。复旦大学计算机科学技术学院副教授邱锡鹏表示,以颜色为例,如何让机器来理解颜色?其实可以通过0到255不同RGB数值来表示。
不过,虽然有了新技术,但如何让自然语言处理技术走向产业应用仍然是一道难题。
众所周知,人工智能技术需要大量的数据作为训练,可在运用时这些技术却很难找到数据。“我们曾经服务一家中国知名大型企业,他们认为他们的数据也是需要保密安全的数据。这些数据是不方便给我们工程师看的,但是看不到数据系统怎么用呢?”陈运文表示,目前,公众对人工智能还是缺乏认知,对人工智能内部运作的原理并不清晰。其次,目前企业的大量数据处于非标准化状态,企业内部各系统孤立等问题都需要一一解决。“将自然语言处理的学术思想和工程实践相结合,实事求是的选择方法解决问题,才能真正发挥它的价值。”陈运文强调说。
据悉,此次活动是纪念中国科学院院士、中国人工智能学会名誉理事长吴文俊先生诞辰100周年系列活动之一,由浦东新区科学技术协会主办,达观数据联合中国人工智能学会自然语言理解专业委员会共同承办。
作者:金婉霞
编辑:金婉霞
责任编辑:张鹏
*文汇独家稿件,转载请注明出处。