陈运文:1981年7月生,复旦大学计算机专业博士,达而观信息科技(上海)有限公司创始人及董事长。
科创感言:上海是最好的创业热土,“张江男”踏实肯干。
陈运文的办公室名叫“最大熵”,是一种算法,公司其他房间也都以算法命名,可见他对数学的喜爱。在复旦攻读计算机博士学位时,他想到要把自己的数学天赋用在攻克计算机阅读理解文字上。此后,他一头扎进文本数据的世界,用数学的方式“断文解字”。
今天,他荣获2018年度上海市青年科技杰出贡献奖。
2015年,他创办达而观信息科技(上海)有限公司(下称“达观数据”)。眼下,已有几百家企业正在使用达观的语义理解人工智能产品:一份上市公司的招股说明书,几千页厚、上万个数据,以前需要一支专业团队写上几个月,现在一个小时就能搞定;国家知识产权局每年400多万件专利的审核资料,是用达观的系统完成的;华为公司每年有超过数万份的合同文件,达观的算法可以帮助识别其中的错别字、核对前后数据、识别潜在法律风险等……2018年,达观数据获得我国人工智能领域含金量最高的“吴文俊人工智能科学技术奖”。
“读书破万卷,下笔如有神”对机器同样适用
从甲骨文到电脑打字,汉字已经发展了3000多年,无论它的样式发生了多少变化,但仍属于“人的工作”的范畴。有没有想过有一天,人工智能可以帮你解决阅读、理解和写作的问题?陈运文怀揣着这样的梦想。
陈运文说,迄今为止,文本智能处理已经走过了符号主义、语言规则、统计学习、深度学习四个阶段。在去年底斯坦福大学推出的考验阅读理解能力的SQuAD大赛上,计算机的英文阅读能力首次超过人类,这意味着人们距离1956年达特茅斯会议上麦卡锡、香农等人提出的人工智能要协助人类“断文解字”的目标,已经很接近了。
和英文相比,计算机“理解”中文更难。中文常有主谓宾互换、倒装等灵活多变的语法结构,包含着许多成语典故等文化内涵,仅一个“断词”,就难倒了一群人。陈运文解释说,英文单词之间是有空格的,计算机很容易识别出这是一个词,但中文却由一串字组成,哪几个字是词语,计算机弄不明白。
比如,如何让计算机知道“陈运文”是一个名字呢?他让计算机熟读百家姓,这样当计算机再次读到“陈”这个字时,就知道它可能是一个姓,再通过“喂食”大量文本,计算机可以用统计学的办法留意到人名搭配的词语,经反复练习后,当计算机再次看到“陈运文”时,就知道这是一个名字了。“古人常说‘读书破万卷,下笔如有神’,我们发现,这句话对计算机非常适用。”陈运文说。
做有意思的事,越做越有意思
创办达观数据之前,陈运文曾在盛大文学、腾讯文学、百度等公司工作过,是国内互联网产业的第一批“弄潮儿”,有过数不清的创业机会。早在2011年,他所在的大数据团队就开发出了一套个性化的新闻推荐系统。
2015年,他辞去百万年薪的工作选择创业。那时,他的身边已经有了一支好团队,团队成员曾在各种世界计算机程序大赛上披荆斩棘。“我们四年间写了两三百万行代码。”这意味着,团队已建立起一个全新的文字坐标系,其中,一个普通词语就有感情力、关系力、注意力等上万个纬度,这使得它已经能够帮助人类处理许多复杂的日常工作。
“文字这个东西,越做越有意思。”陈运文说,他还有更大的目标,希望未来5到10年国内一半的企业能用上他们的系统。他更希望为普通消费者研发能够处理文本的“小秘书”——它能帮你润色文章,甚至只要告诉它提纲,就能帮你写出一篇思路清晰的文章。
作者:记者 沈湫莎,图片由受访者提供
编辑:金婉霞
责任编辑:任荃、姜澎
*文汇独家稿件,转载请注明出处。