■葛冬冬
时至今日,很多年轻的学生对大数据与人工智能充满了好奇。不管你今后是否要进入这个领域学习,不管你对大数据和人工智能的认知是怎样的,在你知道了以下这些事实后,至少会意识到一点:年轻的你们不管今后要从事哪个具体领域的工作,都已经无法规避大数据和人工智能对你产生的影响。
斯坦福大学前商学院院长GarthSaloner(高斯·塞隆那) 在临离任前发给MBA学生的推特内容是:“如果你还在学校的话,最应该做的是到工学院去,学习任何和人工智能、深度学习、自动化等相关的知识! 此刻!”
行走在科研前沿,学术界同行已经越来越感到,我们的科研方式在受到大数据的冲击。
按照传统,学术界的人分享科研成果,最主要的方式是期刊(journal) 和会议 (conference)。要在学术期刊发表论文,在如数理、商学等领域,通常要经过一到三年的审稿周期。好的学术会议相比起来算是快的,在计算机科学领域,依然也需要数月的审稿时间。一篇论文从投出去到作者发表演讲、和同行分享,一般要半年时间。
2013年,卡耐基梅隆大学等几个美国著名高校从事人工智能研究的博士们,发起了一个叫做Unconference的聚会。相比于传统的学术会议和期刊,为了更快地交流、分享最新的领域内的进展,这些处于前沿的年轻人觉得需要一个更有效的沟通方式,他们决定举行这种经常性的聚会,形式自由,不提前安排确定的会议议程,主题和内容都由参会者临时决定。
这其实反映了一个常态,我们每个人或多或少都能认知到:世界与以往不再那么的一样,它在改变,速度越来越快。事实上,人类的知识进化,过去几年,正在以一个前所未有的加速度在进行。而这一切的发生,原动力来自于世界的数据化进程加快。相应的,大数据处理技术进化和完善也相当迅速,同时使得建立在此基础上的人工智能技术也进入了一个忽然加速、甚至技术爆炸的时期。
现在的每一天,我们都可以感受到这些改变。当你打开手机,新闻客户端的推送是高度个性化的新闻,这是推荐系统在默默为你拣选你最可能感兴趣的信息。当你走出家门,网约车的出现让你感受到交通的便利和分享经济的实惠。而网约车的背后,则是一个基于整个城市实时交通状况的平台———是它在计算你的呼叫满足方式。在你信用卡的申请里,银行考虑的不再仅仅是传统的金融数据记录,你度假的选择、午餐的方式,甚至于敲击键盘的大小写偏好,都成为对你这个用户分析的一个维度上的数据,进入对你的评估系统。
往外去看,人工智能和大数据带来的社会变革比比皆是。自动化交易系统的进入,使得高盛在纽约现金股票交易柜台的交易员从2000年顶峰时期的600人缩减到今天的2人。波士顿动力公司开发的机器人,已经可以在复杂地形上纵跳如飞。谷歌开发的人工智能选手,已经在围棋人类最复杂的智力游戏上击败人类。卡耐基梅隆开发的德州扑克人工智能,已经在这个兼有博弈与计算的游戏上击败人类世界冠军。而这些智能依然处在一个进化的状态,但是已经越过人类这个奇点,它必然会绝尘而去,将我们彻底抛离。
以数据化形式展开的活动将来会是金融等行业的主流,很多可重复、思想度略低的工作很快会被机器所取代,这个趋势的来临,远比人类预想的猛烈。
在盘点了这些热点事件背后,让我们再来谈谈技术的发展。最近10年来,数据积累的急剧增加和针对数据的全链条技术整体成熟,是催生大数据浪潮以及接踵而来的人工智能热潮的关键因素。粗略来讲,在整个产业和技术链条上,包括了数据的提取与清洗 (网络爬虫,结构化),存储与读取 (大数据架构系统/数据库技术),规律分析与挖掘 (统计学习/机器学习/深度学习),建模与计算 (优化算法/并行计算软硬件技术),再到实际对接多个应用领域。
这其中,硬件和系统进步非常重要。例如,Spark,Hadoop等使得并行存储和计算前所未有得容易实现;GPU在并行计算的成熟,使得人工智能的很多大规模并行计算任务,特别是深度学习等算法,可以以更低代价更高效快速执行。计算和建模技术的进展,特别是机器学习 (去年以来热点迁移到了深度学习) 在GPU并行计算等硬件支撑下,结合大数据处理技术快速兴起,使得极多的传统实际问题的解决方式,可以被机器学习在足够数据训练下更精确的结果和更简单的建模方式击败。暴力美学,一至于斯!
这些趋势,在很多细分领域已经非常明显。这些领域纷纷根据自己需求,启动相应的研究。例如,在企业运营中,电商巨头京东去年底提出“智慧供应链”,对供应链管理的几个关键核心,从运用机器学习和运筹优化技术,建立起基于数据驱动的智能分析系统,包括了根据历史与环境自动智能定价系统,实现自动补货和调货的智能库存系统,物流中的无人仓机器人智能系统等。
在金融领域,突破了传统意义的金融模型,基于更广泛大数据的征信系统、风控系统,已经广泛地被运用在国内多个银行。有更多财经的事务,包括个人理财、资产管理,会计等———这些本来的白领工作,即使看上去似乎有一定复杂技术,但因其具有重复性,大趋势已经显示,非常大的工作份额会被人工智能吞噬。
再如区块链,比特币即为区块链的一个初级应用形式。比特币是用来交易的,而之前的任何一种交易,在数字化之后,怎么样让它安全稳定、怎样省略中间复杂的程序才是人类关注的重点。区块链完美解决了这个问题,比如原来要盖数十个章、写几十个文档的跨境贸易,应用区块链后可以做到瞬时反应、电子文档瞬时生成,电子签章很难被破解也很难被伪造和篡改。
在企业生态上,大数据和人工智能产生的具体影响,体现为商业巨头与创业者齐飞竞争的态势。
去年开始,从美国到中国,几乎所有的热点大公司,都开始了自觉自发的转型:向科技公司,或者以科技驱动的××公司努力。事实上,这些公司在人才的积聚和技术的积累上,有着自己雄厚的先发优势和资金优势。全面地如提出“新零售”概念的阿里、旗下科技驱动的金融公司蚂蚁、物流公司菜鸟、在语音识别领域独步天下的科大讯飞、无人机领域世界第一的大疆,都已经在向行业巨头进化。
小的创业公司更是如火如荼,如斯坦福运筹与优化算法背景的智能商业公司杉数科技,清华交叉信息学院创业背景的视觉识别公司Face++,香港中文大学教授创业的商汤科技等,都带有浓厚的学术气息。
业界拥有雄厚的资金和高水平的科研氛围,这使得人才的天平正严重地向业界倾斜。
这一轮浪潮,使得人工智能,甚至相关的大数据、统计、运筹优化,计算机等多个学科都成为了抢手的存在。一个非常明显的趋势就是大公司对相关知识重视程度前所未有。
公司内部的研究团队,如微软、谷歌、百度、腾讯等,都有自己的研究院,很多担任着引领行业科技发展的角色。而且因为其拥有丰富的数据资源和实际背景,使得传统上学界掌控科技前沿的状况,已逐步演变为学界和业界互相促进互相竞争,甚至于业界领先学界,将学界抛离。这个趋势在国内将特别明显。其次,业界和高校之间,人才的拉锯战也会特别明显。2015年5月,非常轰动的一个新闻就是优步 (Uber) 从卡耐基梅隆大学联邦机器人工程中心 (NREC),从教授到博士后,将一个研究所挖走了40多人,基本清空了。
从国内来讲,数据、算法、人工智能的专家都特别昂贵难招。高校的优秀人才引入,更是遇到了前所未有的挑战。此外,一个明显的特点就是数据的价值也被充分发掘出来,数据变得特别的“值钱”,在很多业界已经被认为是公司的最核心价值体现。
事实上,数据科学已经成为一个成熟的专业,在国外多数高校,数据科学的本科到博士学位项目都已经非常完备,也是受学生和用人单位欢迎的项目。例如,斯坦福的数据硕士项目设置在工学院的高等计算所下,学生需要从管理科学与工程,统计、数学、计算机等多个学院选课来完成项目。纽约大学的数据科学硕士项目,就业火爆,2017年有1500多名申请人,录取不到100人。在国内,过去两年,包括北京大学、复旦大学在内的35所高校设置了此专业。教育部已经将数据科学与大数据定义为新工科专业予以正式备案登记。
眼下,数据科学与人工智能领域虽然大热,特别是深度学习,看似横扫一切,但它真正进入人们视线,基本是从2012年GeoffreyHinton教授等人在视觉图像识别大获成功后才真正引起重视。所以回到原点审视的话,深度学习依然是一个充满未知、有待人类去探索的领域。在应用层面,例如深度学习和机器学习的一些复杂算法虽然高效,但是因其黑箱子性质,稳定性没有理论保证,使得一些避险领域 (如金融) 依然会让人心有疑虑,这也是研究者该去孜孜不倦探索与回答的挑战。
但是无论如何,人工智能这个似乎昨天还在蹒跚学步的婴儿,忽然间已经成为了强壮高大的巨人,开始迅速接管人类的各行各业。
斯坦福大学吴恩达教授曾经做过一个比喻:“就像100年前电的发明改变了所有行业、农业、制造业、铁路、通信等等,我觉得人工智能就像100年前的电力,也能为几乎所有行业带来巨大改变。”而这个未来,正以一个可怖的速度,呼啸而来,与并未做好准备的我们迎面碰撞。
未来已来,逃避徒劳。我们能做的,只能是尽我们最大的努力,张开双臂,全身心的去拥抱人类这个充满了不确定性,但是理应更美好的明天。
(作者为上海财经大学交叉科学研究院院长,美国斯坦福大学博士)
相关链接
国内35个高校建“数据科学与大数据技术”专业
日前,在教育部公布的高校新增专业名单中,有32所高校成为第二批成功申请“数据科学与大数据技术”本科新专业的高校。加之此前的2016月2月,北京大学、对外经济贸易大学及中南大学首批申请该专业成功,目前,国内已有35所高校设置了“数据科学与大数据技术”专业,学制为四年,授予工学学位或理学学位。
据介绍,这一普遍被看好的大数据专业,将深耕三大技术方向:一个是Hadoop大数据开发方向;一个是数据挖掘、数据分析与机器学习方向;另一个是大数据运维与云计算方向。
各大高校紧锣密鼓启动大数据人才培养,缘于大数据时代催生的大量相关人才缺口。
全球最顶尖管理咨询公司麦肯锡 (McKinsey) 出具的一份详细分析报告显示,预计到2018年,大数据或者数据工作者的岗位需求将激增,其中大数据科学家的缺口在14万到19万之间,对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将达到150万!
第二批32所获批高校名单如下:
01中国人民大学
02北京邮电大学
03复旦大学
04华东师范大学
05电子科技大学
06北京信息科技大学
07中北大学
08晋中学院
09长春理工大学
10上海工程技术大学
11上海纽约大学
12浙江财经大学
13宿州学院
14福建工程学院
15黄河科技学院
16湖北经济学院
17佛山科学技术学院
18广东白云学院
19北京师范大学-香港浸会大学联合国际学院
20广西科技大学
21重庆理工大学
22成都东软学院
23电子科技大学成都学院
24贵州大学
25贵州师范大学
26安顺学院
27贵州商学院
28贵州理工学院
29昆明理工大学
30云南师范大学
31云南财经大学
32宁夏理工学院