文章分类

当前位置:首页>文章中心>公司动态>百度饮得知识图谱的头啖汤!会让大家跟着吃鸡吗?

百度饮得知识图谱的头啖汤!会让大家跟着吃鸡吗?

发布时间:2017-12-09 点击数:51

2017年,知识经济日益火爆,分答、知乎、得到等知识平台可谓如日中天。眼下这种火爆已在从人类延展到机器。互联网巨头纷纷对知识变得饥渴起来,知识成为数据之后的又一个香饽饽。

互联网巨头对知识越来越青睐

两三年来,互联网大佬言必谈数据,特别是大数据。曾有人戏称马云应该叫“Data Ma”,因为不懂技术的马云,十分钟爱谈大数据,马云的“五新理论”中有一个是“新能源”,其认为未来机器吃的不是电,而是数据。其外,李彦宏、马化腾等大佬关于大数据都有不少言论,马化腾说数据是AI应用的四大要素之一,李彦宏也提到:“由数据、算力、算法‘三位一体’共同驱动的人工智能或将成为推动经济增长与时代进步的新引擎。”

数据是AI的基础,也是互联网公司的重要资产,通过算法挖掘可以形成可观价值,是毋庸置疑的。不过,我观察到,今年互联网巨头们对于数据谈得少了,谈知识反而越来越多。

最具代表性的是百度,新春内部演讲中,李彦宏说,“知识图谱(包括需求图谱、用户画像等等),这些东西都是百度整个人工智能当中非常基础的构件,也是我们相对于其他任何一家公司的优势所在。”“非常”一词足见李彦宏对于“知识”的重视。百度总裁兼COO陆奇在今年AI开发者大会上则指出,“知识就是力量,有了知识我们可以做预测、做自动化,解决任何重要的问题,人类历史就是改造世界、认识世界的历史,AI就是帮助人类认识世界、改造世界的工具,AI是人类历史上重要的里程碑。”在业务层面,百度在知识上的底层布局就是知识图谱。

除了百度谷歌在知识图谱上也一直在积极布局。2012年5月,Google就推出了知识图谱(Google Knowledge Graph),利用其优化搜索结果。2013年,Google收购自然语言处理技术公司Wavii,将后者技术与Google Knowledge Graph整合。2015年谷歌推出医疗版知识图谱。现在谷歌语音搜索、Google Assistant、Google Lens、Google Home诸多软硬件产品均已接入谷歌知识图谱。

不只是百度、谷歌等搜索引擎在知识图谱上布局,阿里、华为等玩家也已在部署知识图谱,让自己变得更有知识。从Data到Knowledge,为什么互联网巨头们青睐的事物会有这样的转变?

知识对于互联网究竟有何价值?

知识对于互联网第一层价值是内容或者说信息价值——就像知乎、分答、百科、知道等等知识类产品一样,它们满足了用户的知识生产、共享、获取等需求。不过,长期来看,知识对于互联网的价值主要在于,起到一个从数据到AI的“桥梁”作用,它不可或缺且会日益重要。

第一,知识让机器具有认知能力。

每家互联网公司都在强调自己拥有海量数据,不过,不同数据价值是截然不同的。从应用场景看,搜索数据、社交数据、电商数据、支付数据、视频数据等等的价值可以说大不相同;从数据形式看,结构化与非结构化的数据价值不同,前者更可能被机器利用;从数据性质看,感知类和知识类数据价值截然不同,前者是视觉、声音、运动等物理感知数据;后者则是知识类数据,“人类对物质世界以及精神世界探索的结果总和。”只有人类才能产生、创作、总结和理解的数据,比如支付、搜索、创作、语言等等数据。

而知识类数据最核心的价值在于,可让机器形成认知能力。百度AIG(人工智能技术体系)负责人王海峰曾提出,AI可以分为感知层和认知层,感知是人类和动物都有的能力,机器一定程度也可以比人类更强;但认知是人类的专属能力。机器感知能力目前已趋于成熟(比如百度世界大会上语音技术可以实时生成字幕,再比如图像识别很多时候比人准),但认知能力还有很大的提升空间。知识类数据可以让机器在感知能力的基础上形成认知能力。

第二,知识可以让机器与人类对话。

我们要机器成为合作伙伴也好,智能助理也罢,前提就是要能够与机器沟通,就是交互。目前我们与机器的主要交互方式,是反人性的——用输入法打字即便再简单也需要一定的学习成本,只有触摸、语音、视觉这样的交互方式才是自然的,是小孩子都拥有的能力。

尽管眼下已经有语音交互技术、图像识别技术,但整体来说还不够智能,比如语音无法理解长句子等复杂句式,再比如图像识别更多是对条形码等简易图片有效。要机器实现与人类的自然对话,像一个真正的助理那样与用户交互,就需要它储备足够多的知识。有知识储备的机器有了认知,就不只是拥有语音或者图像识别能力,而是具备语义理解能力,从听清进步到听懂,从看出来升级到看得懂。

再举个例子,一个真正的秘书不只是可以识别主人,还能根据主人表情揣摩其情绪,进而做出响应。iPhone X的Face ID目前只能识别主人的脸,如果有了知识就可以“读脸”揣摩主人情绪,比如用户愁眉苦脸时可以推荐一首欢快的歌曲。百度世界大会上李彦宏演示的“火车司机疲劳识别”,本质上就是在图像识别技术上加载了知识图谱后的成果,机器可以理解“什么表现是疲劳驾驶”。

第三,知识可以让机器智能决策。

如果机器只有感知能力,本质上只是改变数据输入方式——机器的数据输入自动化、无人化、实时化,进而提高输入效率、降低人力成本,增加采集场景。然而机器的本质还是传统意义上的功能计算机。就算可以做出决定,本质也只是“if this then that”的、在人类设定的规则下的按部就班。

然而,当机器通过足够多的知识建立认知能力,对世界有自己的理解后,就可以进行智能决策。一个例子是AlphaGo——相对于深蓝等基于规则的下棋程序不同,它每一步的走棋,是基于对围棋规则的认知以及下赢对方的目标而进行的,它是真正意义上的AI下棋。AlphaGo Zero则是进阶版,它可以不借助任何围棋棋谱与人类经验自我学习进步,等于说是构建了一套自主的知识体系,它成为知识的输出者,棋谱也值得人类棋手去学习。当然,前提也是有围棋规则这个人类知识的输入。

我们不论是招聘秘书,还是聘请管家,都希望找一个“有一定想法”的,会主动思考和自我决策的人,而不是找一个让TA做什么才做什么的人。同样的道理,要机器有“一定的想法”,能够自我决策,变得智能,就必须要有足够多的知识输入,让其形成认知能力。

因此可以看到,在AI时代,我们要让机器真正意义上认知这个世界,要让机器与我们更自然地交互,要让机器可以智能做出决策,都必须要输入足够多的知识给机器。如何给机器输入知识?核心技术就是知识图谱,它就像AlphaGo“吃”的棋谱一样,是将人类掌握的不同知识进行关联存储于计算机中,形成网状结构并持续动态完善,让机器不断汲取知识,对世界的认知日益完善。

看到这里就能明白,为什么李彦宏会说知识图谱是百度整个人工智能非常基础的构件了。知识图谱对于人工智能可以说是不可或缺,陆奇说,“AI革命的本质是快速的、自动地获取知识”,王海峰则认为知识图谱是AI的基石。“如果知识是人类进步的阶梯,知识图谱就是AI进步的阶梯”,知识是AI的基础已得到行业共识——有数据的巨头企业很多,然而有知识图谱技术的巨头却屈指可数。

知识图谱到底有哪些应用场景?

说到语音技术,人们就会想到Siri;说到图像技术,人们会想到iPhone X的Face ID;说到知识图谱,人们可能会想到百度搜索结果右侧的关联内容,这是百度2014年便已大规模应用的知识图谱产品,3年应用量增加了160倍。