百度知识图谱部主任架构师朱勇:百度知识图谱让获取“知识”更便捷
《战狼2》口碑的爆棚,激起了许多还没看过这部电影的人的好奇,大家纷纷“百度”一下,以免错过时下最火的话题。而你在百度《战狼2》的时候会发现,搜索结果不仅直接展示了影片的信息,还关联了选座、购票等服务,非常“贴心”。这背后,实际上是知识图谱在发挥作用。
7月29日-7月30日,大数据与计算智能高端学术会议BDCI 2017(Big Data and Computational Intelligence)在北京举行,会议邀请了全球权威专家介绍和分享数据科学、计算智能及其应用方面的最新成果。作为工业界代表,百度知识图谱部主任架构师朱勇博士受邀发表了题为《大规模知识图谱研发与应用》的特邀报告,系统全面地介绍了百度知识图谱的前沿研究成果和未来方向。
(朱勇介绍百度知识图谱)
知识图谱:人工智能时代的核心认知技术
知识图谱究竟是什么?其中很重要的一个关键词是——“知识”。传统搜索是基于关键词和网页,并不能理解文本和网页结果中的真实含义。知识图谱则是基于知识本身,将互联网所有的知识积累起来,去真正的理解真实世界,将 “信息”搜集上升成为了“知识”积累,用知识理解世界。
(一张以章子怡为核心的知识图谱)
知识图谱这个看似陌生的概念,其实已经在我们身边无处不在。比如,当我们搜索“太阳重量”时,搜索结果不再是密密麻麻的网页链接,而是直接显示“太阳质量是1.9891*10³⁰千克”。
通过搜索直接得到“知识”,是知识图谱在背后发挥着重要的作用。作为全球最大的中文知识图谱,百度知识图谱包含了数以亿计的高质量实体、数以千亿计的事实,全面和动态的数据。百度知识图谱索引了整个互联网上的知识。百度知识图谱能够让我们从不同的角度去了解真实世界,并且拓展出广泛的应用场景,在搜索、问答、推荐、对话以及文章自动内容生成方面发挥着关键作用。
知识图谱是人工智能时代重要的核心技术。百度集团总裁兼首席运营官陆奇在百度AI开发者大会上曾表示:知识就是力量,有了知识我们可以做预测、做自动化,解决任何重要的问题,人类历史就是改造世界、认识世界的历史,AI就是帮助人类认识世界、改造世界的工具,AI是人类历史上重要的里程碑。
在国务院最新印发的《新一代人工智能发展规划》中,也明确提到了知识计算引擎与知识服务技术、跨媒体分析推理技术。其中写到:“重点突破知识加工、深度搜索和可视交互核心技术,实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,形成涵盖数十亿实体规模的多源、多学科和多数据类型的跨媒体知识图谱”;“重点突破跨媒体统一表征、关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术,实现跨媒体知识表征、分析、挖掘、推理、演化和利用,构建分析推理引擎”。
知识图谱,让应用更智能
知识图谱能够对传统搜索等应用进行智能化升级,为用户带来更智能的应用体验。实际上,知识图谱已经大规模应用到了日常生活当中,正悄悄改变着以往的使用体验。
首先,传统的搜索结果是基于网页的,搜索引擎并不知道结果的含义,只是罗列出和目标关键词匹配的页面地址,用户需要自行到网页上再次查找结果,而通过关键词罗列的页面并不一定能直达用户想要的“知识”本身。以搜索长城的长度为例,传统结果只能返回一些网页,用户需要去网页中寻找结果。
而通过知识图谱,用户可以直接获取长度这个“知识点”。
其次,利用知识图谱中实体之间的丰富联系,我们可以给出优质的推荐,激发用户潜在的需求。比如当用户搜索“杨幂”的时候,将直接推荐出和杨幂有关的各个维度的人物信息,并且能够给出可解释的推荐理由。
第三,知识图谱可以根据已有知识进行推理。例如,根据“打火机不可以带上飞机”、“Zippo是打火机”这两个知识,推断出Zippo不可以带上飞机,当用户输入查询之后,将直接反馈推断结果。
第四,基于知识图谱丰富的属性和关系,用户的搜索结果可以展现出事物的方方面面,聚合实体相关的信息和服务。例如,知识图谱在时下最火的《战狼2》的搜索中不仅聚合了影片的信息,还关联了选座、购票等相关服务。
第五,如果说以上还是大众在使用搜索时的直观体验,那么让机器写稿子会不会有很科幻的感觉?基于知识图谱丰富的知识,机器可以自动、批量化生产出引人入胜的文章。
第六,传统搜索是被动回复问题,而知识图谱能够主动预测用户需求,提供符合需求的“知识”结果。比如在度秘系统中,系统就可以自动判定用户想要触及的“知识点”,进而给出用户最想要的答案。
最后,在复杂问题的处理上,知识图谱也有很强的能力。例如,有些问题的表达是多样化的,“魔兽啥时候出”、“魔兽哪一天公映”,这两个口语和书面的表达,实际上是问同一个问题;此外,有些问题的“知识”分布非常广泛,比如“一个b,一个翅膀的是什么车”。面对不同的问题,知识图谱会采用不同的方法,类似魔兽上映时间这样的问题,会用语义解析;针对“形容不会说话的成语” 这样的长尾问题,采用开放问答挖掘的方式;针对“知识即美德是谁提出的”,则使用端到端的在线问答技术来解决。
揭秘:隐藏在知识图谱背后的技术力量
为了实现这些目标效果,百度知识图谱背后有着强有力的技术作为支撑,主要包括了知识抽取、并行实体归一等几大技术。
第一,知识抽取技术。这项技术可以从海量网页中抽取可信知识,并为实体挖掘精准、连贯、吸引力强的短摘要,从而突破了大规模开放领域知识抽取的效果限制。比如,通过网页中信息,为用户抽取有最有价值的信息。
第二,并行实体归一技术。它能通过多维度实体局域化、实体语义向量等方法,突破归一计算规模的限制,实现精确的归一效果。例如,在网络中,“复仇者联盟”、“复联1”我们会很自然的认为是一个实体,但机器很难做到,通过实体归一技术,知识图谱会进行实体消歧,并建立它们之间的关联。
第三,中文知识理解认知技术。基于知识的概念意图标注算法,它可以构建基于海量用户行为挖掘、深度语义相似、函数式语义树的语义形式化技术,解决了开放空间下,面向复杂中文语义的知识图谱理解认知问题。此外通过研发知识计算语言KCL和多层知识计算算子群,能够实现智能多层级知识推理与计算。
第四,高性能分布式图存储计算和服务技术。通过分布式图索引技术,高性能分布式图存储计算和服务技术能够构建大规模分布式图检索、图数据库和图计算框架,解决全网规模知识图谱存储、计算和服务的性能和规模问题。
据了解,此次论坛由北京航空航天大学-大数据科学与脑机智能高精尖创新中心主办,受国家973计划“网络信息空间大数据计算理论”项目的大力支持,截至目前已经成功举办四届,具有广泛的学术与研究影响力,论坛上讨论的一些学术成果也已经在工业界落地。
此次论坛吸引了数百名专业观众到场,百度知识图谱吸引了观众们广泛的关注和合作。未来,百度知识图谱将会不断发展,逐步覆盖非简单事实类知识、音视频等跨媒体知识,并在知识自学习、知识化搜索和通用对话系统等前沿开放领域展开探索,推动百度AI向高级通用人工智能更进一步,用知识让复杂的世界更简单。