人民网>>人民创投

百度首次对外全面展示"百度大脑"人工智能成果

2016年09月02日09:44  来源:人民网-人民创投

2016年,人机围棋大战让人工智能成为现象级话题,资本市场对人工智能也是爱恨有加。作为人工智能领域重要企业的负责人,百度创始人、董事长兼首席执行官李彦宏今天在“百度世界”论坛上首次向外界全面展示了其人工智能“百度大脑”的最新成果。

为了投资者与创业者更清楚看清标杆企业在人工智能方面取得的进展,记者在不改变基本原意的情况下,对演讲内容进行了删减,整理出干货。李彦宏演讲精编内容如下:

百度大脑是什么

对于百度来说,人工智能是核心当中的核心。我们很幸运,在过去的五六年当中,百度花了很大的精力投入到了研发当中。人工智能对百度来说是什么呢?可以用简单的四个字来描述,就是百度大脑。

我们在大约三年前就对外讲过百度大脑的概念。那个时候,我们讲说百度大脑已经具备了大概两三岁孩子的智力水平了。自此以后,不断有人问我,尤其是今年人工智能突然火起来了之后,你们这个百度大脑现在相当于多少岁人的智力水平?要回答这个问题其实还蛮难的,我也不知道它现在是多少岁了,因为毕竟人脑和电脑还是有很大的区别,百度大脑虽然是一个人工智能的大脑,但是它和人正常的发育的过程还是很不一样的。

百度大脑到底由什么构成的呢?它基本上是由三大部分组成。第一个组成部分是人工智能的算法。我们有超大规模的神经网络,这是模拟人的神经元组成的网络,但实际上我们也不知道真正人脑工作的原理是什么,只是想象认为应该是这个样子。我们还使用了万亿级的参数,人脑的神经源大概是千亿级的,我们也有千亿的样本和千亿的特征对其进行训练。

第二个组成部分是我们计算能力。现在我们已经使用了数十万台的服务器来进行计算,而这当中很多的服务器不是传统基于CPU的服务器,而是基于GPU。早年的时候,GPU主要在游戏等领域使用得比较广泛,在人工智能、尤其是深度学习起来以后,我们发现,其实GPU特别适合人工智能的计算,尤其是深度学习计算,一块GPU可以顶100个CPU的计算能力。

百度大脑的第三部分是数据。数据也非常非常重要,而且量非常大。我们已经收集了全网上万亿条的互联网网页内容,这其中包括了很多视频、音频、图像。我们每天接受数十亿次网民的搜索请求,数百亿次的网民定位请求。有了算法,有了计算能力,有了数据,百度大脑就可以开始工作了。

百度大脑能干什么

今天重点介绍的四个功能:一个是语音能力,一个是图像能力,一个是自然语言理解能力,还有一个就是用户画像能力。这几个能力虽然都是属于人工智能中比较典型的应用,但是它的发展阶段很不一样的。比如说语音,现在就已经进入了相对比较成熟的阶段,在很多很多领域中都开始进入实用阶段,识别的准确率也已经很高。图像这一块最近几年也有了长足的进展。这两者都属于人工智能当中认知的部分,深度学习算法非常适合处理这些形式。

相对来说,对自然语言的理解、处理能力更加难一些,还处在一个更加早期的阶段,因为这方面除了要有认知方面的能力之外,还要求有推理、规划等能力,才能够真正地理解自然语言。

从传统意义上来讲,用户画像能力并不属于人工智能,但是,随着大数据的发展,尤其是大型互联网公司有能力搜集很多用户的数据之后,可以再用人工智能的方法,用机器学习的方法,把一个人的特征描绘得非常非常清楚。所以到了今天,用户画像也变成了人工智以及百度大脑的一个重要功能。

(一)语音的合成与识别

我们先看一下语音,它是今天人工智能发展得最成熟的一部分能力,而语音又分成两个方向,一个是语音的合成,一个是语音的识别。

百度的语音识别引擎已经到了第二代,主要是使用了深度学习能力。这样的一个技术已经可以把语音识别的准确度做到多少呢?大概可以做到97%的准确率,它已经达到、甚至有时已经超过了人对语音的识别能力。我们讲这些能力不是为了简单地去炫耀这个数字有多好,我更感兴趣的是,当你有了这些能力时,它可以在什么领域应用,又可以在哪些方面帮助到我们,这其实才是最最让我们觉得兴奋的地方(现场演示了电话销售的例子。销售员在与客户通话过程中可以得到语音识别软件实时的知识性提示)。

语音合成是什么意思呢?就是机器可以把文字转换成语音,把它念出来、读出来。今天的语音合成也有了和过去非常不一样的体验,最主要的就是,它可以用比较自然的人的声音读出来,而不是像过去机器一样,每一个字之间的停顿都是一样长,是匀速的、没有表情的。这样自然的体验,当然对提升用户黏性来说也是有很大的作用。

现在,百度每天要响应2.5亿次的语音合成请求,这些请求用来干什么呢?比如说,过去人们是看小说,今天可以在手机百度里面听小说。那么这种读出来的小说,和我们平时听到的广播有什么本质上的不一样?其实非常不一样。广播是每一个人听到的东西是一模一样的,而今天的语音合成,它可以做到每一个人听到的东西都是不一样的,完全根据你个人的需求进行定制。其实我们可以想象一下,它如果能够模拟一个自然人的表达方式或发声能力,就可以模拟任何一个你喜欢的人的说话方式。

不知道有没有人注意到,百度地图里导航功能就是用语音来进行的,其中有一个选项可以用我的声音进行导航。其实导航的那些话我并没有说过,机器只是根据我平时说话的情况合成了一个李彦宏的声音。这样的声音不仅在我身上可以做到,在很多其他人身上也可以做到(现场展示了13年前已经去世的张国荣合成声音)。

对于百度来说,百度大脑的语音合成能力可以让每个人都有自己的声音模型,你只要按照我们的要求说50句话,它就学会了你说话的方式。当你拥有自己的合成声音之后,如果家里的老人想听你说话,你就可以把合成声音放出来,或者说你平时要加班,小孩睡觉之前想听个故事,你可以合成自己的声音给孩子讲故事。

所以大家可以看到,这些语音的能力会带来各种各样新的可能性。

(二)图像识别

下面我给大家讲一下图像,用一个比较专业的术语来讲,我们叫做计算机视觉。这也是现在广义人工智能中非常重要的领域。说到图像的识别,我想大家自然而然会反应出什么应用?应该是人脸识别。人脸识别的准确率今天已经达到了99.7%,已经非常非常准确了。现场的屏幕能够识别出来我们一些嘉宾,根据他们的人脸,我们知道这个人是谁。

人脸识别这个技术是怎么实现的?我们要针对人脸特征提取它的关键点,再把这些点做一些处理,连成一个面部表情,据此来识别这样一个人。当一个人的表情发生变化的时候,我们仍然能够识别出来,因为有些特点没有发生变化。一个人哭、笑、愤怒、迷茫,表情不一样,但是表情特征是不变的。除了面部识别之外,图像识别还在很多领域有应用。(播放百度地图视频)。

我们过去一年来讲得比较多的是无人驾驶汽车。无人驾驶汽车涉及到很多很多的技术,包括计算机视觉技术,高精度地图,需要感知环境,需要定位,甚至需要语音的通话,但是,计算机视觉或者是图像识别技术却是“最后一公里”。无人汽车真的要变成没有人驾驶,最终还是要依靠计算机视觉的能力,要识别各种各样的极端的情况。

我们再给大家展示一个领域,就是增强现实AR,AR其实也是非常依赖图像识别。拿着手机拍一下现实的情况,我们要能够识别出来这是哪,这里面有什么,然后才能跟用户进行互动,才能产生真实世界和一些虚拟世界的完美的结合。那么这个东西有什么应用呢?我们的广告主非常敏锐地把握到了这么一个机会(播放欧莱雅视频)。

无论你拿手机拍一张明信片,还是拍一个实物的洗发水,它都可以准确地识别出来这个东西,和用户进行互动,当然,除了技术之外,很大程度上取决于广告主的创意,如果创意和技术结合得好,对消费者的吸引力非常大。

(三)自然语言处理

自然语言处理成熟程度应该不如语音,甚至不如图像识别,但是即使在目前的状态下,它也能够给大家带来很多很多不一样的体验。最直接的例子应该是我们去年在百度世界大会上讲的一个例子,就是度秘。度秘是一个个人智能助理。这个个人智能助理今天可以在手机百度里面找到。度秘能跟用户进行交互,现在已经有超过一半的交互是通过语音和图像来完成的。

度秘除了它能够识别语音和图像之外,其实它更关键、更核心的技术,是能够用人的语言来与人进行交流,并且能够理解人的很多意思和意图,尽管不是每一次都能理解。过去这段时间我们也利用度秘的自然语言的能力做了一个比较有意思的应用,用度秘来解说奥运篮球。(播放度秘与篮球评论员杨毅合作解说的视频;杨毅上台与李彦宏交流)

(四)用户画像能力

下面我们讲百度大脑的第四个能力——用户画像。用户画像是基于百度大数据以及机器学习的能力。现在我们已经有接近10亿的用户画像,其中对于他们的识别我们已经用到了千万级的细分标签。这些标签主要在两个维度上体现,一个是通用的维度,它的人口学特征、短期的意图、位置属性;也有一些垂直行业的特征,他在金融领域是什么样的情况,它在保险、医疗、旅游、健康等领域都有什么样的爱好、习惯,这些东西都共同构成了我们的用户画像。

用户画像有什么用途?首先给大家举一个百度的例子。最近几个月大家可能注意到了手机百度,除了上面的搜索框之外,下面增加了各种各样的文章。这些文章有时候是新闻,有时候不见得是新闻,但是确实是你感兴趣的东西。之所以它能够把你感兴趣的东西推荐出来,就是因为我们利用了百度的用户画像。

我知道你是一个什么人,你喜欢看什么样的东西。有了这样的个性化推荐,过去两个月手机百度推荐的文章的阅读量增长了10倍,这种能力就是靠百度给用户打了60多万个标签,而每个用户都是这其中某些标签组合后描画出来的,所以它可以做到千人千面,准确地讲,不是千人千面,而是万人万面,亿人亿面,每个人对于百度来说都是不一样的个体。所以,每个人看到的信息和文章都是不一样的。

这是一个百度内部使用的例子,我们也认为用户画像可以在很多其他领域使用。我们再给大家展示一个外部的例子。这是6月份上映的电影《魔兽》,它的出品人是传奇影业,他们就是利用了百度大脑的用户画像功能来提升它的票房。(播放传奇影业视频)

(注意:本文内容非李彦宏演讲内容全文。)

(责编:陈键、胡晓)

深度原创

特别策划

    第二届内容科技大赛总决赛 人民战“疫”内容科技大赛 首届人民网内容科技大赛总决赛 人民网内容科技创业创新长三角决赛
二维码