本文重点解读百度三层设计中(百度大脑,数据工厂,开放云)最顶层的设计,百度大脑计划,让我们来一次详细的百度大脑解刨。
近日百度终于发布了让人期待已久的百度大数据计划,而本文重点解读百度三层设计中(百度大脑,数据工厂,开放云)最顶层的设计,百度大脑计划,让我们来一次详细的百度大脑解刨。
而该计划究竟是什么让我们来一次深入了解,必须从三层架构一层层解刨。
第一层:开放云
作为一个人类婴儿,最重中之重的事情就是记忆,而记忆也是一切的发展前提。同样,我们将百度人脑看成人脑的话,那么第一件事情,必然是存储。人类没有记忆就没有关联,也更不用提决策与创造,而人类之所以能够在灵长类动物中立足,正是有着极大的可以存储记忆的脑容量,那么机器要模仿人脑也必然要建立在拥有庞大的存储能力之上,百度在真正积累数据到一定程度后才开始该项目。
我们来看下百度存储能力的发展过程:2010 年,百度的机器学习能力并不是很高,只拥有几百台的服务器,特征向量只有十万。两年后也就是 2012 年,百度的单集群规模达到了几十万,已经完全能够做到让这些机器在同一时间做同一件事情,特征向量从十万上升到两百亿!
而当在百度达到两百亿后机器学习就到达了一定瓶颈,就算特征向量增加到三百亿,四百亿,对机器学习的帮助并不是很大,而此时拥极强存储能力的百度开始了在机器学习上的“深度学习”的分支发展,进而升级已有的人工智能大脑。
备注:
机器处理能力的评判标准有两个:第一个是看服务器规模,第二个是看特征向量大小。
特征向量:将文本语音图像视频等内容转化为机器能够读懂的一连串关键数据,数据越多,机器学习的就会越好,用户的搜索结果就会越精确,对用户的搜索体验效果也会随之上升,但对服务器的压力也会相应加大。百度能够仅用两年时间从 10 万直接飙升到 200 亿,足以见得百度服务器技术实力的雄厚。
此外这一段并非只讲存储,同时也是在讲百度大脑的发展,因为有了记忆就会发生关联,进而产生决策,这是一个整体前进的过程。
第二层:数据工厂
作为一个人,要调取某部分的记忆,就会很自然的联想到某个词,某个画面,某个音乐等等就能记起很多事情,比如当你听老歌时,看到童年的玩具时,汹涌的记忆总会被调出来。
当然这是因为人类大脑的神经连接结构允许我们这样去检索,而机器是不允许的,数据存储在硬盘上,机器想要找到某个数据,必须一个个访问过去,机器没有分类的概念,就像在图书馆中,机器是一个不会看分类的管理员,他要找某一本书时只能一本一本的找过去,十分笨拙。
也就是说,机器要想搜索什么内容时,必须有人来帮助它建立起分类,但最矛盾的就是,在错综复杂的语言结构中,我们很难为一个词去下定义,比如当你在说“苹果”这个词的时候,你如何告诉机器他的分类?”苹果”究竟是一个名词,还是一个公司?而决定一个词的意义的则是语境,也就是机器要依靠其他词语的出现来为这个词做模糊的定义,不能完全给它下死定义而是要根据环境来下,并且它还应当是动态的,不断变化的。
这种搜索技术也依然要百度的大脑配合才能达到,对每一个词的定义应该是一个库,而这个库中的每一个词又都各自构成库,百度的数据工厂所创造的算法,就是在这么一个数据之海中去为他们建立管理,然后去索引。
数据工厂相当于人脑中的记忆关联过程:将某个词同时与其他词或是某个场景等等建立起动态关联的过程。
第三层:百度大脑
人脑有了记忆,有了关联之后就会进行决策,比如小孩子碰到开水,烫到了手下次就不会碰,就是因为记忆了开水和烫手的痛苦,并将这两个记忆关联在了一起,才有了下次不去碰开水的决策。而百度大脑就是在模仿这些行为,做记忆关联之后的决策、行动、创造。
我之前关于开放云和数据工厂的分析完全是建立在搜索引擎之上,只是站在了百度对汉语能力的理解而已,而那时百度的人工智能也确实只是刚出生的婴儿而已,只能在 PC 端爬行,但是当智能手机诞生,可穿戴智能设备的出现后,百度开始成为可以走路的婴儿,此时百度大脑的智力已是高达两岁的婴儿水平。
从搜索引擎智能到硬件智能,这是一个平面到立体,二维到三维的过程。原因是以前百度搜集到的数据只能够是 PC 端用户的搜索行为,这之中充其量只有文字内容罢了,百度所能够建立的仅仅只是语言理解,对用户的输入文字数据做不断的处理与反馈,但是到了手机端,智能硬件端则完全变天,百度可以收集到的不仅仅只会是语言数据,更会收集到一整套的使用场景数据!
此时,百度从为用户提供搜索结果的搜索引擎开始转变为向用户提供全方位解决方案的人工智能,想象力无穷。
那么,百度大脑将会如何模仿人类的感知,再到思考,以至于最后产生决策、生产、创造呢?
感知部分:
这里,我们还是先回看百度在 PC 时代的处理方式,百度通过海量的用户输入的相同信息,以及他们对网页的排序进行的点击,加上自身算法的种种规则,进而对搜索结果进行排序,将最优的结果前置于用户面前。那么以此类推在移动时代,百度能做的则是,通过海量的用户的发起行为,然后根据他们最后的选择行为,再根据用户的周边环境场景,建立起强大的数据关联,进而再为其决策。
而这里的感知则与 PC 时代完全不同,PC 时代感知的只是某个词汇数据,但是这里感知的有两者:第一是用户的交互数据,用户对机器做了什么,说了什么,输入了什么图片,人工智能会将这些行为转化为机器能够理解的特征向量等数据输入进机器。第二是物的数据,场景数据,比如用户拍照中的场景,百度可以对其进行智能识别,判断其在哪里,是在餐馆还是在旅游途中等等,并也将这些场景转化为机器能够读懂的特征向量等数据,让二者进行一些必要的关联。
当然这些收集行为和 PC 时代一样都是匿名的,百度根本不在乎任何一个单用户的信息,百度在乎的是群体的决策信息,并利用这些信息进行判断后再为个体用户作决策推荐。
思考部分:
同样是类比于百度在 PC 时代的思考方式,百度拿到用户搜索的数据,再拿到网站的数据后为语词进行了相关性关联,为其进行了群体模糊解释,那么毫无疑问,百度会为其感知到的信息再次进行模糊解释,将感知到的信息进行与其他感知的关联处理,并且还会将之前已经在搜索引擎上积累的信息融合进来,进而为人类整体行为做出解释,并为个人想要选择做某些事情的时候提供最优方案。
就像婴儿牙牙学语一样,开始观察周围大人的说话与表情,并在自己的大脑中建立这一切的关联性,开始尝试学习大人说话的内容,并说出来。
决策、生产、创造部分:
同样是类比于百度在 PC 时代的思考方式,百度所做的决策就是帮用户提供最优的搜索结果,然后前置。那么也很好理解百度大脑在移动设备时代会如何帮助用户决策,百度会根据各个已经在数据库中已有的常规用户行为场景,再为某个用户提供具体的方案。
当百度大脑的思考过程执行完毕后,就完成了对某件事的动态理解,而理解完后就要去为用户产生最优质的结果,并再根据用户的反馈进行不断调整。
就像婴儿一样,虽然还在牙牙学习,但是已经开始在用积木搭建自己的城堡了。
案例:
百度大脑最大价值在于帮助用户利用大数据做好预测工作,例如用百度大脑来预测城市热度,目前百度根据海量的用户行为(感知)已经可以预测出某个城市两周后的旅游热度(思考与创造),如果是景点的话可以预测两天后的热度。而这些预测也为用户出行旅游提供了极大的参考价值。
结语:
百度在 PC 时代有过很多成就,但在移动智能设备上再次迎来全新的挑战,在 PC 时代百度只需要解读语言就够了,但是在移动时代需要解读的东西会更多,图像识别,人脸识别,语音识别等等都是移动时代需要重新再深耕的新技术,并且用户使用场景的复杂性要远远大于 PC 时代。但挑战的同时也更藏着极大的机遇,这是一个从 PC 跨越到移动时代的人工智能大机遇,物联网的日趋成熟必将导致人工智能真正的实用时代的来临,这也是百度终于可以从二维上升到三维的机会,再加上百度已经在 PC 时代的人工智能的成熟的积累,继续进化更像是理所当然的事情。