别笑,雅虎也有人工智能的秘密武器
编者按:本文作者KlintFinley。
又一个科技巨头与世界分享它的人工智能成果了。2月24日,雅虎公布了CaffeOnSpark人工智能引擎的源代码,从学术研究者到大公司员工都可以使用或修改。
也许近年来很少人了解雅虎在科技界的实力。它孵化了开源项目Hadoop——被Facebook、Twitter和许多其他公司广泛使用的数据分析平台。Hadoop对于人工智能有特别的价值。数据和算法对训练人工智能系统同样重要,而雅虎拥有最有意思的数据库之一——图片站点Flickr。
和许多新的开源人工智能项目一样,CaffeOnSpark以深度学习为基础。深度学习是人工智能的一项分支,对帮助机器识别人类讲话、图像和视频内容用处尤其大。比如雅虎利用它测定不同图片的内容,来优化Flickr的搜素结果。雅虎不是依赖上传图片的人所输入的描述和关键词,而是教会计算机识别图片的某些特点,比如特定的颜色、甚至动物和物体。
几个月来,谷歌开源了它的深度学习框架TensorFlow,微软开源了它的类似框架CNTK,脸书开源了它的人工智能硬件设计,中国搜索引擎巨头百度开源了它的深度学习训练软件代码。
这些开源各有侧重。雅虎想在现有的系统上运行深度学习进程,不必把数据从一个地方移到另一个地方。雅虎的构架副总裁AndyFeng解释,训练一个深度学习系统识别图片需要巨大的数据量。比如你把大量猫的图片交给算法处理,最终机器会“学到”猫的共同特征,从而有能力分辨包含猫的照片和不包含猫的照片。
Flickr拥有几十亿张照片,有充足的图片类别来训练人工智能。但团队不想把所有Flickr主服务器的图片复制到新的运行深度学习软件的服务器集群中。因此他们发明了在现有的基础架构中运行深度学习软件的途径。
CaffeOnSpark,从名字可以看出,它将两种现有技术结合起来:广泛流行的深度学习框架Caffe和后起之秀数据分析系统Spark。雅虎创造了一种可以在Spark集群上运行Caffee的方式。它可以在Spark上单独运行,也可以在Hadoop上运行。Feng说,除了简化人工智能开发者对类似工具的操作,避免把数据搬来搬去,CaffeOnSpark还使在多个服务器上分配深度学习进程变得相对容易,这是谷歌的TensorFlow所做不到的。
Feng表示在团队发布一条关于软件的长文后,很多公司要求雅虎开源CaffeOnSpark。看来有许多机构都不想把服务器集群上的数据移来移去。
产业投资内参
有价值的产业投资参考
中投顾问
产业投资咨询服务专家