谷歌开源 TensorFlow 的图像文字说明功能

下一篇文章

谷歌 Daydream VR 开发工具结束测试正式上线

在我们这一代人中,接近 100%的人都痴迷于 Instagram。遗憾的是,我早在 2015 年就离开了这个图片分享平台。原因其实很简单,我总在应该贴出哪些照片以及应该加哪些文字说明的事情上犹豫不决。

caption4 幸运的是,只要拥有充足的业余时间,那些遭遇过相同问题的人,现在就可以使用 TensorFlow 里面的图像文字说明模式,给他们的照片添加文字说明了,从而彻底告别烦人的“第一世界问题”。我迫不及待地想体验这项功能的妙处,于是开始在右图写下创意无限的几个单词——“A person on a beach flying a kite”,即有人正在沙滩上放风筝的意思。

言归正传。 由谷歌 Brain 团队研发人员开发的这项技术 的确给人留下深刻印象。谷歌号称“Show and Tell”(这是谷歌给该项目起的名称)的准确率高达 93.9%。之前的版本准确率在 89.6%和 91.8%之间。对于任何一种分类系统来说,准确率的微小变化都会给它们的应用带来巨大的影响。

为了做到这一点,谷歌 Brain 团队只能用真人制作的文字说明不断对视觉和语言框架进行训练。这有助于避免系统机械地命名图像中的物体。但是,系统不仅仅要指出上图中的沙滩、风筝和人物等,还能生成完整的描述性语句。若想创建一个准确的模型,关键是要考虑好物体之间的相互关系。一名男子正在放风筝,与一名男子头顶有风筝,这两种表述传递的意思是不同的。caption3c

谷歌 Brain 研究小组还指出,他们的模型不仅仅只是一个简单的“复读机”,只会重复提供训练时接触的一组图像中的词条内容。从左图中,你可以看到一组来自合成图中的图形是如何被结合起来,在之前没有看到的图像中生成原创文字描述。

谷歌之前的图像文字说明模式在 Nvidia G20 GPU 上面进行训练,每个训练步骤要花 3 秒钟,但今天开源的版本可以从事相同任务,而所耗费的时间只有 0.7 秒钟,也就说相当于之前时间的四分之一。这意味着,这个开源版本比最早亮相于去年微软 COCO 图像文字说明大赛上的版本更先进。

今年早些时候,在拉斯维加斯举行的计算机视觉与图形识别(Computer Vision and Pattern Recognition)大会上,谷歌讨论了他们开发的一种 图像识别模型 ,这种模型可以识别图像中的物体,通过聚合一整套受训图像(文字说明由真人书写)的独立特性来提供文字描述。这种模式的一个重要优势是,它可以缩小逻辑上的差距,将物体与上下文联系起来。正是这种特性,最终会让这种技术在场景识别中大显身手,使得计算机视觉系统可以对从警察局跑出来的人以及从一个逃离暴力场地的路人做出准确区分。

题图来源:WIN-INITIATIVE/GETTY IMAGES,根据 WIN-INITIATIVE 协议授权

翻译:皓岳

Google open sources image captioning model in TensorFlow

blog comments powered by Disqus