放眼全球,如果用一句话来形容当下消费互联网的大势,「视频吃掉世界」恐怕是再合适不过的话了。

7 月,在 Facebook 历史性地突破 20 亿月活用户后,扎克伯格告诉分析师们,随着用户在 FB 上视频内容消费的大幅增长,FB 会进一步研发底层的视频技术,保证用户在视频消费、视频生产(上传)上的优秀体验。

中国地区用户对于视频内容的需求也十分旺盛。在 QuestMobile 发布的《移动互联网2017春季报告》中,包括在线视频、网络直播、短视频等行业,移动视频的用户月度总规模首次突破10亿,同比增长36.5%。

1 

更进一步的佐证来自 CNNIC 的第40次《中国互联网络发展状况统计报告》,截至 2017 年6月,中国网络视频用户规模达5.65亿,较2016年底增加2026万人,增长率为3.7%;网络视频用户使用率为75.2%。

2 

在这样的背景下,不管是 BAT 这样的传统流量大户还是今日头条此等的流量新贵,都在不遗余力地押注视频。百度强化视频在 Feed 流中的地位、腾讯领投快手、阿里旗下土豆全面转型、今日头条旗下抖音准备出海……这些举措会让人产生一种视频时代即将全面到来的产业错觉。

诚然,如上文所言,「视频正在吃掉世界」,但就像过往任何产业爆发点类似,在商业应用落地的同时,底层技术进步的重要性不言而喻。以视频行业的现状来看,一方面是产业生态的疯狂,另一方面则是在一些底层技术上的瓶颈,比如可用于视频动作分析的技术并没有得到有效的利用,这也让围绕视频内容的分类检索、标签推荐变得非常困难,不仅影响到了视频的展示效果,同时也制约了用户的视频消费体验,而这个行业痛点,不是融资或推广就能解决,它必须依靠技术上的突破。

类似的困难和挑战还有不少,这也使得最近一系列围绕视频技术学术会议或竞赛成为行业关注的焦点。比如在今年的 ActivityNet Challenge 上,几篇围绕视频技术新突破的获奖论文就为视频行业未来发展路径提供了灵感。

论文透露出的行业机会

ActivityNet Challenge是目前视频动作分析领域影响力最大的竞赛,包括 MSRA、CUHK、CMU、UTS 等众多高校和科研机构都会积极参与到比赛里。在今年的比赛里,有两个新增的项目:「Kinetics」和「ActivityNet Captioning」两个数据集。其中「Kinetics」是一项视频行为分类比赛,有400个视频动作类别,大约20万训练语料,可谓 ActivityNet 最具看点的一项任务。

根据 ActivityNet 最新公布的结果,今年「Kinetics 视频行为分类比赛」冠军被来自百度的 Genome 团队获得,香港中文大学和来自德国的创业公司 TwentyBN 分列二三位。

按照惯例,ActivityNet 各项任务的冠军都有机会在 CVPR 上展示自己的论文,因此,我们也有机会进一步了解这支来自百度的技术团队如何思考新一代技术,尤其是基于深度学习的人工智能之于视频行业的意义。

论文网址在https://arxiv.org/abs/1708.03805,有时间的话建议下载下来细细研读,没有时间精力的话,可以直接看下面我们的解读:

首先,视频分类技术的根本,是要让视频成为像文本、图片一样的结构化数据。过去很长一段时间里,互联网上都是文本、图像数据,但最近几年随着移动网络的普及以及智能手机性能的提升,视频内容已然「霸占」了移动互联网,然而对于很多开发者或视频服务商来说,视频内容是一种典型的非结构化数据,它无法像文本、图像那样被自动检索和有效利用,需要大量人力成本进行手动查看、加标签以及审核,效率低下。

在百度 Genome 团队的这篇论文里,提出了一整套视频分类的解决思路,通过对视频内容的智能分析和提取,它能够自动提取视频中的语音、文字、任务、物体等元素,从而自动输出这些视频的泛标签。这些提取的「泛标签」,事实上也让视频内容变成了半结构化的数据——它可以被简单分类和检索,对开发者或视频服务商来说,已经节约了前期人工处理的时间,从而大大提升了效率。

其次,视频分类技术的应用场景非常广泛,不仅会解决视频服务商的痛点,还能在提升用户体验上发挥作用。

举个简单的例子,基于深度学习的视频分类技术,可以让视频对比检索变得非常简单。很多用户常常会有一种需求,即能否通过一张静态图像来搜索某个视频,这与过往以文本搜索视频的技术完全不同,它需要在静态图像上提取有效信息,并将这些信息与已经半结构化的视频库进行对比,从而准确并快速找到最符合条件的视频。

另一方面,在视频分类技术的帮助下,视频服务商还能提供更多可定制化的应用场景。比如在运营层面,借助视频对比检索,可以快速查询与其包含相同片段的短视频,可以视频去重和版权保护;产品层面,当视频内容变得像文本、图片一样可方便检索的时候,可否打造一个适配视频内容的搜索引擎?又或者,由于视频服务商具备了理解不同视频的能力,在构建新一代视频推荐产品中,是否也具备了先发优势呢?

谁的机会?

一个有趣的细节是,这支 Genome 团队,在今年 2 月的 YouTube-8M 大规模视频理解竞赛中也进入三甲。Youtube-8M数据集由谷歌今年2月在Kaggle平台发起,拥有约800万的已标注视频,是目前全球规模最大的视频数据集之一。考虑到 Genome 团队出自百度深度学习实验室,此次该团队更进一步获得第一,也让外界对于这些技术是否会融入百度产品体系,尤其是 Feed 流产品,充满了好奇。

最新一季百度财报里,来自 Feed 流的日活用户数量突破 1 亿,收入也从一季度每天 1000 万提升到了 3000 万,这些数字的变化彰显出百度在流量入口的强大控制力,同时也得力于基于海量数据、深度学习算法结合后所带来的神奇效果,在保证用户体验的前提下,让 Feed 流成为资讯、广告的重要载体。

这种基于内容分发的 Feed 流模式也被 Google 所效仿,在其最新的 Google 手机搜索客户端里,也加入了类似的产品形式。

纵观百度的 Feed 流产品设计,产品入口层面,不管是手机百度、贴吧还是手机浏览器,视频、短视频都有单独的入口;技术层面,视频分类技术所展现的巨大潜力,借助百度在用户画像的积累,不仅能够实现新用户的冷启动,还能不断提升老用户的视频内容消费体验。更重要的一点则是,视频分类技术所带来的产品运营方式方法的变化,或将给视频内容的上游产生诸多影响,比如,能否根据特定用户画像实现真正意义上的特定视频推荐?也真正实现所谓「千人千面」的定制化 Feed 流产品。

事实上,将这些产品设计和底层技术的讨论放在全民视频消费井喷的行业背景下,更具现实意义。在这一波依然以移动设备为主体的内容消费浪潮里,Feed 流或类 Feed 流已成行业共识,而得视频者也才有可能得天下。这或许也是百度、Google 这些巨头的机会,他们各自在用户画像和知识图谱上拥有丰富积累,并且拥有中美互联网流量入口的权力,未来两家公司在 Feed 流,尤其是以视频内容为主导的 Feed 流产品和技术演进格局,也将进一步左右行业发展的方向。

写在最后

不过,与文本、图像相对成熟的技术、产业生态相比,视频内容还无法真正实现数据的结构化存储,这也使得某些应用场景还处在相对初级的阶段。另一方面,当 Facebook 的 News Feed 不断鼓励用户生产、消费视频内容,当短视频、直播类的产品一个个突破活跃用户极限,整个互联网已然处在视频爆发的前夜,这既是全行业的机会,更是属于掌握「核心技术」者的机会。

某种意义上,视频行业的竞争早已不局限在简单的内容、生态竞争,而是底层技术,尤其是人工智能领域的竞争,即包括数据,也包括算法,更是人才和战略的竞争。从这个角度去看,早已将人工智能放入公司发展战略的 Google、FB、百度已经拥有不小的优势。

当百度上月通过一场开发者大会展现出了转型人工智能决心后,整个公司的产品线都在围绕人工智能进行重构。在 Feed 流的未来场景里,基于深度学习的视频技术,比如视频分类技术所带来的化学反应——不管是利用视频分类催生的新业务模式还是视频技术进步带来的用户体验上升,这一切或将让百度在 Feed 流产品的未来格局中占据重要位置。