视频搜索 – 青瓜传媒

视频搜索，该往哪个方向走？

青瓜传媒 — Fri, 12 Mar 2021 01:11:40 +0000

从国内到海外，视频搜索已经是一股暗潮，它会不会成为搜索进化的方向，会不会是未来搜索市场的一股不可逆的潮流，目前来看，这个问题还没有答案。

一、视频搜索正在成为不少巨头的标配

视频搜索成为不少互联网企业的标配。2月17日，字节跳动CEO张楠透露，抖音视频搜索月活用户超5.5亿，日均视频搜索量已达4亿，抖音将加大对视频搜索的投入。快手也在去年组建了视频搜索技术团队，已将电影相关的搜索落地页换成了更适合用户消费的专属H5。

而百度早在2018年就喊出了“全面拥抱视频时代”的口号。去年万象大会上，百度也宣布将好看视频将在百度APP的搜索和信息流，小度音箱、贴吧、知道、百科等所有的产品都进行分发。

在2019年，谷歌也推出了“搜索视频内容”这一新功能，其原理是拉取YouTube视频描述中的“时间戳信息”，用户可以快速定位教程类视频和长视频中的关键内容。

微信近两年也不断升级微信搜索，可以查快递、也可以搜索视频。

张小龙在微信十周年上也强调了视频搜索的想象空间：“微信沉淀了越来越多的视频内容。这些视频内容是巨大的知识库，我们希望有一天可以通过搜索推荐的方式挖掘。”此外，阿里夸克、B站、快手等平台都在这个方向发力。

巨头发力视频搜索，一方面是因为短视频的风口之上，视频搜索也成为一大用户刚需。

其次是视频搜索的潜力很大。我国视频用户量为9.27亿，因此具体到视频搜索领域，无论是连接知识付费、短视频电商等商业前景还是用户规模均有着很大的想象空间。

视频搜索明显也能帮助巨头们开辟新的盈利增长点。

毕竟，关键词搜索点击付费的模式也是可以应用到视频搜索领域，广告主可以通过向平台付费，这对某一类关键词进行投放，竞价排名，来实现广告主的曝光需求。用户的搜索需求越大，商业化空间与盈利想象空间就越大。

字节发力视频搜索的一大在于战略目的还在于要将搜索关键词作为触达品牌与店铺的一种渠道，显然是与其短视频电商战略息息相关。

而百度当前也在视频层面进行了资源整合，试图构建一个以短视频、直播、长视频、视频搜索为一体的视频生态。

二、视频搜索还面临哪些短板？

视频搜索是对图文搜索的一大补充，且有它本身的优势，在教程类、专业性内容的讲解层面，有视频演示与操作展示，会更加直观、易懂。

比如你在抖音搜索“低代码”关键词，搜索出来的短视频是两种：一种是该领域的用户谈它的创业经历与点子，然后再回到低代码的解读，虽然进入主题的时间过长，但也算相对通俗易懂的讲明白了这个概念，对于许多小白用户来说，也偏好这种口语化的讲解。

另一种是直接通过应用后台对低代码的应用进行操作展示。这种展示可能更加直观，适用于该领域的学习者。

另外是厨艺教学、Excel、PPT教学、开车教学、挖掘机教学等各种实用性、技术类、教程类课程在短视频平台大量存在，这类教程的搜索学习，短视频相对图文更有优势，它对应了一些用户的刚需，且具有直观、可视化的特点。

根据极光发布的《内容生态搜索趋势研究报告》显示，短视频搜索的使用率已经增长到了 68.7%，这说明人们通过视频搜索的需求是存在的。

但从目前来看，视频搜索领域还存在明显的短板与局限。

其一是当下视频内容本身的局限，缺乏系统性与科学性的权威答案。首先从当前的情况来看，视频搜索还比较依赖文本检索，通过关键词匹配视频的标题、介绍、关键词、以及字幕信息，得到答案。

但是只是凭视频中出现过的某一元素作为关键词搜索，不太容易找到预期结果。也就是说，通过视频搜索去寻找某个事件或者知识的解释与答案，通过视频搜索到的可能更多是一些碎片化的只言片语，很难有系统科学的解释。

其次是视频搜索的效率太低，难以快速定位关键信息。

我们知道，文字搜索的一大优势在于高效。打开一个网页，用户可以略看、快速浏览寻找关键信息，可以高效的在页面之间跳转与比对。

视频搜索是通过文字关键词来去定位，通过视频形式来获得答案，视频化呈现虽然说更直观、更形象与生动，但对于想尽快了解一个垂直专业领域知识点的用户来说，视频搜索效率可能不及文字搜索。

如果有过视频搜索与文字搜索体验的人会知道，人们在1分钟内可以快速浏览完的文字被一位大叔在镜头前通过视频口播缓缓道来，恐怕要5分钟以上。

此外，一些适合视频播放的教程，它可能包含了“从入门到精通”的一系列内容，用户需要的信息也许是在视频后半段；但许多视频博主可能会在视频开头不断地安利观众“订阅点赞转发”，花了三分钟甚至五分钟才切入正题。

而观众要持续观看到后半段才能获取到所需要的关键信息，且需要不断的回放、暂停去收集记录信息，降低了用户信息获取的效率与进度。

这导致的结果是，一方面视频内容中有用的关键信息由于无法像文字那样直接提取，而视频内容的关键信息需要反复回放去逐帧提取，不方便查找、记录与存档。

如果搜索出来的视频内容不是用户想要的结果，则需要打开多个视频，非常耗时，因此，视频搜索在索引、精准查询处理、记录等方面的难题不少。在知识性、专业性的内容搜索上，视频搜索反而降低了用户寻找答案的效率。

而视频搜索还存在技术难题。与传统文本搜索相比，视频内容的特征难以提取与处理，特别是对于语音、图像等元素的识别存在很大的困难。

从盈利模式来看，关键词竞价排名的模式在视频搜索领域可能没那么好使。

在图文搜索领域，用户的搜索流量基本会集中于排名靠前的页面，越往后翻，打开率越低，流量越少。这意味着越靠前的页面，其点击量越高，商业价值越好。

在视频搜索领域，内容呈现是信息流模式，在信息流广告中，一般是按曝光计费的规则，一个信息流广告每达到一定量级的曝光，收取一定的费用。

但基于短视频的内容搜索，用户可能会考虑到节省时间，需要屏蔽低质量的内容，会从视频的评论量、转发量、点赞量以及视频文字主题等多个维度进行内容质量预判与筛选，优先选择点击观看那些综合数据表现更好的视频。

事实上，从国外YouTube视频搜索业务也能看出来，YouTube对关键词的检索，是针对浏览量、订阅、评论、分享等多因素综合考量的搜索模式。

也就是说，竞价排名应用到短视频领域，未必能获得更多的流量与点击，在前期或难以获得广告主的大规模投放。

此外是视频搜索的基础在于内容质量与知识性内容的广度与深度，由于信息分散在各大超级APP体系内，视频搜索还难以解决超级APP的信息孤岛问题，这决定了内容质量的全面性、深度与广度有其本身的局限。

这一方面要求平台拥有丰富的视频资源池，另一方面有赖于机器学习技术的提升去提升搜索结果对用户需求的响应速度与精准度。当前来看，视频搜索当前的意义更多是盘活APP内的流量。

三、视频搜索该往哪个方向走？

当然，搜索可能不仅仅在于对某一类信息的检索与提取，视频搜索的优势在于对实用性、操作技巧、生活类的内容的有更直观展示。比如说学插花、学摄影、学厨艺以及向某个垂直领域的专家学习某种教程、知识、工艺、技术等，视频的直观化展示可能要比文字更有冲击力。

抖音等短视频平台是推荐算法的中心化内容分发方式，过去这种算法机制的短板就在于，它容易埋没一些高质量的垂类内容，而视频搜索可以让用户通过关键词捕捉到那些自己需要的干货内容，平台也可以盘活更多的长尾流量。

对平台来说，视频搜索有望带动长尾流量的精准覆盖度。因此，平台需要尽可能的提升搜索算法，精准、高质量内容的触达效率越高，才能更好的调动人们的视频搜索习惯与需求。

对于内容创作者而言，视频搜索的引入，也降低了内容竞争门槛，提高内容对精准粉丝的曝光，也能更好的形成私域流量池。

在短视频平台，视频信息与知识的呈现是一个个独立的散点，有时候基于某个主题“众声喧哗”背后，聒噪中往往信息过载，同质化的内容太高，很难将某一主题下的信息归类，串联，梳理出知识脉络，成因机制、影响等等，这恰恰是图文搜索的优势——让信息与知识体系化。

因此，视频搜索的底层需要有平台有足够丰富、高质量的内容储备池，才能更好的高质量内容搜索体验，并通过产品机制将内容体系化。

从目前来看，视频搜索与图文的互补性很强，但图文搜索的高效性与信息的完整性要更强，图文内容的深度与厚度沉淀也远非视频内容可比。

因此，视频搜索要真正意义上形成变革性力量，底层需要有丰富、高质量的内容生态池，才能满足用户对高质量视频内容的诉求。

当下来看，视频搜索亟待补上自身在商业模式、内容呈现以及效率等层面的短板，优化用户体验。在这里，谷歌的经验或值得借鉴。

谷歌的做法首先是在技术层面进行优化，让用户可以快速定位关键内容。谷歌在去年推出了“搜索视频内容”这一新功能，其原理是拉取YouTube视频描述中的“时间戳信息”，用户可以快速定位教程类视频和长视频中的关键内容。

不过在当前，该功能目前依赖于内容创建者提供的时间戳，创作者提供的时间戳越多越详细，搜索的精准度就会越高。

某种程度上说，这项功能可以节省用户大量的观看时间，也补齐了笔者上述所说的效率短板，进而改善了用户的使用体验。

其次，谷歌是优化视频内容生态，谷歌当下的视频搜索的内容底层依然是以YouTube为主，但谷歌表示未来将与更多视频媒体合作，包括美国电视网体育频道（CBSSports）和新德里电视台（NDTV）。

也就是说，谷歌试图通过与更多的视频媒体合作，丰富内容的底层，强化内容的多元性与权威性。

事实上，在国内，百度也已经在这方面发力，在视频搜索领域，百度在2020年10月推出了百度看看，搜索的类别包括视频、小视频、直播三种，内容来源于百度系视频、爱奇艺、腾讯和B站等。

此外，Google搜索结果还引入了名人视频问答，显然谷歌在这里要打的是社交牌，即当用户搜索一个问题时，视频答案将显示在搜索结果的顶部，不过当用户在观看第一个视频后，转盘会自动切换到名人系列问答中的下一个，用户可以选择观看名人回答也可以略过。

名人视频问答的模式颇为新颖，但它的前提是需要从各领域邀请大量名人入驻，并为名人的视频问答模式开辟一种盈利模式，这并不容易。

但如果能成，也是一种有门槛、有差异化的视频搜索模式，也具备一定的创新意义与借鉴价值，从国内来看，这种模式其实很适合微博或者知乎去做。

在视频搜索领域，内容巨头合作、打破APP孤岛效应可能会是一个方向。

因为视频内容生态无论是在丰富度、权威性、深度干货、多元化等层面，与图文生态还有差距，它需要不断的丰富内容底层，在当前的条件下，融合更多外部内容信息源，形成视频内容矩阵合作，才能形成更好的内容搜索体验。

短视频平台现在还处于内容积累阶段，距离丰富的视频资源池还有一段距离，当下的视频搜索更多是生活化的检索，还难以做到学术检索，垂直专业类、权威类视频信息存在缺失与短板。

在过去，视频巨头们在内容赛道的竞争聚焦于内容互动以及娱乐化内容带来的流量价值。

但未来如何提升平台的知识性内容储备，推动专业性、权威性的知识性内容服务与生产，将深度学习、人工智能应用到视频搜索的识别与定位，解决优质知识获取效率，可能是做好视频搜索的前提，也是视频搜索未来的破局方向。

作者：王新喜

来源：热点微评（redianweiping）

我们是否需要视频搜索？

青瓜传媒 — Thu, 04 Mar 2021 08:09:21 +0000

这个片段的出处是哪儿？这种问题就像是手挠不到后背的痒。

大部分时候，遇到这样的情况，你可以做的就是把视频里的金句摘出来，用文字去网上问。不然，就截图去搜索引擎或者视频平台上搜。两者的前提都是把你看到的视频片段再降些维度，抽象成更简单的东西。但如果碰上冷门的视频或者视频中的语言你无法听懂，难题就来了。

所以，能不能直接用视频搜视频呢？

文字搜万物

目前来看，人们讨论的“视频搜索”更多依托于传统的输入文字完成搜索的模式。

抖音方面此前表示，抖音搜索在技术上会重点关注多模态信号补充，基于此，有两项技术在辅佐着这种传统意义上的视频搜索的精确性——OCR（光学文字识别）和ASR（语音识别）。

OCR全称Optical Character Recognition，直白点说就是能把图像中的（换到视频就是其中某几桢）出现的文字识别出来。路况监控读取车牌，拍照上传银行卡面读取卡号都是这项技术的日常应用。目前常用的OCR库有Google的开源项目tesseract以及微软提供API的Azure。在国内机器学习技术顶尖的百度也在去年开源了自己的OCR库PaddleOCR。

ASR（Automatic Speech Recognition）则与OCR对应，可以用于将视频内容中的语音内容提取出来，成为被检索的标记。SIRI与微信语音转文字都是这项技术的应用。

但这两项技术实际上只能完成最浅的视频搜索情景，它们的基础是“我知道我要看的东西叫什么”，并且最好视频本身已经预制了文本标签。

如果只是依靠OCR与ASR技术，同样的一只老虎在理论上需要脖子上挂一块牌子写着“老虎”才能被搜索出来。并且很可能脖子上写的是“我不是老虎”的那些，也会出现在搜索结果里。

但比如我想要搜索电影《机器人总动员》里的“瓦力”，又不知道电影和机器人的名字，我可能就只能搜“长得一个垃圾桶的机器人”，然后期待茫茫人海中有人给“瓦力”标记“垃圾桶”，之后托付给伟大的机器学习。

而它仍然很有可能把天行者卢克身边的R2-D2推给我。

其实谷歌在2017年就已经对视频搜索技术做了推进。

当时的Google Cloud Next云端大会上，谷歌公开了一个基于深度机器学习的视频技术应用Cloud Video Intelligence API。当时的谷歌副总裁李飞飞现场演示了谷歌在深度机器学习的基础上，已经可以做到在视频中精确定位某个客体出现的时间。

这项技术在视频搜索上的意义是可以将纯粹的图像信息进行归类，让它们可以被检索。比如搜索“老虎”，在视频资料库中所有与老虎相关的视频都会被标记并且按相关程度列出。这项技术解决了搜索过程中只能将一切转化为文字再进行机器学习或者匹配的一般逻辑，李飞飞也视其为“黑暗中为数字世界点燃一盏烛光”。

同样是2017年，阿里文娱和达摩院在视频搜索上也进行了关于语言、语音等多模态视频搜索的实践。其中一个技术方案是利用人脸识别的技术，识别出视频中出现的人物如黄子韬、易烊千玺，“再通过 OCR/ASR 技术，识别各视频中的对话内容并转化成文本，然后基于文本去做结构化理解”。

2019年事情又往前推进了一步。谷歌开始尝试在涉及Youtube的英文视频搜索中直接显示视频中段的相关内容。Engadget的报道称，这意味着如果你要搜索某支曲子，搜索结果会显示某场包含这首曲子的音乐会，并且进度条直接拉到这首曲子的位置。

但这项技术目前仍然依赖上传者在视频中手动添加时间标记。并且这样的技术本质上仍然是将其他模态形式的信息转译成文本，并没有动摇传统搜索模式以文字输入为基础的基本形态。

丢掉文字，视频搜视频？

回到开头的问题，我如果手头上只有一个视频片段，要怎么搜索呢？依赖文字输入的搜索功能并不能完成这个任务。这时候只能以视频搜索视频。

现实的情况是，把一整个视频作为搜索依据还有点难，不过可以将视频定格在某一桢，而这其实就是现在已经随处可见的图片搜索。

图片搜索最早要追溯到28年前。

1992年，日本学者T.Kato在一篇论文里首次提出了基于内容的图像检索（CBIR）概念。CBIR技术通俗来说是一种匹配技术。在输入一个样本图片文件时，将图像中的色彩（颜色直方图、颜色一致性矢量等参数）、形状（面积、曲率等）和纹理等信息进行特征提取，进行编码，然后将图像编码放到信息库中去寻找相似图像。

基于此，IBM Aimaden研究中心开发了第一个商用的CBIR系统QBIC。谷歌也在2001年推出了图片搜索服务。而在精确度方面的发展，则托付给了深度学习技术。

抖音在2019年曾推出过抖音识图的功能，用户可以通过这个功能搜索到一则短视频中出现人物的所有抖音视频。但抖音推出识图功能的主要动力还是其在电商方面的潜力。利用这项技术，抖音博主自己带货的衣服可以直接被识别出来链接到商品，节约了中间更多的跳转步骤。

而在2020年，阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作，正式开源业界首个大规模的多模态直播服饰检索数据集（Watch and Buy）。借助PixelAI 商品识别算法，商品的图片识别已经可以被应用在直播环境中。

但图片搜索所面临的风险也高于文字，美国媒体DIGITAL TREND在抖音识图上线后不久就表示出对于私人视频信息安全的质疑，而这个实验性的功能目前也已经从抖音的侧栏里下线。

不过，这些技术已经基本能满足大多数的视频搜索需求。可以看出，目前的搜索逻辑都是从低维到高维（文字搜图片，图片搜视频），在各种媒介形式中，视频是复杂程度最高的。另一方面，视频形式对于用户来说完成度太高，把所有东西都揉在一起。如果能通过搜索功能把与视频相关的文字和图片搜索结果拆解出来，这可能才是视频媒介越来越成为主流之后，我们对视频搜索的期待。

但鉴于在视频在保存和格式统一上的高门槛，其作为搜索输入端的价值不高。并且由于版权限制，视频素材未来会越来越被各个平台圈地保护，这又导致视频搜索先天性地只能变成某种形式的站内搜索，而失去了作为一个开放搜索平台的内容宽度。

所以无论怎么看，用视频搜索内容可能仍然是个遥远的事情

作者：油醋

来源：“品玩”（ID:pinwancool）