我用 5 分钟，读完了 80 分钟的视频

type

status

date

slug

summary

媒介即讯息

不同的信息载体适合用来展示不同的内容。

媒介	纯文本	图文	视频	音频
本质	文字信息	图像信息文字信息	图像信息文字信息音频信息	音频信息
信息密度	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐
情感价值	⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
丰富度	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐

文字的是人类抽象出来的信息的载体

文字具有高效和长效的特点，我们今天之所以能够感受到百千年前的佳作，李白的诗句，孔夫子的论语，司马迁的史记，都要得益于文字。而相比起来，那些古代的舞蹈、音乐、就没那么幸运了，大多都随着继承者的落寞，寂静在历史长河中。

所以阅读文字也是人类获取信息最好的方式。

可惜的是文字出现的时间非常短暂，阅读文字的能力还没能够写入到人类的 DNA 中，人类还是需要通过后天学习来掌握阅读能力，经过良好地培训，好的阅读者也可以达到一目十行的阅读速度。

但即便是今天，在中国的义务教育这么普及的情况下，阅读文字对大部分人来说依旧是困难的。通过阅读文字来获取信息，是高效的，但却不是最符合人类出厂设定的方式。反而，通过观看画面信息，听取声音信息的方式，才是最符合人类出厂设定的方式。

视频作为信息的载体

缺点是效率太低。用来展示简单的信息时，视频很方便。但当展示的内容变相复杂，视频这一形式的缺点就暴露得愈加明显。同样是 10000 字的信息量，观看一个视频，需要花费 1 个小时的时间。但如果通过图文的方式来阅读，可能只需要 15 分钟。这就是效率上的差距。

当然视频也有优点，受益于图像信息和声音信息，视频展现出来的内容更加丰富，更加多维，感染能力更强，更符合观众的视听，接受起来更加自然。

播客（音频内容）也是一样的道理。缺少了图像信息，音频内容通过耳朵进入大脑的带宽更低，效率也更低。但声音也有很多优点，例如声音让人觉得更加亲近，更加适合用来讲故事等。

音频这种内容形式非常有自己的特点。
人类接受音频信息的带宽是非常小的
我们的大脑在处理音频信息时，需要投入更多的注意力。举个例子，很多人看过某个日本的综艺节目，节目里在人打电话时，无论递给他什么东西，他都会接住。
人类接受音频的效率非常低。
接受同样的文字，阅读的速度是听音频的速度的3-4倍。况且在图文和视频信息中，经常可以通过图表来简化内容，这在音频里是无法实现的。
音频非常亲切，且有辨识度
古话说：未见其人而先听其声。我们与朋友相处久后，常常通过他的声音就可以辨识他。反过来说。当你长期接触一个声音时，也会觉得你和他更加亲密。
而播客的内容形式，多是几个播主之间的闲聊，与嘉宾的闲聊，或是纯粹地讲故事。这几种内容形式都不会太过硬核，刚好是听众可以接受的程度。而播主们的声音，又可以发挥音频亲密的特点，大大提高播客的用户留存率。来自

今天的短视频平台、长视频平台、博客平台里，都有很多不错的视频和音频。其中就有不少我感兴趣的。但作为一个效率爱好者，一个忙碌的打工人，我实在不愿意舍弃 1 小时的时间，去获取 15 分钟的信息。

视频/播客处理流程

所以我就想了个办法

将视频和音频转化成成文字，通过阅读文字，来处理视频。

借助最新的 AI 技术，可以对文字进行进一步的处理，提高处理的速度。

且看下面的流程图

01 直接下载视频字幕/逐字稿

视频我们以常见的长视频平台，Bilibili 和 Youtube 为例。

在发布视频时，视频创作者可以上传字幕。视频平台为了让用户有更好的观看体验，可能也会给视频生成 CC 字幕，Youtube 的 CC 字幕覆盖率比较高， Bilibili 则还比较少。

如果有字幕文件，我们的处理流程就会简单很多，直接下载字幕文件即可。

在 Youtube 中，我是通过一个叫“Transcript & Summary”的浏览器插件来获取字幕。它会在 Youtube 视频的网页右侧展示视频的字幕，直接点击复制全文即可。

在 Bilibili 中，则是通过油猴插件来获取字幕。

在 Greasy Fork 网站搜索 CC 字幕即可使用。开启插件后，就可以在 B 站的字幕文件处点击下载按钮下载字幕。

网址：https://greasyfork.org/zh-CN/scripts/by-site/bilibili.com?site=bilibili.com&q=CC字幕

同样的，如果播客有提供逐字稿，我们可以直接下载播客的逐字稿。

例如疯投圈的这期播客逐字稿，我们就可以复制文章中的文字，保存到本地。

https://mp.weixin.qq.com/s/UpWVLgnq1SpPdN3VPmBAyA

但毕竟提供逐字稿的播客比较少，所以我们需要将音频/视频转化成文字。

02 将视频/音频转成文字

如果视频没有字幕，播客没有提供逐字稿，则我们需要用大模型来讲视频/音频转化成文字。

第一步，下载视频/音频的源文件。

我是使用 Downie 这款工具，来下载源文件。复制视频/音频的链接，粘贴到应用中即可。Youtube/bilibili/抖音的视频，小宇宙的播客，都可以下载。

第二步，讲源文件转化成文字

这里推荐使用的是飞书妙计或者通义听唔，来转换，他们的好处是可以区分不同的说话人。

这一步骤通常需要消耗比较10-20 分钟的时间，但好在可以在后台进行。

03 AI 总结

今年来，大模型的发展速度飞快。ChatGPT、Claude、llama 等大模型发展迅速，基于了我们很多新的能力。

大语言模型的几个能力：聊天、总结、扩展、推理。转化，都可以用来帮助处理信息。

大部分视频/音频，使用的都是口头语句表达，不是适合阅读的书面语。所以直接阅读字幕/视频稿并不合适。如果想要直接阅读文字，可以使用 AI 将字幕或逐字稿转化为书面语句。

promot 是

用AI 来总结内容，帮助我们更快地了解视频或博客的内容，节省阅读的时间。

这里我推荐使用的是 Claude 来总结。

例如这个胖东来老板的这个视频，上了 B 站热门，146 万的播放量，我想了解下他讲的内容，但又不愿意花 28 分钟时间来观看。于是我就把他交给 AI。

下载字幕后，上传到 Claude 上，写上这句 Prompt

关于大模型的选择

大模型	gpt3.5_turbo_16k	Claude	Llama
推理能力	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
上下文数量	即将开放 32k	160k/200k	即将支持 32k
价格	充值 chatgpt plus 或调用接口	暂时免费	开源
使用难度	ChatGPT可直接使用接口需代码接入	可直接使用	需代码接入

首先，Claude 支持更大的上下文数量（160k/200k），要比 ChatGPT 的 16k 或 32k 要大得多。而且 Claude 的使用很方便，不像 llama 那样需要代码接入。最后，Claude 目前还是完全免费的，不过可以预见的是未来一定会收费的。能免费就先用着呗。

其他产品推荐

上面这套流程，也有一些现成的产品可以直接使用

比如 bilibili 的【AI 课代表】，安装好插件后，插件就会展示视频的总结内容，字幕列表，针对视频中的内容，和可以进行提问。使用体验非常棒。

再比如之前在 newsletter 里推荐过得【Monica】，也可以直接总结 Youtube 的视频。不过因为我的会员已经过期了，就不不展示 Monica 的功能了，想了解的读者朋友可以查看我的这条动态。

最近有一个创业团队做的产品 Memo，也可以实现这一步骤。Memo 可以讲播客的文字化、并进行 AI 总结。不过其使用的模型并不支持识别不同的说话人，目前也仅在内测中，还不够稳定。例如我转化的文字，就全部都变成了繁体中文。所以可以保持关注下后续的更新迭代。

结语

用文章中的这套流程来处理视频，是从「效率」出发的方法论。并不是所有的视频都要用这种方式来处理。很多制作精良的视频，经过文字化和 AI 的处理后，丰富的内容将变得非常平淡、平实。

很多视频，比如电影、动画、up主的创作等等，是可以坐下来好好欣赏的。

在我的日常生活里，我只会用这样的方法来处理那些我想了解，但并不想花时间观看的视频。

在这篇文章中，详细地讨论过「效率」和「体验」往往是不可兼得的。

而有了这个方法后，在观看视频时，你就可以决定使用效率的方法来快速解决，还是在茶余饭后，坐下来，好好欣赏这个视频。