我用 5 分钟,读完了 80 分钟的视频
2023-8-27
| 2024-3-19
0  |  0 分钟
type
status
date
slug
summary
tags
category
icon
password
platform

媒介即讯息

不同的信息载体适合用来展示不同的内容。
媒介
纯文本
图文
视频
音频
本质
文字信息
图像信息文字信息
图像信息文字信息音频信息
音频信息
信息密度
⭐⭐⭐⭐
⭐⭐⭐
⭐⭐
情感价值
⭐⭐
⭐⭐⭐⭐
⭐⭐⭐
丰富度
⭐⭐
⭐⭐⭐
⭐⭐⭐⭐
 

文字的是人类抽象出来的信息的载体

文字具有高效和长效的特点,我们今天之所以能够感受到百千年前的佳作,李白的诗句,孔夫子的论语,司马迁的史记,都要得益于文字。而相比起来,那些古代的舞蹈、音乐、就没那么幸运了,大多都随着继承者的落寞,寂静在历史长河中。
所以阅读文字也是人类获取信息最好的方式。
可惜的是文字出现的时间非常短暂,阅读文字的能力还没能够写入到人类的 DNA 中,人类还是需要通过后天学习来掌握阅读能力,经过良好地培训,好的阅读者也可以达到一目十行的阅读速度。
但即便是今天,在中国的义务教育这么普及的情况下,阅读文字对大部分人来说依旧是困难的。通过阅读文字来获取信息,是高效的,但却不是最符合人类出厂设定的方式。反而,通过观看画面信息,听取声音信息的方式,才是最符合人类出厂设定的方式。
 

视频作为信息的载体

缺点是效率太低。用来展示简单的信息时,视频很方便。但当展示的内容变相复杂,视频这一形式的缺点就暴露得愈加明显。同样是 10000 字的信息量,观看一个视频,需要花费 1 个小时的时间。但如果通过图文的方式来阅读,可能只需要 15 分钟。这就是效率上的差距。
当然视频也有优点,受益于图像信息和声音信息,视频展现出来的内容更加丰富,更加多维,感染能力更强,更符合观众的视听,接受起来更加自然。
播客(音频内容)也是一样的道理。缺少了图像信息,音频内容通过耳朵进入大脑的带宽更低,效率也更低。但声音也有很多优点,例如声音让人觉得更加亲近,更加适合用来讲故事等。
音频这种内容形式非常有自己的特点。
  1. 人类接受音频信息的带宽是非常小的
    1. 我们的大脑在处理音频信息时,需要投入更多的注意力。举个例子,很多人看过某个日本的综艺节目,节目里在人打电话时,无论递给他什么东西,他都会接住。
  1. 人类接受音频的效率非常低。
    1. 接受同样的文字, 阅读的速度是听音频的速度的3-4倍。况且在图文和视频信息中,经常可以通过图表来简化内容,这在音频里是无法实现的。
  1. 音频非常亲切,且有辨识度
    1. 古话说:未见其人而先听其声。我们与朋友相处久后,常常通过他的声音就可以辨识他。反过来说。当你长期接触一个声音时,也会觉得你和他更加亲密。
而播客的内容形式,多是几个播主之间的闲聊,与嘉宾的闲聊,或是纯粹地讲故事。这几种内容形式都不会太过硬核,刚好是听众可以接受的程度。而播主们的声音,又可以发挥音频亲密的特点,大大提高播客的用户留存率。 来自
 
今天的短视频平台、长视频平台、博客平台里,都有很多不错的视频和音频。其中就有不少我感兴趣的。但作为一个效率爱好者,一个忙碌的打工人,我实在不愿意舍弃 1 小时的时间,去获取 15 分钟的信息。
 

视频/播客处理流程

所以我就想了个办法
  1. 将视频和音频转化成成文字,通过阅读文字,来处理视频。
  1. 借助最新的 AI 技术,可以对文字进行进一步的处理,提高处理的速度。
且看下面的流程图
notion image

01 直接下载视频字幕/逐字稿

视频我们以常见的长视频平台,Bilibili 和 Youtube 为例。
在发布视频时,视频创作者可以上传字幕。视频平台为了让用户有更好的观看体验,可能也会给视频生成 CC 字幕,Youtube 的 CC 字幕覆盖率比较高, Bilibili 则还比较少。
如果有字幕文件,我们的处理流程就会简单很多,直接下载字幕文件即可。
 
在 Youtube 中,我是通过一个叫“Transcript & Summary”的浏览器插件来获取字幕。它会在 Youtube 视频的网页右侧展示视频的字幕,直接点击复制全文即可。
notion image
 
在 Bilibili 中,则是通过油猴插件来获取字幕。
在 Greasy Fork 网站搜索 CC 字幕即可使用。开启插件后,就可以在 B 站的字幕文件处点击下载按钮下载字幕。
notion image
 
 
同样的,如果播客有提供逐字稿,我们可以直接下载播客的逐字稿。
例如疯投圈的这期播客逐字稿,我们就可以复制文章中的文字,保存到本地。
notion image
但毕竟提供逐字稿的播客比较少,所以我们需要将音频/视频转化成文字。
 

02 将视频/音频转成文字

如果视频没有字幕,播客没有提供逐字稿,则我们需要用大模型来讲视频/音频转化成文字。
第一步,下载视频/音频的源文件。
我是使用 Downie 这款工具,来下载源文件。复制视频/音频的链接,粘贴到应用中即可。Youtube/bilibili/抖音的视频,小宇宙的播客,都可以下载。
notion image
第二步,讲源文件转化成文字
这里推荐使用的是飞书妙计或者通义听唔,来转换,他们的好处是可以区分不同的说话人。
这一步骤通常需要消耗比较10-20 分钟的时间,但好在可以在后台进行。
notion image
notion image
 

03 AI 总结

今年来,大模型的发展速度飞快。ChatGPT、Claude、llama 等大模型发展迅速,基于了我们很多新的能力。
大语言模型的几个能力:聊天、总结、扩展、推理。转化,都可以用来帮助处理信息。
 
大部分视频/音频,使用的都是口头语句表达,不是适合阅读的书面语。所以直接阅读字幕/视频稿并不合适。如果想要直接阅读文字,可以使用 AI 将字幕或逐字稿转化为书面语句。
promot 是
 
用AI 来总结内容,帮助我们更快地了解视频或博客的内容,节省阅读的时间。
这里我推荐使用的是 Claude 来总结。
 
例如这个胖东来老板的这个视频,上了 B 站热门,146 万的播放量,我想了解下他讲的内容,但又不愿意花 28 分钟时间来观看。于是我就把他交给 AI。
notion image
下载字幕后,上传到 Claude 上,写上这句 Prompt
notion image
关于大模型的选择
大模型
gpt3.5_turbo_16k
Claude
Llama
推理能力
⭐⭐⭐⭐
⭐⭐⭐⭐
⭐⭐⭐
上下文数量
即将开放 32k
160k/200k
即将支持 32k
价格
充值 chatgpt plus 或调用接口
暂时免费
开源
使用难度
ChatGPT可直接使用 接口需代码接入
可直接使用
需代码接入
notion image
首先,Claude 支持更大的上下文数量(160k/200k),要比 ChatGPT 的 16k 或 32k 要大得多。而且 Claude 的使用很方便,不像 llama 那样需要代码接入。最后,Claude 目前还是完全免费的,不过可以预见的是未来一定会收费的。能免费就先用着呗。
 
 
 

其他产品推荐

上面这套流程,也有一些现成的产品可以直接使用
比如 bilibili 的【AI 课代表】,安装好插件后,插件就会展示视频的总结内容,字幕列表,针对视频中的内容,和可以进行提问。使用体验非常棒。
notion image
notion image
notion image
notion image
notion image
 
 
再比如之前在 newsletter 里推荐过得 【Monica】,也可以直接总结 Youtube 的视频。不过因为我的会员已经过期了,就不不展示 Monica 的功能了,想了解的读者朋友可以查看我的这条动态。
notion image
 
最近有一个创业团队做的产品 Memo,也可以实现这一步骤。Memo 可以讲播客的文字化、并进行 AI 总结。不过其使用的模型并不支持识别不同的说话人,目前也仅在内测中,还不够稳定。例如我转化的文字,就全部都变成了繁体中文。所以可以保持关注下后续的更新迭代。
notion image

结语

用文章中的这套流程来处理视频,是从「效率」出发的方法论。并不是所有的视频都要用这种方式来处理。很多制作精良的视频,经过文字化和 AI 的处理后,丰富的内容将变得非常平淡、平实。
很多视频,比如电影、动画、up主的创作等等,是可以坐下来好好欣赏的。
在我的日常生活里,我只会用这样的方法来处理那些我想了解,但并不想花时间观看的视频。
这篇文章中,详细地讨论过「效率」和「体验」往往是不可兼得的。
而有了这个方法后,在观看视频时,你就可以决定使用效率的方法来快速解决,还是在茶余饭后,坐下来,好好欣赏这个视频。
 
 
notion image
效率工具
  • AI
  • 草稿拾遗 049 期草稿拾遗 048 期
    目录