随着网课、在线会议的快速发展,一台便携智能的录音设备,开始成为不少学生群体和初入职场的小白的日常刚需。



偶尔随机性的录音需求,普通智能手机足够解决。如果是相对高频的录音及文字转写需求,一台智能录音笔则十分必要,尤其是日常室内录音转写场景,价位百元左右的入门级录音笔瞬间晋升为生产力工具。

近日,科大讯飞发布了入门级的产品讯飞智能录音笔 A1(以下简称 “讯飞 A1”),售价 329 元。在价位上,讯飞 A1 直接对标 PK 的是搜狗 398 元的 AI 录音笔 C1(以下简称 “搜狗 C1”)。

两款产品价格相差不大,同属 AI、互联网厂商跨界做智能录音笔硬件产品,都提供语音转写功能,二者谁表现更优秀?搜狗 C1 能否保持入门级录音笔的领先地位,讯飞 A1 能否 “重新定义”入门级录音笔产品?我们对讯飞 A1 和搜狗 C1 做了一个对比。

外观

颜值也是生产力。

在外型上,讯飞 A1 和搜狗 C1 有区别。搜狗 C1 产品外观造型简洁直接,直观但传统。讯飞 A1 则采用了卡带造型设计,比较个性化,有设计感,辨识度高,但体型相对搜狗 C1 增加。

搜狗 C1 顶部是一个开关机 / 录音按钮,录音笔正面有个竖条形的指示灯。

在靠近录音笔的上下边缘部分则是两颗数字全向麦,底部是一个 USB Type-C 接口。

讯飞 A1 采用黑色小卡带设计,机身正面有两枚按键,分别是开关键和录音键,两颗按键中间有着声纹装饰,其中最两侧的是两个指示灯按钮。

讯飞 A1 功能按键下方就是 knowles 双麦克风阵列,在侧面有一个 USB Type-C 接口。

配置

搜狗 C1 尺寸为 62x18x15mm,重 17 克,其电池容量为 300mAh,录音时长为 960 分钟,待机时长为 20 天,内部存储空间为 16GB。

讯飞 A1 尺寸为 55x32x15mm,重 32 克,电池容量为 550mAh,录音时长为 1200 分钟,待机时长为 25 天,提供 32GB 的机身储存和 10GB 的云端储存。

(讯飞 A1 和搜狗 C1 产品对比表)

在携带方便性上,搜狗 C1 采用了侧夹式设计,讯飞 A1 则采用了绑带式设计。这两种设计在日常使用中都比较方便。

在收声录音方面,搜狗 C1 配备了两颗数字全向麦克风,讯飞 A1 采用了 Knowles 双麦克风阵列。声音录制时,两款产品均支持角色分离,都是依靠手机 APP 进行音频转写。讯飞 A1 还额外支持中英文混说识别。

讯飞 A1 与搜狗 C1 产品都定位于入门级录音笔产品,日常使用中他们更像是手机外设的 IoT 设备:录音声音后,依靠手机 APP 进行音频转写。这也印证了两点,一是智能录音笔产品直接竞争力表现在现场收声录音能力(核心是降噪),二是核心竞争力表现在产品背后的语音转文字的云端 AI 能力。

功能体验

1、APP 体验

要使用讯飞 A1 与搜狗 C1 这两款设备,首先要下载讯飞听见录音转文字 APP 和搜狗语音助手 APP,除录音外的所有操作均可在手机上进行。两款 APP 打开后通过简单几步就能快速完成录音笔的连接,正常使用。

▲讯飞听见录音转文字 APP

▲搜狗录音助手 APP

在 APP 的功能体验上,两款录音笔搭配的 APP 均支持手机自身录音。通过 APP,我们还可以在手机上看到录音笔设备的存储空间,固件版本等信息,这些二者差距不大。

在具体操作应用中,讯飞听见语音转文字 APP 和搜狗录音助手 APP 最核心的不同,讯飞听见语音转文字 APP 操作简单直接,它并没有具体区分录音的场景,直接实现音频内容的转写,针对语气词或者讲话人的区分,可以内容录制完毕并转写后开启。

搜狗录音助手 APP 则细分了不同的语境,包括普通录音、采访速记、演讲速记、同声传译、对话翻译等,这些其中部分需要 VIP 会员,需要付费,其包括语气词区分和讲话人区分同样是要在录制转写完成后进行。

在这一点上,讯飞录音笔的 APP 操作上,直击用户最需要的东西,而场景语境、转写等都不需要用户处理,全都云端技术处理;搜狗则需要用户自己选择具体场景以实现不同的转录效果。至于孰优孰劣,仁者见仁了。

2、录音转写体验

一款智能录音笔,核心是录音转写的准确性。讯飞 A1 和搜狗 C1 实际录音并转写准确度如何?我们从一席、TED 和网易新闻上选取了三段演讲视频进行体验,分别对两款录音笔产品在演讲、英语识别以及采访三种情况下转写准确率进行对比体验。

演讲:石正丽《追踪 SARS 源头》,来源:一席

这篇演讲整体发音标准,我们采用实时转写方式比较讯飞 A1 和搜狗 C1 产品的具体表现。

在实时转写中,涉及 SARS 病毒这类英文词汇,涉及到的数字内容也比较多,这些都要求录音笔在转写过程中需要区分出这些单词,并对数字进行准确识别。

我们对两款录音笔实时转写输出的文字进行分析。

(1) 搜狗 C1 将多处的英文 “SARS”直接识别成 “萨斯”、“杀死”,这在发音上没有问题,但是会影响识别的体验,讯飞 A1 也存在两处这样的问题,但应该是支持中英混说识别的缘故,中英文混说识别方面讯飞 A1 高于搜狗 C1。

(2) 非典型性肺炎,开始部分搜狗 C1 部分识别为 “非点进行肺炎”,讯飞 A1 识别准确。

(3) 在实时转写过程中,有一句 “27 个省市都被 SARS 波及到”,讯飞 AI 识别转写为 “27 个省市都被杀死(注:SARS 读音)波及到”,搜狗 C1 转写为 “27 个省市。都被杀死过街道”。

整体来看,由于这篇演讲视频含中英文混杂、断句、数字等情况,讯飞 A1 转写准确率在 99.3%,而搜狗 C1 转写准确率大概是 96.5%,搜狗 C1 转写的效果稍逊于讯飞 A1。

演讲:Sara Jones 《My Story of Love and Loss as a Transracial Adoptee》,来源:TED

英文相比于中文转写难度会更大一些。英文中连读、缩写、近音词等比较多,因此会对转写带来一定困难,转写的同时进行实时翻译,也会更加考验录音笔产品的实力。

接下来,我们通过讯飞 A1 的英文转中文功能和搜狗 C1 的同声传译功能进行转写和翻译的测试。

在实时转写及翻译效果上,讯飞 A1 和搜狗 C1 差别不大,都有不准确的地方,在翻译效果上也基本一致,都存在机器翻译的情况。不过,这项功能搜狗 C1 是 VIP 独享,讯飞 A1 上通过转写时长可以免费换取。

此外,搜狗 C1 与讯飞 A1 均支持 10 种语种转写,但后者拥有藏、维语的独家转写。方言转写方面,搜狗 C1 支持 10 种方言,讯飞 A1 则支持 12 种方言。

采访:致前行者《杨澜对话欧阳自远:中国探月十五年》,来源:网易新闻

采访往往是由主持人和受访者两部分组成,主持人发音上相比于受访者会好一些,而受访者则可能会夹杂一些口音或专业名词,这对于录音笔的转写来讲也造成了一些挑战。

这段素材来自于中国探月首任首席总工程师欧阳自远院士的采访,素材中除了主持人杨澜还有旁白的声音。

在讲述人的区分上,讯飞 A1 是智能识别讲述人的数量,而搜狗 C1 则是手动选择。

在转写效果上,讯飞 A1 表现更好。而搜狗 C1 出了同音词转写出现问题,实际录制过程中也出现了一些错转的情况。通过统计,讯飞 A1 转写准确率达到 98.3%,搜狗 C1 为 94.2%。

通过三个场景的转录我们看到,讯飞 A1 和搜狗 C1 都有着不错转录效果,但是讯飞 A1 在语境识别、断句方面,准确度更高一筹。抛开硬件因素,笔者认为讯飞 A1 配套的讯飞听见语音转文字 APP 背后的云端 AI 语音识别能力,对产品竞争力的贡献更大。

这方面,讯飞 A1 赠送长达 1 年的免费转写服务,也显得很有诚意和竞争力。

总结

讯飞 A1 与搜狗 C1 是两款定位基本一致的入门级智能录音笔设备。对比体验下来,笔者也深刻感受到,两款产品在近乎相同价位、硬件配置差异不大(讯飞 A1 刚刚发布配置略胜一筹)的情况下,与其说他们硬件对标,不如说是硬件背后的讯飞与搜狗之间的 AI 技术实力与底蕴的 PK。

AI 是一个需要技术沉淀、数据积累的长赛道。讯飞与搜狗的语音识别与 AI 能力谁更胜一筹呢?讯飞 A1 与搜狗 C1 的对比,更像是他们二者在 AI 能力上的一场 PK。

我们回到文章开头,讯飞 A1 重新定义了入门级的智能录音笔产品了吗?

笔者认为,讯飞 A1 的发布,代表着科大讯飞的语音识别与 AI 转写、翻译等技术的技术下放。讯飞 A1 的出现,意味着可以让更多的人,用更低的成本,享受讯飞语音识别与 AI 技术的服务。

同时我们也乐观预期,讯飞 A1 的发布,必然会刺激整个入门级智能录音笔产品,在硬件配置、技术服务、价格力度等方面的竞争,这对消费者而言、对 AI 技术的发展而言,都是积极的。