万物皆可‘声’成我们正在进入数字造物的黄金期
时间: 2026-01-12 04:07:29 | 作者: 吨桶清洗设备
提示:点击图片可以放大社交平台上,有人#,邪修成为雅思单词十级学者;有人围观#,被假视频骗得团团转……
![]()
![]()
不过几年时间,曾被吐槽“人机味太重”的AI语音克隆,早已进化到开口就能“骗”倒众人的地步。正如网友所言:过去我们担心照片是P的,现在,连声音也不敢随便信了……
如今,AI语音合成叠加图像生成技术正以前所未有的速度迭代,应用场景遍地开花,善恶难辨。但有一点再清楚不过:AI正在模糊真实与虚假的边界,而我们的辨别力,似乎已经跟不上技术的进化了。
据DeepMedia 统计,与2022年同期相比,2023年被发布在网上的深度合成视频数量是过去的3倍,深度合成语音数量是过去的8倍。至2025年底,预计仅社交媒体平台中流通的深度合成内容将突破千万条。
今年7月,华语乐坛顶流周杰伦为纪念出道25年,在抖音上发布的90秒AI合成回忆版短视频,100分钟内点赞破300万,背后正是这类技术日趋成熟的缩影。
![]()
Synthesia可生成带情绪控制的虚拟人播报,用户能通过微调语调、插入笑声与呼吸声,实现“语音版PS”。今年年初,该公司完成D轮融资1.8亿美元,估值较2023年增长110%。
HeyGen 凭借精准唇音同步和多语言支持迅速崛起,用户只需上传人像和音频,即可生成开口说线万美元。
ElevenLabs 作为AI语音新锐,因1分钟复刻明星语音出圈,2024年获8000万美元B轮融资,估值超11亿美元。
![]()
图像生成方面,Midjourney 和 Stable Diffusion 3 持续推动写真级视觉创作,而 Generated Photos 则通过海量真人数据深度学习,批量生成虚拟人脸,大范围的应用于社交头像与数字人构建。
科大讯飞作为老牌的“长期玩家”,自2008年实现语音合成自然度超越线年发布“星火大模型”,已形成从语音识别到多模态生成的完整技术栈,成为一站式AI音视频方案供应商。
![]()
快手潜心孵化的AI创意生产力平台——可灵AI ,产品自发布以来迭代升级30余次,累计生成超2亿个视频和4亿张图片,目前已在全球拥有超过4500万创作者,已有包括小米、百度、蓝色光标、三七互娱、4399、北京电视台等在内的超过2万家企业客户,成为大模型产业落地的标杆产品。
![]()
2023年,视频生成行业还停留在寒冬期,而到了2024年,Sora震撼发布瞬间点燃科技圈。它凭借60秒一镜到底的高清生成能力及三维空间动态连贯性,被不少业内人士视为 AI 视频界的 ChatGPT 时刻。自此,AI 语音合成叠加图像生成技术的战场,因 Sora 的到来真正热闹起来。
今天AI 语音与视觉生成技术呈现出“轻量化、精细化、实时化”的显著特征,以前所未有的姿态走进大众视野。
它们不再依赖庞大复杂的超级计算设备,经过深度优化后,能在普通手机或电脑上流畅运行,如同将专业录音棚轻松“装进口袋”。用户使用 AI 生成内容的门槛大幅度降低,近乎零门槛,还能进行高度精细的调节。比如,为合成语音赋予“温柔的疲惫感”,或者精准控制数字人嘴角的上扬弧度。更令人惊喜的是,创作体验实现了“秒级响应”:话音刚落,AI 就能以不同声线实时复述;视频拍摄完毕,瞬间就能完成换脸或场景切换。
这场以“轻、细、快”为标志的技术进化,让曾经令人咋舌的能力,迅速成为行业标配,同时极大地降低了创作门槛。普通用户无需专业录音设备或演员,也能制作出视听质量出众的内容。这种“技术民主化”极大地激发了 UGC 生态的繁荣,重塑了每个人创作、表达与连接的方式。
![]()
《DT研究院》发布的《2024年轻人AI使用趋势报告》显示,在回答“是否关注 AI 文本、AI 绘画、AI 音频、AI 视频等 AIGC 工具”时,选择“很关注”和“比较关注”的年轻人整体比例超过 8 成。而且,年轻人对生成式 AI 功能的使用比例更高,大多分布在在图像处理与生成、音频/视频制作与生成、语音识别处理等方面。
![]()
另一方面,相比海外,国内厂商在吸引中小内容创作者乃至普通用户,利用 UGC 生态扩大 AI 语音与视觉生成模型使用基数和生成规模方面,似乎更有一套。
但凡体验过 AI 语音与视觉生成技术的人都知道,就当下的大模型而言,要实现“一次生成就得到满意成片”是很有难度的。国外厂商大多采用按次收费以及高频订阅的收费机制,这一做法从根源上对用户大规模生成视频的可能性进行了限制。毕竟这种模式下成本高昂,用户试错的余地很小,创作热情和内容传播潜力自然就受到了抑制。
与之形成鲜明对比的是,国内厂商大多采取“免费额度及会员订阅”的组合策略。每天为用户赠送一定积分,以此鼓励他们去体验相关功能;会员的定价普遍比国际水平要低,且能为会员提供充足的生成权限,让用户都能够尽情使用,这大幅度的降低用户的使用门槛。这种模式不仅成功吸引大量普通用户前来尝试,还将促使他们不断频繁生成内容、反复来优化,真正让技术在实际应用中发挥最大价值。
更为关键的是,国内的产品大多和小红书、抖音等社交内容平台实现深层次地融合,逐步构建起“生成、发布、传播”的完整闭环,尤其娱乐向内容很容易在网络上形成刷屏效应。AIGC占领社交平台热点,高频内容消费和互动,又能反过来推动模型不断迭代升级,进而形成良性循环。
![]()
AI 生成技术仍在快速地发展,多模态模型不断融合文本、图像、音频与视频,使生成能力趋于一体化,文本、图像、音频、视频之间的边界逐渐被打破。品牌厂商与创作者正借助语音、视频生成大模型,努力开启内容创作与消费的新篇章。
当然,技术越强大,越需要合理引导与约束。毕竟,AI 生成的内容无限接近于真实,却依然不真实。

English
