万物皆可‘声’成我们正在进入数字造物的黄金期

时间: 2026-01-12 04:07:29 | 作者: 吨桶清洗设备

提示：点击图片可以放大

　　社交平台上，有人#，邪修成为雅思单词十级学者；有人围观#，被假视频骗得团团转……

　　不过几年时间，曾被吐槽“人机味太重”的AI语音克隆，早已进化到开口就能“骗”倒众人的地步。正如网友所言：过去我们担心照片是P的，现在，连声音也不敢随便信了……

　　如今，AI语音合成叠加图像生成技术正以前所未有的速度迭代，应用场景遍地开花，善恶难辨。但有一点再清楚不过：AI正在模糊真实与虚假的边界，而我们的辨别力，似乎已经跟不上技术的进化了。

　　据DeepMedia 统计，与2022年同期相比，2023年被发布在网上的深度合成视频数量是过去的3倍，深度合成语音数量是过去的8倍。至2025年底，预计仅社交媒体平台中流通的深度合成内容将突破千万条。

　　今年7月，华语乐坛顶流周杰伦为纪念出道25年，在抖音上发布的90秒AI合成回忆版短视频，100分钟内点赞破300万，背后正是这类技术日趋成熟的缩影。

　　Synthesia可生成带情绪控制的虚拟人播报，用户能通过微调语调、插入笑声与呼吸声，实现“语音版PS”。今年年初，该公司完成D轮融资1.8亿美元，估值较2023年增长110%。

　　HeyGen 凭借精准唇音同步和多语言支持迅速崛起，用户只需上传人像和音频，即可生成开口说线万美元。

　　ElevenLabs 作为AI语音新锐，因1分钟复刻明星语音出圈，2024年获8000万美元B轮融资，估值超11亿美元。

　　图像生成方面，Midjourney 和 Stable Diffusion 3 持续推动写真级视觉创作，而 Generated Photos 则通过海量真人数据深度学习，批量生成虚拟人脸，大范围的应用于社交头像与数字人构建。

　　科大讯飞作为老牌的“长期玩家”，自2008年实现语音合成自然度超越线年发布“星火大模型”，已形成从语音识别到多模态生成的完整技术栈，成为一站式AI音视频方案供应商。

　　快手潜心孵化的AI创意生产力平台——可灵AI ，产品自发布以来迭代升级30余次，累计生成超2亿个视频和4亿张图片，目前已在全球拥有超过4500万创作者，已有包括小米、百度、蓝色光标、三七互娱、4399、北京电视台等在内的超过2万家企业客户，成为大模型产业落地的标杆产品。

　　2023年，视频生成行业还停留在寒冬期，而到了2024年，Sora震撼发布瞬间点燃科技圈。它凭借60秒一镜到底的高清生成能力及三维空间动态连贯性，被不少业内人士视为 AI 视频界的 ChatGPT 时刻。自此，AI 语音合成叠加图像生成技术的战场，因 Sora 的到来真正热闹起来。

　　今天AI 语音与视觉生成技术呈现出“轻量化、精细化、实时化”的显著特征，以前所未有的姿态走进大众视野。

　　它们不再依赖庞大复杂的超级计算设备，经过深度优化后，能在普通手机或电脑上流畅运行，如同将专业录音棚轻松“装进口袋”。用户使用 AI 生成内容的门槛大幅度降低，近乎零门槛，还能进行高度精细的调节。比如，为合成语音赋予“温柔的疲惫感”，或者精准控制数字人嘴角的上扬弧度。更令人惊喜的是，创作体验实现了“秒级响应”：话音刚落，AI 就能以不同声线实时复述；视频拍摄完毕，瞬间就能完成换脸或场景切换。

　　这场以“轻、细、快”为标志的技术进化，让曾经令人咋舌的能力，迅速成为行业标配，同时极大地降低了创作门槛。普通用户无需专业录音设备或演员，也能制作出视听质量出众的内容。这种“技术民主化”极大地激发了 UGC 生态的繁荣，重塑了每个人创作、表达与连接的方式。

　　《DT研究院》发布的《2024年轻人AI使用趋势报告》显示，在回答“是否关注 AI 文本、AI 绘画、AI 音频、AI 视频等 AIGC 工具”时，选择“很关注”和“比较关注”的年轻人整体比例超过 8 成。而且，年轻人对生成式 AI 功能的使用比例更高，大多分布在在图像处理与生成、音频/视频制作与生成、语音识别处理等方面。

　　另一方面，相比海外，国内厂商在吸引中小内容创作者乃至普通用户，利用 UGC 生态扩大 AI 语音与视觉生成模型使用基数和生成规模方面，似乎更有一套。

　　但凡体验过 AI 语音与视觉生成技术的人都知道，就当下的大模型而言，要实现“一次生成就得到满意成片”是很有难度的。国外厂商大多采用按次收费以及高频订阅的收费机制，这一做法从根源上对用户大规模生成视频的可能性进行了限制。毕竟这种模式下成本高昂，用户试错的余地很小，创作热情和内容传播潜力自然就受到了抑制。

　　与之形成鲜明对比的是，国内厂商大多采取“免费额度及会员订阅”的组合策略。每天为用户赠送一定积分，以此鼓励他们去体验相关功能；会员的定价普遍比国际水平要低，且能为会员提供充足的生成权限，让用户都能够尽情使用，这大幅度的降低用户的使用门槛。这种模式不仅成功吸引大量普通用户前来尝试，还将促使他们不断频繁生成内容、反复来优化，真正让技术在实际应用中发挥最大价值。

　　更为关键的是，国内的产品大多和小红书、抖音等社交内容平台实现深层次地融合，逐步构建起“生成、发布、传播”的完整闭环，尤其娱乐向内容很容易在网络上形成刷屏效应。AIGC占领社交平台热点，高频内容消费和互动，又能反过来推动模型不断迭代升级，进而形成良性循环。

　　AI 生成技术仍在快速地发展，多模态模型不断融合文本、图像、音频与视频，使生成能力趋于一体化，文本、图像、音频、视频之间的边界逐渐被打破。品牌厂商与创作者正借助语音、视频生成大模型，努力开启内容创作与消费的新篇章。

　　当然，技术越强大，越需要合理引导与约束。毕竟，AI 生成的内容无限接近于真实，却依然不真实。

万物皆可‘声’成我们正在进入数字造物的黄金期

相关产品 Related products

联系我们 Contact us

关于安博体育官网 About Us

安博体育官网的服务 Our Services

现在致电020-36269566 OR 查看更多联系方式 →