AI生产力拉满!言犀公布最新语音合成及数字人大模型进展

2025-02-18 13:33 来源:央广网

  在新一波的技术浪潮中,大语言模型风头正劲,但还有一种AI技术,正在配音、直播、客服等多个行业正发挥出越来越广泛的应用。2月18日,京东言犀公布了两项最新技术成果——语音合成大模型LiveTTS及通用数字人大模型2.0,支持zero-shot音色复刻和精品音色微调,并支持更精准的数字人声唇对齐,将大幅提升人机自然交互体验,目前已针对直播、外呼、客服、营销等超10种特定商业化场景完成调优适配。技术降本带来用户体验跃升,预计也将带动更多AI营销服务增量市场。 

  语音合成大模型全新升级 支持zero-shot音色复刻和精品音色微调 

  LiveTTS,是京东言犀最新发布的高仿真、多语言、情感丰富的语音合成(TTS)大模型,通过AI技术生成自然、具备韵律且富有情感的语音。现在,只需喂给LiveTTS模型最短3秒音频素材,就能支持zero-shot音色复刻以及精品音色微调,近乎完美的对声音进行复刻。 

  这得益于基于Diffusion架构完成的20万小时数据"熔炼"。在SeedTTS test-hard测试中,其CER指标(字符错误率)较其他头部厂商模型降低了0.2%-5.12%不等,相当于每万字最多能减少512处发音失误。在主观评价上,通过盲评的MOS评测,该模型尤其在音色相似度、自然清晰度、情感表达一致性方面表现出色,音色相似度较其他头部厂商模型高出1.3倍。 

  从语音准确性上,言犀结合中文拼音与英文音素双输入系统,提升了发音准确性,让技术更可用。从仿真度上,采用高质量的HiFt声码器,实现超98%的声纹还原精度。 

  大量的实时、多样性语音数据加入训练,也进一步提升了模型的泛化能力,让模型能够在不同音频提示词(prompt)的条件下合成韵律丰富、自然的音频,更加易用。LiveTTS已经能适配从儿童俏皮声到老年人沉稳语调的多样化需求,还支持中/英/日等多语种及方言的语音合成。 

  极低门槛、极致拟真、极多场景,是言犀LiveTTS语音合成大模型的优势。基于LiveTTS打造的言犀数字人,支持近百个不同风格音色,形成围绕直播场景需求的声音供应链。2024年京东11.11期间,言犀TTS单日调用超1000万次,成本直降90%,大大提升直播、配音、外呼等行业的工作效率。 

  数字人大模型实现精准声唇同步 造就AI生产力 

  言犀数字人已广泛应用在电商直播、客服接待、短视频等场景中,光是使用数字人日常开播的商家就有超过7500家。但数字人向更大范围的规模化应用始终存在三个难点:形象数据采集成本高、模型训练周期长和推理效果难泛化。 

  为了解决这些问题,言犀团队提出了新一代声唇同步数字人基座模型,通过创新的多阶段基模型训练方法、多图参考的多层注意力机制等方法。这一亿级参数量的声唇同步基座模型,进一步拓展了数字人在遮挡、大角度、多语速、跨音色和多语言等场景的应用。目前,在动态背景、多人直播等真实应用场景里,言犀数字人的唇形匹配度仍达到95%,具备较好的泛化能力,在各种场景中更可用,更易用。

  

  在新一代数字人基座大模型支持下,仅需一张带人像的图片或短视频、一份商品链接,言犀就可以自动生成流畅丰富的带货脚本,结合LiveTTS生成情绪化口播,数字人便栩栩如生“活”起来。这种模式,告别了传统、冗长的数字人模型训练流程,实现直接推理,既省去了训练成本,还进一步扩展了数字人在视频翻译等低数据量场景的应用边界。 

  除了直播外,平台还能支持输出数十条不同风格的数字人种草短视频。整个过程从过往的至少72小时压缩至分钟级,成本仅为传统数字人制作的十分之一,进一步实现技术降本。 

  言犀最新发布的两项技术成果,并非单纯的技术跑分竞赛,而是旨在进一步降低AI应用的成本,新一代的语音合成LiveTTS模型及数字人大模型2.0,正在短视频合成、数字人直播、视频翻译、数字人唱歌跳舞等多个商业化场景中应用,让大模型变成商家人手必备的普惠工具。 

  作为品牌的AI营销搭子,言犀将不断开发出更多支持营销场景的技术与产品,进一步降低中小商家应用门槛,加速AI生产力走进营销场景。

查看余下全文
(责任编辑:魏京婷)
手机看中经经济日报微信中经网微信
当前位置      首页 > 公司观察  > 正文
中经搜索

AI生产力拉满!言犀公布最新语音合成及数字人大模型进展

2025年02月18日 13:33    来源: 央广网    

  在新一波的技术浪潮中,大语言模型风头正劲,但还有一种AI技术,正在配音、直播、客服等多个行业正发挥出越来越广泛的应用。2月18日,京东言犀公布了两项最新技术成果——语音合成大模型LiveTTS及通用数字人大模型2.0,支持zero-shot音色复刻和精品音色微调,并支持更精准的数字人声唇对齐,将大幅提升人机自然交互体验,目前已针对直播、外呼、客服、营销等超10种特定商业化场景完成调优适配。技术降本带来用户体验跃升,预计也将带动更多AI营销服务增量市场。 

  语音合成大模型全新升级 支持zero-shot音色复刻和精品音色微调 

  LiveTTS,是京东言犀最新发布的高仿真、多语言、情感丰富的语音合成(TTS)大模型,通过AI技术生成自然、具备韵律且富有情感的语音。现在,只需喂给LiveTTS模型最短3秒音频素材,就能支持zero-shot音色复刻以及精品音色微调,近乎完美的对声音进行复刻。 

  这得益于基于Diffusion架构完成的20万小时数据"熔炼"。在SeedTTS test-hard测试中,其CER指标(字符错误率)较其他头部厂商模型降低了0.2%-5.12%不等,相当于每万字最多能减少512处发音失误。在主观评价上,通过盲评的MOS评测,该模型尤其在音色相似度、自然清晰度、情感表达一致性方面表现出色,音色相似度较其他头部厂商模型高出1.3倍。 

  从语音准确性上,言犀结合中文拼音与英文音素双输入系统,提升了发音准确性,让技术更可用。从仿真度上,采用高质量的HiFt声码器,实现超98%的声纹还原精度。 

  大量的实时、多样性语音数据加入训练,也进一步提升了模型的泛化能力,让模型能够在不同音频提示词(prompt)的条件下合成韵律丰富、自然的音频,更加易用。LiveTTS已经能适配从儿童俏皮声到老年人沉稳语调的多样化需求,还支持中/英/日等多语种及方言的语音合成。 

  极低门槛、极致拟真、极多场景,是言犀LiveTTS语音合成大模型的优势。基于LiveTTS打造的言犀数字人,支持近百个不同风格音色,形成围绕直播场景需求的声音供应链。2024年京东11.11期间,言犀TTS单日调用超1000万次,成本直降90%,大大提升直播、配音、外呼等行业的工作效率。 

  数字人大模型实现精准声唇同步 造就AI生产力 

  言犀数字人已广泛应用在电商直播、客服接待、短视频等场景中,光是使用数字人日常开播的商家就有超过7500家。但数字人向更大范围的规模化应用始终存在三个难点:形象数据采集成本高、模型训练周期长和推理效果难泛化。 

  为了解决这些问题,言犀团队提出了新一代声唇同步数字人基座模型,通过创新的多阶段基模型训练方法、多图参考的多层注意力机制等方法。这一亿级参数量的声唇同步基座模型,进一步拓展了数字人在遮挡、大角度、多语速、跨音色和多语言等场景的应用。目前,在动态背景、多人直播等真实应用场景里,言犀数字人的唇形匹配度仍达到95%,具备较好的泛化能力,在各种场景中更可用,更易用。

  

  在新一代数字人基座大模型支持下,仅需一张带人像的图片或短视频、一份商品链接,言犀就可以自动生成流畅丰富的带货脚本,结合LiveTTS生成情绪化口播,数字人便栩栩如生“活”起来。这种模式,告别了传统、冗长的数字人模型训练流程,实现直接推理,既省去了训练成本,还进一步扩展了数字人在视频翻译等低数据量场景的应用边界。 

  除了直播外,平台还能支持输出数十条不同风格的数字人种草短视频。整个过程从过往的至少72小时压缩至分钟级,成本仅为传统数字人制作的十分之一,进一步实现技术降本。 

  言犀最新发布的两项技术成果,并非单纯的技术跑分竞赛,而是旨在进一步降低AI应用的成本,新一代的语音合成LiveTTS模型及数字人大模型2.0,正在短视频合成、数字人直播、视频翻译、数字人唱歌跳舞等多个商业化场景中应用,让大模型变成商家人手必备的普惠工具。 

  作为品牌的AI营销搭子,言犀将不断开发出更多支持营销场景的技术与产品,进一步降低中小商家应用门槛,加速AI生产力走进营销场景。

(责任编辑:魏京婷)


分享到:
    中国经济网声明:股市资讯来源于合作媒体及机构,属作者个人观点,仅供投资者参考,并不构成投资建议。投资者据此操作,风险自担。
中国经济网版权及免责声明:
1、凡本网注明“来源:中国经济网” 或“来源:经济日报-中国经济网”的所有作品,版权均属于
  中国经济网(本网另有声明的除外);未经本网授权,任何单位及个人不得转载、摘编或以其它
  方式使用上述作品;已经与本网签署相关授权使用协议的单位及个人,应注意该等作品中是否有
  相应的授权使用限制声明,不得违反该等限制声明,且在授权范围内使用时应注明“来源:中国
  经济网”或“来源:经济日报-中国经济网”。违反前述声明者,本网将追究其相关法律责任。
2、本网所有的图片作品中,即使注明“来源:中国经济网”及/或标有“中国经济网(www.ce.cn)”
  水印,但并不代表本网对该等图片作品享有许可他人使用的权利;已经与本网签署相关授权使用
  协议的单位及个人,仅有权在授权范围内使用该等图片中明确注明“中国经济网记者XXX摄”或
  “经济日报社-中国经济网记者XXX摄”的图片作品,否则,一切不利后果自行承担。
3、凡本网注明 “来源:XXX(非中国经济网)” 的作品,均转载自其它媒体,转载目的在于传递更
  多信息,并不代表本网赞同其观点和对其真实性负责。
4、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

※ 网站总机:010-81025111 有关作品版权事宜请联系:010-81025135 邮箱:

关于经济日报社关于中国经济网网站大事记网站诚聘版权声明互联网视听节目服务自律公约广告服务友情链接纠错邮箱
经济日报报业集团法律顾问:北京市鑫诺律师事务所    中国经济网法律顾问:北京刚平律师事务所
中国经济网 版权所有  互联网新闻信息服务许可证(10120170008)   网络传播视听节目许可证(0107190)  京ICP备18036557号

京公网安备 11010202009785号