8月8日,中国电信举办2023年中期业绩说明会。与以往财报会所不同的是,中国电信的新一代超写实数字人“新翼”首次与观众见面并全程主持业绩介绍和问答互动的环节。
“新翼”一亮相就吸引来线上与线下的投资者的目光。精细到毛孔、服装纹理和皮肤质感的细节处理带来了影视级别的视觉冲击力,且能够随着镜头的远近推拉自动优化,360度无死角地向观众展示了几近真人的皮肤、五官、发丝和身体。同时,站定、转身、抬手引领和微笑致意等微表情和动作姿势也保持了极高的流畅性和自然度。开口说话时的语音语调和唇形匹配更是达到了让观众难以区分虚拟和现实的水准。
揭秘“新翼”技术链
电信自主研发超写实数字人
据介绍,“新翼”的原型取自电信的杰出青年,并在设计时着重突出自信自强的面貌和红色电信精神。目前,“新翼”已经具备了主持人的基本能力和水平,后期会逐步拓展包括中英文翻译、手语翻译、眼神即微表情识别,以及歌舞才艺展示在内的多种能力。
而支撑起“新翼”超高仿真外表和自然语言能力的是其背后扎实的技术能力。
研发团队使用了业界最先进的4D LightStage采集技术扫描原始数据,并通过自定义的超写实级虚拟人数资标准,将繁复的点云数据精简至一个约5万面的脸部模型网络,赋予了“新翼”电影级的皮肤质感。同时研发团队自研了一套骨骼+BS的混合驱动方式和隐式学习+多模态特征融合的数字人驱动引擎,通过实时捕捉演员表情变化和追踪角色口型,帮助“新翼”实现了面部的微表情驱动。
以“新翼”的面部为例,其骨骼数量就超过600根。“新翼”眼球的虹膜在不同的角度均能呈现出不同程度的扭曲变形效果。在眉头的位置,传统的模型网格变化难以达到明显的褶皱效果来凸显眉头的川字纹,而通过特殊贴图的处理方式,在特殊表情触发法线贴图的混合,从而强化微观表情细节的效果。
此外,在数字人的环境渲染方面,研发团队也做了细致的处理。为了模拟真实皮肤的光照细节,研发团队基于次表面散射效果,特意开发了超写实风格的相关渲染环境,便利光线不被阻挡地对皮肤进行透射。
打造3D数字人全链路能力
建设电信数字人产品矩阵
建设电信数字人产品矩阵,通过数字人生产管理平台,实现数字人快速建模和快速应用;打造数字人客服系统,完成3D数字人全链路能力的打造,自研端云结合渲染引擎,打造行业领先的数字人产品。这一系列的动作,证明了电信智科自研的数字人系统已经具备数字人生产、驱动、渲染、数资管理的全链路能力,支持将现有技术标准化地快速赋能到各类应用和快速复制输出至新的数字人形象。本次亮相的“新翼”并非电信智科推出的第一款数字人,早在今年5月,身份型数字人“数数”即出席并与央视名嘴康辉互动主持2023数博会开幕式及论坛发布会。
不仅如此,服务型数字人同时也实现了在北京、浙江、安徽、广东客服系统加载落地,实现全网统一形象、统一能力、统一业务;助理数字人更是贴合电信核心的通话业务,打造新一代通信助理、视频彩铃业务。
发力数字人业务,抢滩大模型赛道,电信智科紧紧跟随行业发展风向,积极布局新技术。目前,电信智科的数字人客服已经在计算机视觉(CV)、NLP和语音三项核心能力上达到了行业的一线水平。在技术层面,唇形驱动算法在双盲测试中,全面超越业内头部算法,该算法获得AIWIN世界人工智能大赛第四名。在计算机视觉领域顶级国际会议CVPR 2023竞赛环节中,电信智科AI团队在6项竞赛中名列三甲,其中包括两项冠军,体现了强大的自研能力。
响应数字中国建设整体布局规划的号召,践行央企使命担当,中国电信集团在AI自研的征程上斩获丰厚成果。未来,中国电信将不遗余力推动数字人核心技术突破创新,响应行业需求,打造全栈式智能产业链,赋能千行百业,助力数字经济发展。