近期,国家数据局发布首批104个具有推广示范价值的高质量数据集典型案例,中国电信申报的“网络大模型高质量数据集”从663个案例中脱颖而出。这是继今年5月荣膺国务院国资委首批30项央企人工智能行业高质量数据集优秀建设成果后,中国电信在该领域取得的又一成果,充分彰显了在推动数字经济高质量发展中的领军企业责任与担当。
中国电信网络大模型高质量数据集旨在精准破解大模型在通信行业落地应用时面临的通用性与专业性鸿沟、知识冲突与幻觉、深度数据匮乏等核心挑战。网络大模型通过构建科学体系化的高质量数据集,为云网运营的全面AI化及自智水平提升奠定了坚实的数据基石,不仅显著赋能企业自身发展,更惠及广大行业客户,有力促进了产业链的协同共进。
中国电信网络大模型高质量数据集以“5+2”云网知识体系为坚实基础,以组织、流程、运营和安全为四大支柱,确立了科学体系化的建设方法。通过深度整合通信领域多源复杂数据,打造了6TB大规模、高质量、多模态领域数据集,并构建数百个场景化知识库。统一建设的启明知识管理平台提供高效数据集加工工具、分钟级建库工具、精准数据增强服务及动态管理能力,知识增强服务检索量已突破千万次,准确率稳定在90%以上。
在技术层面,网络大模型团队融合多源智能解析、动态清洗、多级去重及数据合成等先进技术,研发出高精度的隐私保护算法与高效知识图谱流水线。首创的SIE(来源 - 索引 - 编码)分层建库技术,实现了多模态数据的分钟级建库入库;创新的多模态混合检索架构及重排序技术,显著提升了隐性知识发现效率与召回准确率,构建起通信行业高质量数据治理的典范。
网络大模型高质量数据集首创SIE分层建库技术,打通实时数据与大模型动态交互链路;依托“5+2”知识体系,实现数据精准治理与高安全性知识转化;创新性地构建了“生产-规划-采集-加工-应用-评估-反馈”的全生命周期闭环运营模式,建立了从集团到省公司的多级协同机制,保障了数据集的持续优化与价值释放。通过职责分工、质量追溯、周期联动等创新管理手段,确保了数据集的动态更新与高质量维护,有力支撑了数百个知识库的高效稳定运行。