华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
- ·俄外长:目前普京与泽连斯基没有会晤计划
- ·六小龄童:愿美猴王永远伴随我的一生
- ·《利剑·玫瑰》:“纪实风”塑造打拐群像,真实之力直抵人心
- ·专访冯唐:春衫曾湿西湖雨
- ·产科门诊护士述职报告
- ·百度蒸汽机视频模型升级2.0版本,宣布价格低至行业70%
- ·好运山东·东方航天港2024年全国沙排巡回赛(山东海阳站)圆满落幕
- ·康大主帅赫尔利:父亲曾建议我接受湖人执教邀请
- ·小升初英语作文:I have a best friend
- ·嗜肉一族绝对不可错过的排骨:蒜蓉辣酱烧排骨
- ·专访张新成:人生没有回头路,活着体验才有更多可能
- ·美记:布罗格登预计签约勇士 上赛季场均12+4
- ·博西家电与小米米家生态互联 共创全场景智控新体验
- ·西式经典大菜的家庭演绎法:法式红酒炖牛肉
- ·中考英语作文指导:应用文写作——通知
- ·GeForce NOW公布多项新改动 支持5080以及DLSS 4等