创意信息“一种大语言模型高并发量推理方法及系统”专利获授权

2025-09-10 18:21:00 和讯网 
天眼查APP显示,近日,创意信息技术股份有限公司申请的“一种大语言模型高并发量推理方法及系统”专利获授权。摘要显示,本发明涉及人工智能技术领域,公开了一种大语言模型高并发量推理方法及系统,利用执行器计算显存块大小分配显存空间;利用调度器转换请求序列放入调度器的等待队列;调度器为每个请求序列分配相应的显存块直至每个请求序列都能够进行下一次推理;调度器按照优先级顺序计算等待队列中请求序列的显存需求,将等待队列中的请求序列转移到运行队列中;根据请求序列的预填充类型数量和解码类型数量,分配用于执行预填充推理或用于执行解码推理的显存块数量;由此,本发明采用连续批处理、动态分配空间机制和任务调度框架,充分利用连续批处理的并行推理能力,提升了大模型推理的并发量和吞吐量,解决传统连续批处理需要预分配空间的局限性。
(责任编辑:贺翀 )

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读