近日,智源研究院发布AI芯片生态实验室和九鼎智算平台。九鼎平台旨在打造AI科研创新的基石与试验场,目标向上支撑未来十年的计算新范式,包括通用智能基础大模型、AI for Science等;向下致力于为产学研加速融合、软硬件协同创新、国产AI芯片生态建设提供强大基座。目前,九鼎平台在建1000P算力,每服务器400Gbps高速互连能力的高性能环境。
与传统商业云计算专注于“推理”任务不同,九鼎平台发力探索满足大规模混合计算任务的调度方法,追求在科研“训练”任务上表现更加优秀。此外,作为混合架构云平台,九鼎将支撑多家厂商AI加速芯片,希望通过探索自动适配的新方法,让每一款异构计算芯片发挥其最佳运算能力,以提升整体平台效能,降低AI异构加速芯片的产业化难度。
此外,智源大模型团队积极开展国际技术交流合作,目前正在携手埃及阿拉伯科技与海运学院、埃及亚历山大图书馆,共建世界最大阿拉伯语数据集,共同开展阿拉伯大模型研制和应用开发。
融合人工智能(AI)与高性能计算(HPC)是探索新一代计算系统体系结构的重要趋势。传统科学计算以结构化数据为主,高性能低延迟,双精度数值计算,而AI智能计算系统以非结构化为主,高并发高吞吐率、低精度张量计算,高带宽访存。随着人工智能技术前沿、多学科交叉应用与产业化落地的发展,两种计算范式逐渐走向融合与共存,其中通用大模型、AI for Science 最典型的科研领域。
智源研究院总工程师林咏华在接受记者采访时表示,目前九鼎平台在建构之余,将探索三大技术问题——
第一,满足大规模混合计算任务的调度方法。以产业界为例,商业云厂商的AI任务多以并发量高的推理任务为主,与九鼎平台的AI大模型训练任务差异性很大。在多个大模型同时训练的情况下,如何支持数据层级、算子层级、任务层级等不同并行优化策略,同时平衡好网络和计算是调度需要解决的核心问题。
第二,AI+HPC融合的云计算体系结构。在AI for Science领域,深度学习计算与传统高性能计算两种范式如何高效共存是需要解决的重要问题。由于AI和HPC需要的计算需求有明显差异,在现有的通用处理器和AI加速器的异构计算云平台资源上,构造一套能混合、弹性调度AI和HPC workload的云计算能力,对AI科研云平台的发展至关重要。
[if !supportLists]第三,实现拉动异构计算体能力的统一适配层。为不同厂商的多样化AI加速芯片,探索一种能自动学习、自动匹配最佳运行硬件架构环境的适配层,即用AI学习能力来自动优化AI系统的运行环境,让每一款异构计算芯片都能达发挥其最佳的运算能力,整体提升异构云平台的效能,帮助产业大大降低优化的门槛。
对此,林咏华指出,这三个重要的技术方向关乎未来AI计算的体系结构、系统平台的发展,十分需要与技术企业、科研团体开放合作。“比如,我们在进行这些探索研究中,很重要的一类合作伙伴就是AI芯片企业。”
她进一步解释称,智源研究院寻求的是通过AI生态合作,来推动AI基础研究成果的落地。作为科研机构,智源研究院强调的不是护城河,而是开放合作。“因为AI领域十分宽广和纵深。它涉及十分宽广的不同产业应用领域(如计算机视觉、NLP等领域,又或AI用到金融、工业、自动驾驶等不同应用领域),每个应用领域都十分专业。而在每一个垂直的应用领域又十分纵深,涉及从底层的加速芯片、硬件系统到上面的AI算法、AI应用、AI安全等等。所以,人工智能的发展需要许多团队和人才不断前赴后继、把技术推陈出新。因此,我们不想构筑自己的护城河,反而希望搭建可以共同开放创新的平台,一旦有新的技术和新的积累,都希望以开源开放的方式共享给整个产业,从而和整个产业一起推动AI的创新。”
据了解,基于九鼎平台大规模科研计算实践环境,智源研究院也于近日宣布联合多家国内AI芯片公司,北京大学罗国杰团队、北京大学董豪团队、清华大学翟季冬团队、中科院计算所崔慧敏团队等相关科研团队,共建AI芯片生态实验室,旨在加速国内AI芯片的生态发展和应用落地。通过搭建AI芯片的产学研平台,推动测试、标准、创新、应用等方面合作,从而加速国内AI芯片满足大规模应用部署的条件,通过软硬件协同创新实现在性能上的突破,并为未来通用智能大模型、AI for Science等新的计算范式做好准备。
林咏华告诉记者,摩尔定律已接近瓶颈,通用大模型、AIfor Science等前沿技术探索正驱动着新一代计算的体系结构变革。AI芯片生态实验室将有助于拉动国产AI芯片对相关重大科研计算范式的优化,加速完善芯片软件生态建设。
“这不是一个简单的联盟,是围绕AI芯片来打造生态的实验室,强调的是软硬件协同创新。”她指出,AI芯片要成功,必须要构建足够强大的上层生态软件,尤其是通过生态软件的开源开放,形成各种开放接口的标准体系。“这也是为什么我们实验室名字有‘生态’这两个字,需要各方把研发的能力聚集在一起,扎实进行有利于生态建设的开发和创新。”
“单纯依靠摩尔定律下的工艺发展所带来的芯片性能已接近极限,加上许多最先进的工艺技术国内难以使用,通过芯片架构创新获得下一代芯片性能提升变得至关重要。在过去几十年,CPU发展进程已经充分证明基础系统软件对芯片架构的重要性,架构创新离不开系统软件的配合,并且需要通过系统软件(如编译器等)来实现自动利用、自动优化,才能让上层应用获益。在国内,AI芯片的研发力量集中在芯片公司,而基础软件的创新主要在高校团队。因此,要拉动国产AI芯片的软硬件协同创新,需要鼓励和加大跨层的创新和合作。”她补充道。
最新评论