AI WORLD 2019 世界人工智能峰会精彩重放!
10 月 18 日,2019 中关村(000931,股吧)论坛平行论坛 ——AI WORLD 2019 世界人工智能峰会在北京启幕。新智元杨静、科大讯飞(002230,股吧)胡郁、微软王永东、华为王成录、英特尔宋继强、旷视及智源学者孙剑、滴滴叶杰平、AWS 张峥、依图颜水成、地平线黄畅、autowise.ai 黄超等重磅嘉宾中关村论剑,重启充满创新活力的 AI 未来。峰会现场,新智元揭晓 AI Era 创新大奖,并重磅发布 AI 开放创新平台和献礼新书《智周万物:人工智能改变中国》。回放链接:
【腾讯科技】客户端:https://view.inews.qq.com/a/TEC2019101600718500 PC 端:http://v.qq.com/live/p/topic/74606/preview.html【海淀融媒】https://m.toutiaoimg.cn/i6748195040323062540【新浪科技】http://video.sina.com.cn/l/p/1728577.html
新智元 AI WORLD 2019 编辑:段亮亮【新智元导读】AI技术的应用场景开始向移动设备转移,AI芯片作为产业的根基,是将AI技术从云端转移到终端的重要一环。地平线联合创始人&副总裁黄畅详细介绍了边缘AI芯片及其中关键技术,他表示,地平线希望构建自主机器人的计算平台,开放的工具链是一个最好的敲门砖。若想了解更多AI芯片资讯,欢迎来新智元 AI 朋友圈与大咖一起讨论~
人工智能不断发展,AI芯片越发炙手可热。
近几年,AI技术关注落地,应用场景开始向移动设备转移,如汽车上的自动驾驶、手机上的人脸识别等。产业的需求促进技术的进步,而AI芯片作为产业的根基,必须达到更强的性能、更高的效率、更小的体积,才能完成AI技术从云端到终端的转移。
地平线联合创始人&副总裁黄畅在地平线就是主要负责芯片、平台工具链算法等工作,他在以“AI 元力,重启未来”为主题的AI World 2019 世界人工智能峰会上,做了《软硬结合,打造高效开放的边缘AI芯片》主题演讲,主要介绍地平线的AI边缘计算芯片和相关业务,并以此为切口分享了对AI芯片行业的想法。
为什么做AI边缘侧计算:应对未来市场中的终端数量激增和海量数据(603138,股吧)计算挑战
黄畅认为从计算机发展史来看,计算终端不断变迁。面向未来,每个人会有多个智能计算设备,尤其是各种以自主机器人形式出现在我们身边的设备,这是一个非常巨大的市场。
而在终端和数据激增的时代,边缘计算是应对终端数量激增和海量数据计算挑战的一个关键。
15年创立时,地平线想把AI计算从云端带到边缘,但是研究发现算法在未来并不是核心问题,而是足够平价高效的计算平台。于是,地平线创立时就决定把软件和硬件结合在一起,做自己的AI计算芯片。 关于为什么在边缘侧做这件事情?黄畅说:“最根本的原因在于机器人这种模式,本质上的诉求就是计算、智能、控制的去中心化,尤其是你需要它完成各种操作时。”
地平线联合创始人&副总裁黄畅 怎么推动边缘计算发展:5G助力,重新定义AI处理器性能的评估方式,追求全面与极致优化
黄畅谈到,5G技术给了边缘计算一个很好的助力,“这使得我们在云和端之间找到一个很好的中间节点去利用边缘侧,尤其在5G基站附近的小型计算数据中心节点更好地去得到更高效、性价比更高的计算解决方案,同时它仍然是一个非常靠近边缘能够独立运作的计算节点。”
地平线深耕驾驶领域,看到很多传统的驾驶领域的芯片巨头在芯片里面也集成了AI的核,后来发现它们集成的AI核能够加速的算法是非常传统的,有些方案没有看到算法向前发展的演进趋势。 由此,地平线提出不应该以传统芯片里面大家所声称的TOPS作为衡量AI芯片的性能,并想重新定义有效的算力对AI来说应该是什么样的。黄畅解释道,“我们追求的是真实的TOPS/美元”。
重新定义AI处理器性能的评估方式,针对场景,基于一个受限于对延迟或者精度要求的情况下,其中一大难题是怎么定义Performance?地平线的目标是,尽可能地提升数据的处理能力。 这里面有三个要素,最终全面的优化,芯片的优化、算法的优化,确定下来以后,上限就已经确定了,什么样的算法跑什么样的处理架构。上限确定了,还需要强大的开发工具链支持。其中相关相关的典型编译器和Runtime的优化,使你的算法以尽可能接近100%的利用率运行在硬件上。如果追求最终效能的全面极致优化,这三个都要能掌握,能够去改变。
如何实现软硬协同优化:基于复杂的AI计算系统判定AI芯片走向,将算法、编译器和芯片架构充分结合以联合优化
为实现软硬件协同优化,必须判断算法向前演进的趋势,抓住市场最主流的算法确定芯片走向,但这不是追求单一的算法模型加速。
需要哪种类型的加速?哪些计算需要进行硬件加速?它们的占比大概是多少?最合适的计算和存储架构是什么样的?
这应该针对应用场景中一个复杂的AI计算系统全面去考虑,将其最终结合在一起。
“协同优化”里面有很多关键的技术要素:
面向未来重要场景的关键算法产品驱动的敏捷架构迭代创新的计算架构实现技术
将三种要素牢牢掌握住,把算法、编译器和芯片架构充分结合在一起整体联合优化,追求首重效能,兼顾灵活性,做任何判定的时候不能说死,如“一定是这种算法未来成为唯一的主流”。
如下是实际在芯片上的性能结果,典型场景里面的720P分辨率的检测分割,地平线的高效模型如果不优化处理,每帧处理的带宽高达142兆,计算延迟43毫秒,器件利用率57%,对很多处理器来说是很高效率,但地平线觉得还不够。 通过编译器的自动优化,连接了算法和处理器架构,能够逼近性能极限。编译器的自动优化不需要任何人力引入,自动分析,自动优化整体,包括算法拆分、指令调度、数据排布一系列的分析变换,把每帧的带宽140兆降低到30兆。这对于嵌入式系统来说至关重要。
计算延迟降低到25毫秒,器件利用率提升到95%。这个模型在通用的GPU上器件利用率只能做到10%到20%,“换句话说我们可以用1/4的成本达到相同的效果,算法、工具链充分利用起来得到极致优化。”黄畅说到。
使用工具链,编译器自动优化,赋能行业 黄畅介绍,目前,地平线的整个软件开发,已经从过去基于经验和手工写代码的方法,转变成为以数据和算法模型为基础,面向高性能边缘芯片的综合 AI 开发和计算平台。为了让这样的计算平台为内部外部的用户服务,地平线设计了一整套完善的工具链,包括训练量化、编译验证、部署,支持TensorFlow 、Gluon/MXNet等。
地平线提供两种不同的算法模型适配方案,供客户选择:
流行的训练框架下的插件。它可以完成关键的量化稀疏之类跟硬件芯片相关的关键插件,可以方便集成到这些框架里面,简单替代原来网络结构的描述就可以用这套方法训练,可以原汁原味保留,前向预测的过程和软件的预测是保持一致的,保持着高精度。
标准浮点模型转换方案。使用门槛低,基于常见框架训练的浮点模型,通过该转换成可在芯片上部署量化模型。这种工具一般会有一些精度损失,但是经过微调后,大部分可恢复。
这两种模式都需要去支持,前者追求极致的效果,后者追求极低的使用门槛。
开发工具链“天工开物”(Open Explorer),支持产品快速落地
说到工具链,黄畅在演讲中重点提到了地平线一款名为“天工开物”(Open Explorer)的开发工具链。这款工具链里面提供了非常丰富的例子、文档,可支持客户的产品快速落地。 地平线是To B的企业,在服务客户的过程中发现,很重要或者最重要的一个门槛是,如何帮助用户以很低的风险快速把一项技术落地应用起来。
工具链以开放的方式将地平线和其客户结合,黄畅提到,“完全依赖我们来做速度不是最快的,依赖客户做也不是最快的。实践证明,通过两者有机结合,基于地平线现有的技术积累,客户借助开放的工具链在实操过程中发现落地速度最快。这也是从最初的苹果模式逐渐走向安卓模式,更倾向于用开放的方式服务于整个产业很重要的原因。”
车规级AI芯片征程二代,构建全场景感知基础设施
2019年初,征程二代流片成功。8月底,地平线则宣布征程二代正式量产,这是地平线发布的中国首款车规级AI芯片。
该芯片用28纳米制程制造,搭载地平线自主创新研发的高性能计算架构BPU2.0(Brain Processing Unit),可提供超过4 TOPS的等效算力,典型功耗2瓦。具体来说,这款芯片具备:
高算力利用率:典型算法模型的算力利用率不低于90%。高算力有效性:每TOPS AI能力输出可达同等算力GPU的10倍以上。感知可靠性:典型目标的识别精度超过99%,延迟不超过100毫秒。感知丰富性:可以识别超过60个类别的目标,每秒单帧目标识别数量超过2000个。较低的系统成本:地平线结合芯片的张量并行计算特点,提出新的网络结构,在保持算力需求维持在较低水平的同时,降低了带宽利用率,征程二代芯片仅需要使用较低频的32位的DDR内存,相对于竞争产品的产品动辄64位甚至128位的DDR内存,有巨大的成本优势。全面开放:提供从参考解决方案,到开放的感知结果,再到芯片及工具链的基础开发环境,并可依据客户的不同需求提供不同层次的产品交付和服务。
黄畅介绍说:“这个工具链是开放的,跟韩国SKT合作时,它基于地平线的行人、车辆检测,在这个基础上开发韩文的标识牌识别、道路养护检测,也在做低成本的高精地图,用于市政测绘和辅助驾驶L3级别的自动驾驶,这种模式非常合适,算法和软件方面,我们做一部分,他们做一部分算法和软件。各自做好擅长的,为最终产品成功并肩作战。”
黄畅表示:“以自动驾驶为例,我们芯片出来之后进行替换,在算力提升的同时,功耗显著下降。12路摄像头覆盖整个车子的360度,进行分割、检测、结构化,各方面处理,需要四颗这样的芯片。用FPGA处理12路需要100多瓦,现在换上我们的第二代征程芯片,整个系统不超过30瓦。过去如果不用这套系统,用GPU基本都是几百瓦的功耗,这样的功耗对于车子来说其实是难以接受的。” 前面只是解决了视觉感知和矢量化问题,为进一步延伸做三维建模,地平线推出了非常低成本高效的方案。有物体的结构分割、矢量化、结构化,使得过去用激光雷达才能做成的事情,现在单目摄像头加上廉价的计算平台可以做到非常类似的结果,可以支持到L3级别的自动驾驶。用这样一个解决方案只需要一个摄像头和芯片,剩下的问题全解决了,这使得地图采集这件事情非常廉价,实时可用。
未来趋势:希望构建自主机器人的计算平台,开放的工具链一个最好的敲门砖 最后,黄畅提到了地平线的未来发展趋势:
“从整个行业发展趋势来讲,我们在驾驶行业做得比较多,看到很明显的趋势,从传统的分布式系统到域控制器走向中央计算机,它本身就是一个移动的边缘侧的计算平台,而且是所有自主机器人的第一商业化形态,是第一个可以集中化大规模商业化的领域,地平线始终把自动驾驶当成是最重要的一个应用领域,这个应用领域是面向未来,地平线希望构建自主机器人的计算平台,开放的工具链是一个最好的敲门砖。”
据了解,继发布中国首款车规级AI 芯片——征程二代后,地平线也将在推出面向物联网边缘计算的AI 芯片——旭日二代,及相应的AIoT解决方案,赋能更广泛的人工智能应用,从而助推普惠AI 时代到来,让技术成果真正惠及人们的生活。
想“鬼”混万圣节?来新智元小程序,与AI圈的“万圣们”狂欢吧:
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
最新评论