当大模型遇到“数据”这个拦路虎|智库前瞻

2023-07-11 14:09:43 投资资讯网 

纵观历史,几乎每一个伟大的新思想都遭到了反对,每一项伟大的新发明都受到了谴责。第一台汽车被认为是愚蠢的,第一架飞机被认为是不可能的,第一台动力织布机被认为是恶毒的……

那些伟大的创造者、那些开辟新路径的思想家、艺术家、科学家、发明家,都孤立地对抗着他们同时代的人,他们相信自己的愿景,坚定地向前走,他们走出的那一步是第一步,或许因勇气付出了代价,但最终却赢得了胜利。

去年年末,ChatGPT横空出世。幸运的是,这一次,大家对大模型缔造者OpenAI并没有强烈谴责,相反,全球科技大咖似乎产生了某种程度的共识,先是硅谷大咖沸腾了,认为这是继2008年iPhone诞生后第一次真正的技术革新。

马化腾在腾讯股东大会上坦言,刚开始以为这是互联网十年不遇的机会,但越来越觉得这是几百年不遇的、类似发明电的工业革命级别的机遇。

短短半年,大模型在全球范围内的军备竞赛愈演愈烈,在上周刚落幕的2023世界人工智能大会上,百度文心一言、ChatGLM、商汤日日新等10余家通用大模型亮相。

或许你会问:第一,为什么ChatGPT诞生在硅谷,为什么是OpenAI这样的初创公司做成了?第二,人工智能Next Big Thing是什么?中国应如何抓住这波历史机遇,并在某些领域实现赶超?

针对问题一,本文暂不做详述。其实,2015年,我们对美国、以色列、欧洲、新加坡、东南亚、印度等全球创投生态实地考察和走访后,当时得出的一个研究结论是,下一个“硅谷”,很可能还是在硅谷。

并指出,硅谷的人才、技术、资本、文化、社交网络等区位优势能很大程度上助力其引领下一股浪潮。当然,Frederick Terman、Robert Noyce等天才式人物留给后人的精神财富也尤为宝贵,即“不要被过去的成功历史所牵绊,大胆出走,去做奇妙的事。”

源泉投研智库认为,有些隐性的、无形的东西是硅谷文化特有的,并在传承中不断进化。这里不得不提早期创造和投资OpenAI的那几位大佬,比如阿尔特曼、彼得·蒂尔、霍夫曼等,在内心深处,他们相信,“要为怪人、独特的思想家及政治不正确的人创造空间做自己的事,因为这是进步的源泉。”

问题二,人工智能Next Big Thing是什么?

对此,图灵奖得主姚期智在2023WAIC上接受采访时表示,“人工智能和机器人这两个巨大领域的融合,会带来惊喜。具身智能在某种程度上,可以被视为大语言模型后的下一个趋势。”会上,中信智库、腾讯研究院等机构也纷纷发布了《人工智能十大趋势》预判。

那么,中国应如何抓住这波前所未有的历史机遇,并在某些领域实现赶超?

从2014年第一波AI创业热潮起,国家在大数据、AI、数字经济领域的政策始终保持着稳定性和一致性。比如“2023世界人工智能大会”由上海市人民政府和国家发改委、工信部、科技部、网信办、中国科学院、中国工程院、中国科协等七部门共同主办,相当于AI领域最高规格的国家级峰会。

聚焦本届大会,除了“通用大模型”,嘉宾提到的最高频的词还有什么?

就源泉投研智库现场观察来看,另两大高频词是“行业大模型”和“数据”,且这两者之间又有着千丝万缕的联系。本文着重分享的主题是“当大模型遇到‘数据’这个拦路虎”。

我们先来聆听下近期在AI高规格峰会上,科技大厂、大模型创造者、头部VC券商、知名专家学者如何看大模型浪潮下的数据议题?

一、数据问题,可能是智能化最重要的问题,没有之一

7月8日,在2023WAIC·大模型时代下的数据要素流通论坛上,商汤科技联合创始人杨帆从数据需求方视角分享道,以前从事数据工作的人在内部分工链条中是不被重视的对象,但OpenAI最优秀的科学家、工程师从事数据清理、筛选工作,因为AI应用中会发现,数据处理的有效性,是整个模型效果好不好的核心环节。

杨帆认为,各个专业领域数据处理方式不同,比如音乐数据如何加工、有效使用跟文本完全不同;下一个多模态大模型,图像、视频等数据处理,也非常专业化。简而言之,AI浪潮给数据要素带来了新的挑战和要求。

“现在的数据孤岛跟传统的不一样,现在的数据孤岛意味着面临整个智能水平问题,如何在一个智能体上进行技术迭代更新很重要。”杨帆强调道,“数据问题,对人工智能、智能化极其重要,可能是最重要的问题,没有之一。”

拓尔思总裁施水才表示,拓尔思(300229)拥有超过十年的高质量数据资产积累,在垂直行业积累了一大批大模型场景应用的头部客户。毫无疑问,高质量数据提升了“拓天”大模型的行业应用。

二、拥有预训练数据深加工能力,才能快速定制行业模型

在同期举办的2023全球数字经济大会上,昆仑万维(300418)CEO方汉表示,OpenAI对其训练过程及训练算法是非常公开的,但它从来不公开的,是它的模型结构以及它对数据是如何处理的。

“任何一家做大模型的企业,你的预训练数据深加工能力至关重要。“方汉强调道,”因为真正对我们的生产起作用的,还是我们生产数据清洗为高质量的大模型可以处理的预训练数据之后,用大模型去生成行业模型,再用行业大模型去推动我们的生产力。“

方汉认为,只有拥有这种底座大模型及拥有预训练大数据处理能力的公司,才能快速去定制行业模型,所以国内的定制大模型企业将会快速向头部汇聚。

事实上,回顾OpenAI创始人阿尔特曼(Sam Altman)的访谈会发现,当问及“GPT-3、ChatGPT到GPT-4技术飞跃到底是如何实现的”,阿尔特曼曾披露,GPT-3到GPT-4是非线性成长,为此,他们做了很多事,比如早期在构建数据集方面做了很多工作,再到如何收集数据、如何清洗数据,如何做训练,如何做优化等。他强调他们擅长找到很多个小的赢点,然后让其相乘最大化效果。简单来说,效果好其中一大原因是前期语料准备的好。

三、高质量的领域数据和领域知识将产生巨大的价值

腾讯集团高级执行副总裁汤道生在2023WAIC上表示,模型在产业中的落地是一个复杂的系统化工程,要数据的处理、算法的构建、模型部署一系列环节。而且,企业模型的应用也不是一次性部署就结束了,还需要在使用中不断根据新的数据进行调整,让模型跟上不断变化的市场。企业专业知识和数据训练出来的模型,加上企业数据库知识,经过精调,形成专有模型。

海康威视CEO胡扬忠在2023海康业绩说明会上表示,面向垂直领域,高质量的领域数据和领域知识将产生巨大的价值。结合高质量的领域知识和领域数据所训练的行业大模型,其性能和实施成本都会具有优势。

举例来说,彭博社构建了500亿参数的大模型BloombergGPT, 该模型在金融领域取得了很好的效果。海康在智能物联积累20多年积累,大模型开发带来更好的优势,为用户更好的服务。

四、未来一个模型的好坏,20%由算法决定,80%由数据质量决定。

在2023WAIC“AI+产融协同发展论坛”上,中信智库发布了《人工智能十大发展趋势》报告。中信证券(600030)研究所所长武超则认为,没有任何一项技术比今天的人工智能更需要应用和实践中产生的大量高质量数据去反哺基础模型。“未来一个模型的好坏,20%由算法决定,80%由数据质量决定。”

在2023WAIC·腾讯论坛上,红杉资本合伙人郑庆生表示,红杉非常关注场景,因为数据都是结合在一定场景里。每次技术革命、技术迭代时,这个技术提供其实是一个框架,在这个框架里到底你愿意什么,实际上是原有的核心竞争力决定的。在他看来,数据本身构筑的壁垒是一个比较坚实的基础。

若时间拨回至2019年3月,在硅谷顶级大数据峰会Strata Data Conference上,主办方发布了一份大数据架构的调研报告,当被问及你的企业正在构建哪种大数据解决方案时,“数据整合”成企业最强烈的诉求,占比六成,超过一半的企业正在探寻数据清洗、数据治理和资源目录相关解决方案。

期间,我们跟产业圈人士作了深度交流,并结合国内实战经验,作了一个预判,即数据作为基础性战略资源的地位正日益凸显,未来谁能做好数据治理,谁就赢在了人工智能起跑线上。但彼时数据治理还不是香饽饽,并没有引发产业界足够重视。

而在这一波大模型浪潮中,大家猜一猜最先受益的除了微软、英伟达以外,还有谁?

有一家上市公司在浪潮之初敏锐捕捉到了这个机遇,并发布了一封诚挚的股东信,解释公司与数据的关系,但并未掀起多少水花;

紧接着该公司首席执行官在业绩电话会上接受Morgan Stanley提问关于新产品的市场及定价策略时,野心勃勃地说道,“我们有能力推出在市面上几乎是唯一的产品,我们在人工智能上的战略就是赢得整个市场。”

听到这,分析师的反应是?…既而得出结论,该公司缺乏围绕AI的定价策略,没有一个真正落地的计划。很明显当时华尔街分析师们还没有反应过来。

直到后来“木头姐”Cathy Wood开始重仓该上市公司,其股价才开始水涨船高;也是过了很久,美国银行等金融机构才幡然悟道“越来越多渴望使用生成性人工智能的公司正面临着合规、监管、道德、隐私权、数据安全和监督的要求。”这正是,首席执行官卡普一年来一直在说的话。

写到这里,很多读者可能已经猜到这是哪家公司?

对,它就是全球做数据整合和数据融合的AI龙头企业Palantir。也难怪首席执行官卡普(Alex Karp)说,有些东西是我们知道,但其他人不相信的;但他们即将发现,所以我们没必要跟人去争论这个。我们只需要跟客户展示,“你看,这是行得通的,你会获得价值,这是之前的客户案例,而且这个非常难构建,我们花了20年。”

至于卡普所说的非常难构建、花了20年才构建的东西到底是什么?又如何真正理解Palantir是这波浪潮中最受益的公司之一,智库后续会发布一份深度研报,故本文暂不多做详述,Stay tuned。

那么,中国应如何抓住这波前所未有的历史机遇,并在某些领域实现赶超?对此,图灵奖得主姚期智在2023WAIC上接受采访时表示,中国人工智能在国际上处于非常良好的发展态势,主要优势在商业应用落地。这也是为什么众多科技大厂无一不在强调行业大模型,未来垂直领域的应用是大模型主战场。

年初,智库就在《浙江两会观察|宁波何以造就新一代“世界级商帮”》一文中提到,制造企业应重视工业互联网和工业大数据的革命性影响。

在大语言模型之前,政府就非常重视产业大脑的构建,产业大脑运行的基础是数据,由一个个细分行业大工业互联网平台产生的数据,正成为驱动智能制造的关键生产要素,加速推动企业生产流程的再造与管理方式的变革。

源泉投研智库认为,对数据价值作更深层次的挖掘,实现数字资产增值,甚至反向创造新的应用和业务,打开新的商业边界。

随着工业数据资产的持续累积,加上知识图谱、数字孪生等技术形态的迭代进化,将源源不断涌现的新的应用场景,新的业务。从而产生更多大数据,不断自我强化,实现非线性跳跃式增长。当这些技术形态逐步覆盖工业全流程、全生成要素,也必将塑造智能工厂的新形态。

那么,想象一下,如果让各个垂直领域的产业大脑(专有领域数据和领域知识),与通用大模型的数据(公开信息)连接起来,二者融合,又会产生怎样奇妙的化学反应?

而在这一过程中,最难或许还是数据这个“拦路虎”。

举例来说,你如何有一个数据模型或专有的知识和智慧,可以安全地与外部大语言模型或生成式AI互动?你如何与一个算法互动,只暴露企业需要被暴露的部分内容,保护永远不该被暴露的内容?比如你在医院场景下工作,如何做到不将医疗保健数据、个人医疗数据暴露给由第三方运行的大模型?

当你要做一个致命决定时,是什么促成了这个致命决定,运用了哪些数据来源?你如何将企业的知识和智慧映射到外部数据库或大语言模型上?从大模型获取价值时面临的中等规模的数据挑战,且它们是极小的上下文喘口?如何让跨部门、跨组织的科学家或研究人员在统一的平台架构下安全地进行数据分析或共享?

... ...

除此之外,还要解决中国科学院院士梅宏在数博会的“数据要素化十问”:

即能否以及如何将数据列为资产?如何理解数据权属性质,如何确权?如何度量评估数据价值?什么是数据要素的基本度量单位?如何构建高效数据流通交易体系?

如何合理分配数据收益?如何实现公共数据的真正开放?如何平衡发展与安全?如何为数据要素化提供技术支撑?数据要素如何加入生产函数?

总结来说,大语言模型革命是一场能载舟亦能覆舟的革命,如何集结各方之力击退“数据”这个拦路虎或许是中国大模型大步迈进的基础。

(免责声明:此文内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,请自行核实相关内容。广告内容仅供读者参考。)

(责任编辑:刘畅 )
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。