我已授权

注册

腾讯阿里都看中的AI团队 让机器问答准确率75% 金沙江联合资本领投A轮

2017-12-03 11:20:38 和讯名家 
腾讯阿里都看中的AI团队 让机器问答准确率75% 金沙江联合资本领投A轮
人工智能问答究竟可以多“智能”?

  文| 铅笔道 记者 冯超

  导语

  任教两年,赵洲在今年成为了浙江大学的博士生导师。

  和所有老师一样,他为自己的学生骄傲。他喜欢和学生们一起钻进实验室,研究充满开拓空间的人工智能。

  但研究的方式不止于此。眼见智能问答在社交、电商、游戏等领域被迫切需求,目前的技术水平又不够成熟,他于今年7月创立了一知智能。

  身边的博士团队成了他最大的助力。提出记忆神经网络概念、研语义理解和分析系统、将非结构化数据转变成结构化数据……团队每一步都走得坚实有力。

  目前,团队已和腾讯、微软、网易、阿里巴巴等多个领域的8家头部企业达成合作,在原有技术优势的加持下,完成了阅读理解、知识库构建等五套软件工具包的研发。

  现在让赵洲骄傲的不只是学生,还有团队,“我们一起发声”。

注: 赵洲承诺文中数据无误,为内容真实性负责。铅笔道作客观真实记录,已备份速记录音。
  注: 赵洲承诺文中数据无误,为内容真实性负责。铅笔道作客观真实记录,已备份速记录音。

  给机器找记忆

  一知团队的小伙伴们习惯了实验室里的安静。

  就像形容绝对的静谧要说“针落地的声音都能听见”一样,他们习惯的安静也非雅雀无声。啪嗒、啪嗒、啪嗒啪嗒啪嗒……天热时“挂”在树上的蝉鸣、天冷时“拍”在窗上的雨声,都被这啪嗒声无形稀释。

  那是手指断断续续敲击键盘的声音,“诉说”着一知团队的专心致志。在浙江大学,不知多少学生在这里“发声”,来解锁人工智能。

  次的解务有些不同。为了在由斯坦福大学自然语言计算组发起的Stanford Question Answering Dataset挑战赛中取得好成绩,一知智能的潘博远博士带领的语义理解开发团队已在这里埋头苦干近3个月。

  研究的核心内容是智能问答。相比于拥有“99%准确率”的人脸识别系统,同样被广泛使用的“自动回复”机器客服还远达不到智能的程度。

  问题无疑出在机器和人脑天差地别的语义理解能力上。复杂的长文本分析不了、简短的单一问题又必须见到,这样的系统无法针对一个问题与用户进行多次交流,准确回答自然成了奢求。

  况且,如今的答系已不再拘泥于传统的文本检索形式。音频、视频、图像……不同媒介之间相互融合、建立关系的大环境下,系统莫说回答问题,仅是理清其中的模式关系就十分困难。

  机器能否想人学会逻辑推理呢?抱着这一疑问,一知智能的陈哲乾博士带领的模型研发团队提出了记忆神经网络的概念,并决定为系统“安装”记忆神经。毕竟,只有记住全部内容,理解、推理和回答才会是反复的行为。

  他们成功了。

  真正的语义理解

  凭借着成功搭建的记忆神经网络,一知智能的潘博远博士在今年5月SQuAD机器阅读理解比赛中排名世界第二(大学参赛队伍第一),打败了同期参赛的微软、谷歌、Facebook和IBM。

  团队难以忘记好成绩背后的汗水。特征增强、数据训练……虽说站在Facebook和微软等巨人的肩膀上,但要设计教材和行业经验都没有记录的记忆神经网络模型,团队还是克服了不少难题。

  但更在意的是份成蕴藏的潜力。赵洲介绍,团队的产品总监黄孝喜博士有着20年项目工程经验,是比他年长的前辈,也是团队产品研发的领头羊;算法模型研发团队负责人陈哲乾博士和语义理解工程团队负责人潘博远博士也都有着5年的项目工程经验,是人工智能领域的“老兵”。和前三位来自浙江大学的博士不同,知识图谱工程团队负责人刘哲民博士本科毕业于山东大学,但也有着5年的项目工程经验。“正是这些亦师亦友的伙伴的加入,才成就了真正的一知智能。”

  公开比的技术优势加持下,团队最易展的当然是核心的语义理解与分析技。毫无疑问,将词汇内容叠加持续记忆的记忆神经网络是理解问题和答案的前提条件。

  具体的实现手段是把非构化数据结构化数据。与市面上把答案和问题作为向量,再靠向量和向量的匹配进行操作的问答系统不同,靠构建知识图谱检索答案的团队,向量单位并不是单个词汇。

  先将文本逐词输进引擎,再模不断用神脉冲记忆程,把答案放到神的神元里储存。这一形式可保证团队的第一版本机器提升20%的记忆长度,并保证回答的实时性,答案准确率约75%(人工为80%)。

  因此,团队的机器甚至可以教学诊病。如用户想知道如何治疗感冒,在别的智能问答系统中必须提出“感冒了该吃什么药”之类的问题才能得到答案。但团队的机器却能根据知识的积累,把用户诸如“流鼻涕”、“发烧”之类的非结构化数据变成结构化数据,无需用户说出“感冒”二字,也能自行匹配。

  但就如所有的人工智能系,要想真正理解分析,机器就必要大数据和深度学驱动。一个是千万级的文档,一个是最完备复杂的模型,两条腿缺一不可。

  所以,模型方面已有谱的一知产品总监黄孝喜博士,开始琢磨大数据的来源。

  和头部企业一起迭代引擎

  他看中的是各个域的部企

  “我们要做语义理解引擎,但这个开销不是小数目。和最头部的企业合作,我们一方面可以拿到大量的数据进行研究,另一方面也会得到对方的专业人员支持。”

  但事上,没等团队下手,些所就已找上门来。网易是团队的第一个正式客户,他们想要游戏中的虚拟人物可以和真人进行交互,而不是只能进行预设的发言。

  这正是团队擅长的非结构化到结构化的处理。得到对方专业人员在数据整理批注上的帮助,刘哲民博士显得更有底气,“如果做成,用户体验就会更加好,因为问答是自动生成的”。

  和网易行合作的同团队也没有放弃在其它领域的探索。社交领域的腾讯、电商领域的阿里、金融领域的同花顺(300033,股吧)、Office办公领域的微软、家电领域的格力,都先后成为了团队的“标杆”客户。

  随着团队语义理解引擎不断迭代,复杂长文本的阅读理解已不再是难题。根据记忆自动生成报表、通知、档案等文本对团队的机器而言已是小菜一碟。

  文字域的智能问答也水到渠成。专业名词频现的说明书也好、满布数字的长长金融报表也罢,团队的机器都能在存储这些信息的神经元中凭记忆检索出C端用户所需要的具体答案。

  B端用户则可以在团队视频智能答技术中受益。团队的机器都会通过动态和静态的双通道、在词语和问题两个层次上聚焦神经网络,将在记录和理解员工行为的基础上回答老板的问题。“员工几点到公司之类的问题,再也不用打卡说明了。”

  当然,完善中的模型还并不成熟。50多个人的团队要满足这么多头部企业的需求看起来似乎吃力,但产品总监黄孝喜博士毫不担心,“人工智能领域的人才在精不在多,我认为一年的合同任务我们半年就能完成”。

  况且,团队真正的目是中小企业。在语义理解分析功能的基础上,团队已完成阅读理解、知识库构建、视频问答、语义检索和智能干部选拔五套软件工具包的研发。

  他期待些大模的应用革新。“我们会和现在的大客户进行专利共享,技术研发依旧是主业。在做好视频文字语义理解的引擎之后,云平台才是盈利的主要场地。”

  据悉,团队已于今年11月完成A轮融资,由金沙江联合资本领投、博通资本跟投。目前,团队正在寻求A+轮融资,用来扩建团队,“高科技产业最好拼的还是人才”。

    本文首发于微信公众号:铅笔道。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

(责任编辑:何一华 HN110)
看全文
和讯网今天刊登了《腾讯阿里都看中的AI团队 让机器问答准确率75% 金沙江联合...》一文,关于此事的更多报道,请在和讯财经客户端上阅读。
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门新闻排行榜

和讯热销金融证券产品

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。