文档处理天花板!金山办公联合华科大推出文字多模态大模型TextMonkey

2024-03-25 10:26:00 大京网

继WPS AI正式开启公测,实现AI技术在国内办公领域的率先落地之后,近日,金山办公技术上又有新进展。金山办公与华中科技大学联合研发的Monkey多模态大模型,被人工智能领域的国际顶级会议CVPR 2024接收。与此同时,金山办公还与华科大围绕“Monkey”在文档领域进行重要升级,推出文字多模态大模型TextMonkey,在多项文档理解任务上取得国际领先,向通用文字识别迈出坚实的一步。

“Monkey”发布于2023年年底,是金山办公与华中科技大学软件学院联合研发的多模态大模型。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。这一成果还曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首,仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。

(国际权威的“司南”多模态大模型排行榜单)

而近日,金山办公与华科大再次升级推出文字多模态大模型TextMonkey,更是突破了通用文档理解能力的边界。在场景文字识别、办公文档摘要生成、数学问题解答、文档版式分析、表格理解、图表问答以及电子文档关键信息抽取等12项权威文档数据集上取得了显著成果。

例如,TextMonkey可以用于帮助用户解答数学题并给出解题步骤,推动教育自动化的发展;TextMonkey还能够帮助人们理解结构化图表、表格以及文档数据,通过将图像内容转化为轻量级的数据交换格式,方便记录和提取。由于TextMonkey模拟了人类视觉认知的方法,这使它能自然而然地识别高清文档图像中各部分的相互关联,并灵敏地鉴别出图像内的关键要素。并且,基于对用户多样化需求的深入理解,TextMonkey可以通过文本定位技术强化了答案的准确性,提升了模型的解释性,有效提高了在处理各类文档任务上的表现。

(TextMonkey将图表自动结构化成json格式示例)

当前,随着企业加速数字化转型,文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理的是随意拍摄的图片、电子文档、办公软件文件还是图表分析报告,快速、自动化、精确的数据处理对于提升企业的生产效率具有决定性意义。TextMonkey的推出,创新性地为办公自动化、智慧教育、智慧金融等领域的技术突破带来了通用解决方案,为全面提升通用文档理解能力带来曙光。

值得一提的是去年4月份,WPS AI首次亮相,金山办公将WPS AI定位为大语言模型的应用方,将应用大模型重构办公软件,为用户提供AIGC(内容创作)、Copilot(智慧助理)和Insight(知识洞察)三方面全新的产品体验。去年11月,WPS AI正式开启公测实现AI技术在国内办公领域的率先落地。

在企业用户市场,金山办公推出办公新质生产力平台——WPS 365,并通过WPS 365将AI技术开放赋能给企业客户。AI的应用让WPS 365变得更加智能和高效,无论是文档编辑、数据分析还是企业项目管理,AI都能提供精准高效的支持,极大提升企业的工作效率。WPS 365还提供WPS协作,打造以IM为核心的协同办公平台,减少团队成员的沟通成本,帮助企业构建更加紧密和高效的团队。

加码AI和协作,为金山办公业务的快速增长注入了动力。根据金山办公最新财报显示,2023年,金山办公营收与净利润全面增长,营业收入45.56亿元,同比增长17.27%;归属于母公司所有者净利润13.18亿元,同比增长17.92%。主营业务中,订阅业务作为金山办公核心的增长引擎,2023年收入36.11亿元,占总收入比79%,同比提升8个百分点。

2024年,金山办公将继续秉持“技术立业”和“用户第一”的理念,围绕“多屏、云、内容、协作、AI”战略,为来自全球220多个国家和地区的用户提供办公服务。

(免责声明:此文内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,请自行核实相关内容。广告内容仅供读者参考。)

(责任编辑:董萍萍 )
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。