日前,巨擘筹商机构弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)聚会头豹筹商院发布《2024年中国大模子行研才气年中评测》,松手披露:在16个主流大模子中,商汤“日日新”以8.923分(总分)再度位列榜首,并在叙述撰写和基础才气两大子榜中排行第一。
相较于《2023年中国大模子行研才气评测叙述》,这次参与评测的主流大模子从12家增至16家,在保合手三大才气维度(叙述撰写、行业交融、基础才气)的基础上,测试题目从1800谈增至3540谈,商汤“日日新“在蝉联第一的同期,总分从7.73升迁到8.923。
20+资深分析师参与打分:曩昔使用大模子办公,也曾日日新撰写叙述最佳用
值得刺眼的是,本次大模子行研才气测试隐蔽了3540谈题目,由20位资深筹商分析师和10个中外裁判大模子共同参与评测。
这些分析师大多领有开端16个月的使用大模子进行曩昔办公的教化,在评测中,叙述撰写这一中枢才气维度就隐蔽了20篇不同业业叙述撰写,涵盖分析师长期追踪叙述问题累积超3000谈题。
在“叙述撰写”才气(隐蔽8个子才气模块)中,商汤“日日新”排行第一,充分体现办公实际哄骗场景中的开端性。
沙利文及头豹行企筹商的8-D模块化大模子发问框架已滚动为一个评估器用,通过对十六个模子的定向发问,深入试验并评估模子叙述的撰写质地与有用性。
图:大模子叙述撰写才气评测总榜TOP5
沙利文以为,位列第一的商汤“日日新”在筹商叙述内容质地抽象产出优秀,大模子具备从基础信息中索求出深层逻辑相干的浩大才气。
其中,商汤“日日新”在逻辑推理层的三个细分维度中进展最为特地:
产业链分析:算作高阶难度撰写模块,股票融资成绩于其优秀的学问储备才气以及逻辑推理归纳才气,“日日新”在这一模块进展优秀;
特征分析:这一模块挑战在于抽象处罚海量数据、索求具有深度的代表性想法以及展现创始性,“日日新”在此模块中进展优异;
竞争神态:这是最具挑战性的模块之一,挑战在于准确筛选行业参与者,并归纳推演商场竞争态势的造成原因及畴昔趋势,“日日新”在企业筛选以及畴昔变化推演才气较强。
商汤“日日新”加合手基础才气,为千行百业筹商注入“新质分娩力”
同期,大模子优秀的基础才气好像显赫升迁分析师在研报撰写经由中使用模子的运动性,并增多其使用粘性。
在“行研基础”才气板块的进展中,商汤“日日新”抽象进展第一。
图:大模子基础才气评测总榜TOP5
这成绩于商汤“日日新”大模子体系的合手续迭代和才气维度的长期接济。自昨年4月初度发布,商汤“日日新SenseNova”大模子体系已妥贴推出多个大版块迭代。在本年7月“日日新5.5”体系迎来多项升级,抽象性能较“日日新5.0”平均升迁30%,在数学推理、英文才气和教导随从等才气明显增强,交互成果和多项中枢主见杀青对标GPT-4o。
通过束缚地实行与落地,商汤“日日新”也对九行八业中进行了深远的行业蓄积,这为其提供了行业深度洞悉与交融才气。在沙利文叙述中,商汤“日日新”在“行业交融”才气也进展特地。
商汤“日日新”在面临各行业下的趋势研判、信息归纳和商场理会方面进展了较强的才气,其中在电商零卖业、电信业、泛文娱业、房地产业、讲明注解业、运输业、制造业这些要津规模排行第一。
办公与内容创作是当下大模子最火热的哄骗场景,况兼亦然好像径直体现大模子分娩力水平的才气,商汤“日日新”这次蝉联第一,恰是为行研规模提供“新质分娩力”。畴昔,商汤科技还将束缚把大模子的才气鼎新为在九行八业的实际落地,股东生成式AI的范围化哄骗。