近来,山海大模型完结新一轮迭代晋级,并在最新的OpenCompass大模型评测中获得归纳性中英文双语客观评测得分53.6、归纳性中文片面评测得分42.2的优异成绩,在参加测评的全球大模型厂商中排名第六。评测成果为,其在中英文双语客观评测中的言语、常识、推理才能,在归纳性中文片面评测中的创造才能已逾越GPT-4。
作为上海人工智能实验室开源的大模型评测体系,OpenCompass努力于探究最先进的言语与视觉模型,为工业界和研讨社区供给全面、客观、中立的评测参阅,然后依据不同才能维度的评测分数辅导大模型的优化与前进。
OpenCompass 月度榜单从根底才能和归纳才能的规划动身,结构了一套高质量的中英文双语评测基准,包含言语与了解、常识与逻辑推理、数学核算与使用、多编程言语代码才能、智能体、创造与对话六个方面二十余项细分使命,力求对近期的干流开源模型和商业 API 模型做全面评测剖析。
此次榜单包含了国内外 40 个大言语模型,评测数据集选用中英文闭源数据集,包含归纳性中文片面评测和归纳性中英文双语客观评测。云知声山海大模型归纳性中英文双语客观评测得分53.6,归纳性中文片面评测得分42.2,排名国产大模型厂商第四、全球大模型厂商第六。从各项数据看,其在言语、常识、推理、创造等方面体现优异,显现出微弱的归纳实力。
而山海大模型之所以能够在众多大模型中锋芒毕露,得益于其在技能上的一系列立异和优化——在本次大模型晋级中,云知声引入了自我演进偏好学习技能,使得大模型能够经过自我对弈微调(SPIN)完结自我提高。在高质量数据生成方面,云知声结合RLHF和RLAIF办法,生成很多偏好数据,并选用k-Center Greedy算法保证数据的多样性和掩盖度。此外,云知声还建立了一个全面的自动化评测体系,以此完结对模型作用的快速评测,从而支撑大模型的迭代和优化。
自2023年5月发布以来,山海大模型始终保持高速迭代,其在C-Eval全球大模型归纳性评测、CCKS 2023医疗大模型评测等威望赛事上屡获佳绩,展现出全面的通用才能和杰出的专业才能,成功跻身大模型榜首队伍。此次评测,是山海大模型超卓实力的又一次印证,也将鞭笞其继续加快迭代,继续引领大模型研制与落地。
作为我国AGI技能产业化的先行者,云知声于2016年开端打造Atlas人工智能根底设施,并以此为根底,构建云知大脑(UniBrain)技能中台——以山海(UniGPT)通用认知大模型为中心,结合多模态感知与生成、常识图谱、物联渠道等智能组件,为云知声才智物联、才智医疗、才智交通等事务供给高效的产品化支撑,继续推进“U(云知大脑)+X(使用场景)”战略布局。
山海大模型作为云知大脑的中心,其才能体系包含言语生成、言语了解、常识问答、 逻辑推理、代码才能、数学才能等。此外,为提巨大模型在详细场景的使用落地水平,山海大模型在通用才能根底上,增强物联、医疗、交通等职业才能,努力为客户供给更智能、更灵敏的解决方案,加快千行百业的才智化晋级。
现在,云知声正依托山海大模型技能才能的加快迭代,逐渐深化到才智医疗、才智座舱、才智轨交、才智政务等详细场景,不断开释AGI的更多或许。
在才智医疗范畴,云知声根据山海大模型打造的门诊病历生成体系已落地北京友谊医院,有用提高了病历编撰功率与质量;在才智政务范畴,云知声首先开宣布深圳首个政务大模型“龙知政”,全场景赋能提高政府管理水平;在才智座舱范畴,云知声经过山海大模型赋能吉祥睿蓝轿车打造情感型虚拟帮手,为用户所带来全车全场景的情感染智能交互体会;在才智轨交场景,云知声山海大模型“入驻”南宁火车东站,打造更具人性化的智能客服,助力完结换乘节点无缝高效换乘,为乘客带来更方便、更便当的出行体会,相关事例也于近期被央视《焦点访谈》栏目报导。
跟着大模型技能的渐渐的提高和立异,咱们有理由信任,国际将变得更智能和互联。咱们等待,山海大模型能够在必定程度上完结更多新的打破,拓荒更广更深的技能鸿沟,拓宽更多没有触及的使用场景。