您的位置：首页 > IT > 正文

ChatGLM2-12B 评测效果公布

来源：OSCHINA 时间：2023-07-28 11:45:57

【资料图】

距离 ChatGLM2 系列模型发布已有月余。日前，GLM 技术团队公布了 ChatGLM2-12B 在部分中英文典型数据集上的评测效果，数据集包括 MMLU(英文)、C-Eval(中文)、GSM8K(数学) 和 BBH(英文) 等。

“ChatGLM2-12B 模型在这些数据集上取得了不错的成绩。我们将继续不断改进和优化模型，以提供更优质的模型效果。”

MMLU

Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试，Base 模型使用 few-shot answer-only 的方法测试。

C-Eval

Chat 模型使用 zero-shot CoT 的方法测试，Base 模型使用 few-shot answer only 的方法测试。

GSM8K

所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自http://arxiv.org/abs/2201.11903

* 使用翻译 API 翻译了 GSM8K 中的 500 道题目和 CoT prompt 并进行了人工校对。

BBH

所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自此处。

每日推荐

小心特种兵式高管

这一次，苏州反超深沪

“做餐厅设备回收6年，今年见证了太多血本无归”

如果地球上的所有电子都凭空消失，会发生什么？

浪漫游船靓夏夜

新点软件：融资余额1.02亿元，创近一年新高（07-27）

精彩推送

ChatGLM2-12B 评测效果公布

Mysteel：29省份上半年GDP排行榜出炉，近半数跑赢全国增速

【新闻随笔】点亮更多青少年对天空的梦想

2023-07-28

闽昌少年儿童手拉手活动在福州开营共绘民族同心圆

2023-07-28

商家做起年轻人的情绪生意，10块钱买不了吃亏？

2023-07-28

文章排行

至暗时刻里的蒋凡

2023-07-28

盘点苹果历届失败设计

2023-07-28

安达发|企业为什么需要APS排程系统？

2023-07-28

Exponent(EXPO.US)：2023年Q2财报实现营收1.402亿美元

2023-07-28

完成度99%！纳达尔逼近生涯千胜里程碑，网坛仅3人完成此壮举！

2023-07-28

每日推荐

精彩推送

文章排行

图片新闻

ChatGLM2-12B 评测效果公布

MMLU

C-Eval

GSM8K

BBH

相关文章

推荐内容