环球动态:大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

2023-05-22 10:25:30 商业新知网

大型语言模型（LLM）正在风靡全球，它们的一个重要应用就是聊天，并在问答、客服和其他许多方面都有应用。然而，聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用，我们目前尚不明晰。因此，LLM 的测评非常重要。

此前一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对 Vicuna-13B、MPT-7b-Chat 和 ChatGPT 3.5 进行了测试。结果表明，Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品，而 MPT 还没有准备好在现实世界中使用。

【资料图】

近日，CMU 副教授 Graham Neubig 对已有七种聊天机器人进行了详细测评，并制作了一个实现自动比较的开源工具，最后形成了一份测评报告。

在这份报告中，测评者展示了一些聊天机器人的初步评估、比较结果，目的是让人们更容易地了解最近出现的所有开源模型以及基于 API 的模型现状。

具体来说，测评者创建了一个新的开源工具包 ——Zeno Build，用于评估 LLM。该工具包结合了：（1）通过 Hugging Face 或在线 API 使用开源 LLM 的统一界面；（2）使用 Zeno 浏览和分析结果的在线界面，以及（3）使用 Critique 对文本进行 SOTA 评估的指标。

具体结果参加：https://zeno-ml-chatbot-report.hf.space/

以下是评估结果汇总：

测评者评估了 7 种语言模型：GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command 和 ChatGPT (gpt-3.5-turbo)；

这些模型是根据它们在客户服务数据集上创建类似人类的响应的能力进行评估的；

ChatGPT 拔得头筹，但开源模型 Vicuna 也很有竞争力；

测评者发现，使用具有较长上下文窗口的 chat-tuned 模型非常重要；

在对话的前几个回合，prompt 工程对于提升模型对话的表现非常有用，但在有更多上下文的后期回合中，效果就不那么明显了；

即使是像 ChatGPT 这样强大的模型也存在很多明显的问题，比如出现幻觉、未能探求更多信息、给出重复内容等。

以下是评测的详细信息。

设置

模型概况

测评者使用的是 DSTC11 客户服务数据集。DSTC11 是一个对话系统技术挑战赛的数据集，旨在支持更具信息性和吸引力的任务导向对话，通过利用评论帖子中的主观知识来实现。

DSTC11 数据集包含多个子任务，如多轮对话、多领域对话等等。例如，其中一个子任务是基于电影评论的多轮对话，其中用户和系统之间的对话旨在帮助用户找到适合他们口味的电影。

他们测试了以下 7 个模型：

GPT-2：2019 年的一个经典语言模型。测评者把它作为一个基线加入，看看最近语言建模方面的进展对建立更好的聊天模型有多大影响。

LLaMa：一个最初由 Meta AI 训练的语言模型，使用的是直接的语言建模目标。测试中使用的是 7B 版本的模型，以下开源模型采用的也是同等规模版本；

Alpaca：一个基于 LLaMa 的模型，但进行了指令调优；

Vicuna：一个基于 LLaMa 的模型，为基于聊天机器人的应用做了进一步的明确调整；

MPT-Chat：一个以类似于 Vicuna 的方式从头开始训练的模型，它有一个更商业化的许可；

Cohere Command：Cohere 推出的一个基于 API 的模型，进行了指令遵循方面的微调；

ChatGPT（gpt-3.5-turbo）：标准的基于 API 的聊天模型，由 OpenAI 研发。

对于所有的模型，测评者使用了默认的参数设置。其中包括温度（temperature）为 0.3，上下文窗口（context window）为 4 个先前的对话轮次，以及一个标准的 prompt：「You are a chatbot tasked with making small-talk with people」。

评价指标

测评者根据这些模型的输出与人类客服反应的相似程度来评估这些模型。这是用 Critique 工具箱提供的指标完成的：

chrf：测量字符串的重叠度；

BERTScore：衡量两个语篇之间嵌入的重叠程度；

UniEval Coherence：预测输出与前一个聊天回合的连贯性如何。

他们还测量了长度比，用输出的长度除以黄金标准的人类回复的长度，以此衡量聊天机器人是否啰嗦。

更进一步的分析

为了更深入地挖掘结果，测评者使用了 Zeno 的分析界面，特别是使用了它的报告生成器，根据对话中的位置（开始、早期、中期和后期）和人类回应的黄金标准长度（短、中、长）对例子进行细分，使用其探索界面来查看自动评分不佳的例子，并更好地了解每个模型的失败之处。

结果

模型的总体表现如何？

根据所有这些指标，gpt-3.5-turbo 是明显的赢家；Vicuna 是开源的赢家；GPT-2 和 LLaMa 不是很好，表明了直接在聊天中训练的重要性。

这些排名也与 lmsys chat arena 的排名大致相符，lmsys chat arena 使用人类 A/B 测试来比较模型，但 Zeno Build 的结果是在没有任何人类评分的情况下获得的。

关于输出长度，gpt3.5-turbo 比其他模型的输出要冗长得多，而且看起来，在聊天方向进行调优的模型一般都会给出冗长的输出。

黄金标准响应长度的准确性

接下来，测评者使用 Zeno report UI 进行深入挖掘。首先，他们按照人类回复的长度将准确性分别进行了测量。他们将回复分为短（≤35 个字符）、中等（36-70 个字符）和长（≥71 个字符）三个类别，并对它们的准确性进行了单独的评估。

gpt-3.5-turbo 和 Vicuna 即使在更长的对话轮次中也能保持准确性，而其他模型的准确性则有所下降。

接下来的问题是上下文窗口大小有多重要？测评者用 Vicuna 进行了实验，上下文窗口的范围是 1-4 个之前的语篇。当他们增加上下文窗口时，模型性能上升，表明更大的上下文窗口很重要。

测评结果显示，较长的上下文在对话的中间和后期尤其重要，因为这些位置的回复没有那么多的模板，更多的是依赖于之前所说的内容。

当试图生成黄金标准较短的输出时（可能是因为有更多的歧义），更多的上下文尤为重要。

prompt 有多重要？

测评者尝试了 5 个不同的 prompt，其中 4 个是通用的，另外一个是专门为保险领域的客服聊天任务量身定制的：

标准的：「你是一个聊天机器人，负责与人闲聊。」

友好的：「你是一个善良、友好的聊天机器人，你的任务是用一种让人感到愉快的方式与人闲聊。」

有礼貌的：「你是一个非常有礼貌的聊天机器人，说话非常正式，尽量避免在回答中犯任何错误。」

愤世嫉俗的：「你是一个愤世嫉俗的聊天机器人，对世界有着非常黑暗的看法，通常喜欢指出任何可能存在的问题。」

保险行业专用的：「你是 Rivertown 保险服务台的工作人员，主要帮助解决保险索赔问题。」

总的来说，利用这些 prompt，测评者并没有测出不同 prompt 导致的显著差异，但「愤世嫉俗」的聊天机器人稍微差一点，而量身定制的「保险」聊天机器人总体上稍微好一点。

在对话的第一个回合中，不同 prompt 带来的差异尤其明显，这表明当没有什么其他上下文可以利用时，prompt 是最重要的。

发现的错误以及可能的缓解措施

最后，测评者使用 Zeno 的 exploration UI ，试图通过 gpt-3.5-turbo 找到可能的错误。具体来说，他们查看了所有 chrf 较低（<0.1）的例子，并手动查看了这些例子以发现趋势。

Probe 的失败

有时模型无法在实际需要时 Probe（探测）更多信息，例如模型在处理号码这一事件中尚未完善（电话号码必须是 11 位数字，模型给出的数字长度与答案不匹配）。这时可以通过修改 prompt 来缓解，以提醒模型某些信息所需的长度。

内容重复

有时，同样的内容会重复多次，比如聊天机器人在这里说了两次「谢谢」。

回答合理，但与人类方式不同

有时候，这种响应是合理的，只是与人类的反应不同。

以上就是评测结果。最后，测评者希望这份报告对研究者有所帮助！如果你继续想尝试其他模型、数据集、prompt 或其他超参数设置，可以跳转到 zeno-build 存储库上的聊天机器人示例进行尝试。

上一篇 : 【环球报资讯】台湾花莲织娘连美惠的广西“母亲”

下一篇 : 最后一页

环球动态:大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

2023-05-22 10:25:30 商业新知网

相关推荐

环球动态:大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

【环球报资讯】台湾花莲织娘连美惠的广西“母亲”

每日简讯：乡镇公务员好考吗四川（乡镇公务员好考吗）

环球时讯：沙皮狗一般多少钱_沙皮狗一般多少钱一只

港股早报| 呷哺集团开启付费会员模式 百度“希壤”负责人离职 每日热讯

辛柏青和朱媛媛唱幸福的两口子_辛柏青和朱媛媛_当前最新

【环球热闻】微博借钱逾期四天延迟还款会不会上征信

测字打分测试_测字打分 全球今头条

脑洞大侦探救救圣诞老人怎么过（解谜37关救救圣诞老人攻略图）|环球速看料

双盲夫妻为给孩子择校 唯一住房出售款400余万被骗 全国助残日检察院发8万司法救助金 环球热闻

心疼球王！大巴黎队长警告主场球迷：不要嘘梅西，姆巴佩也该背锅 当前滚动

全球新资讯：垓下之战

几何画板免安装版 环球滚动

国投电力：前4月上网电量500.3亿千瓦时 同比增21.57%

中国西藏发展论坛中外嘉宾赴西藏大学了解藏文古籍保护现状_每日讯息

焦点速讯：562幅影像、119件实物、4部专题片 向老艺术家致敬！

茉莉的花期是多少天 茉莉哪时候会开花呢|每日资讯

世界视讯！Qt QSS美化 基础知识

环球讯息：环球热推荐：王菲陪李嫣游法国合照流出，李嫣17岁生日在即越大越漂亮_环球速看料

天天精选！我的世界比较器合成表_我的世界比较器

穆雷半场30分掘金仅领先3分：湖人走出困局小里成奇兵 约基奇8中2

跳舞作品怎么发才容易上热门（跳舞作品）

46件古丝绸之路古城遗址出土文物在新疆首展-环球观点

全力应对汛情 保障安全供电！国网怀化供电公司在行动-每日快报

广发e秒贷逾期7天查征信应该怎么做?

《蜘蛛侠纵横宇宙》中文配音片段：彭昱畅虞书欣献声|环球微速讯

京东怎么货到付款?_京东货到付款怎么弄 全球热资讯

童话故事丽丝

环球观热点：3000元买个户外低音炮，但很好用，JBL Partybox音乐战将户外音响

哈尔滨足疗店价格_哈尔滨足疗一条街

焦点要闻：中国外汇市场指导委员会：人民币汇率能在合理均衡水平上保持基本稳定

火炬之光2狂战士加点_火炬之光2介绍

个人诫勉谈话检查书_诫勉谈话个人检查报告 观焦点

起诉！起诉！300亿巨头又出大事|百事通

世界最新：世体：飞利浦将成为巴萨衣袖广告商，首年赞助800万欧&逐年增长

【播资讯】国产新冠药自费价格进一步探底，部分地区医保报销比例95%

风云侠客令兑换码汇总大全_世界热资讯

长焦人像成就爱意表达，华为P60 Pro助力520留最美回忆-全球今日报

远兴能源董秘回复：公司产品销售价格随行就市 天天视点

农村土地所有权和使用权_土地所有权和使用权

一觉醒来，空气中都是土味儿！北京已达严重污染，预计转好时间——

亲测很灵！武汉这些地方表白100％成功！ 全球快讯

前沿热点：征缴社会保险费及行政复议纠纷案开庭 石景山区区长出庭应诉

当前讯息：装修图纸剖面图怎么看_剖面图怎么看

全球速看：这份新报告里，写了好多个“难”字！

又双叒叕是救人救火！中通司机师傅们，太帅了！

上大学怎么修双学位_大学双学位怎么修-世界关注

游戏优化器有用吗_什么游戏优化软件比较好-全球观点

今日讯！欧洲银行的春天结束了？一季度净利息收入环比下降

全球今日报丨雾里看花电视剧演员表_雾里看花电视剧

精彩推送

当前热讯：顺丰控股：4月速运物流业务营收同比增长27.29%

国网能源开发有限公司_和山东鲁能是啥关系

王者荣耀克制镜的英雄有哪些-2023克制镜的英雄|即时

紫杉类药物纳米级药物递送系统载体稳定性差破题 有望用于多种实体肿瘤治疗

家长“趣”讲历史，带龙成小学学子走进“诗词里的故乡” 资讯推荐

每日快讯!高血压为什么不能吃鸡肉

荣耀90系列屏幕升级：首发3840Hz零风险调光护眼屏

健康西城在行动｜ “520” 转角遇到多一重爱 “婚登”别忘“婚检”

全球时讯：民法总则规定赠与合同无效吗

工位图“通缉令”！

天天动态:美前官员：美国及北约忽视俄安全诉求造成俄乌当前局势

旋木雀_关于旋木雀介绍

用粘土做的可爱动物_超轻粘土教程可爱动物

黄瓜皮能吃吗？变废为宝的“蔬菜皮”，别再浪费了

天天快消息！施特伟iHRPlus持续服务老客户艾本德，助力高效管理

新能源汽车下乡，充电桩要先行！-环球快资讯

世界关注：家财险谋求更贴近民生

德班世乒赛五个项目抽签结果出炉 国乒积极备战只待开赛

全球简讯:[新浪彩票]足彩第23068期投注策略：圣保利分胜负

中国时空智能服务(LBS)行业市场前景预测与投资战略规划分析报告

[乙二醇]：乙二醇市场早间提示

前沿热点：这名武大“学霸”，太厉害了！

全球观速讯丨电脑屏幕突然变黄了怎么办（电脑屏幕突然变黄）

农村夕阳瘦老头微博_瘦老头x瘦老头-今日精选

苹果锁屏密码忘了_苹果锁屏密码忘了

天天观天下！繁昌论坛网官网_繁昌论坛

港股早报| 呷哺集团开启付费会员模式百度“希壤”负责人离职每日热讯

测字打分测试_测字打分全球今头条

双盲夫妻为给孩子择校唯一住房出售款400余万被骗全国助残日检察院发8万司法救助金环球热闻

心疼球王！大巴黎队长警告主场球迷：不要嘘梅西，姆巴佩也该背锅当前滚动

几何画板免安装版环球滚动

国投电力：前4月上网电量500.3亿千瓦时同比增21.57%

焦点速讯：562幅影像、119件实物、4部专题片向老艺术家致敬！

茉莉的花期是多少天茉莉哪时候会开花呢|每日资讯

世界视讯！Qt QSS美化基础知识

穆雷半场30分掘金仅领先3分：湖人走出困局小里成奇兵约基奇8中2

全力应对汛情保障安全供电！国网怀化供电公司在行动-每日快报

京东怎么货到付款?_京东货到付款怎么弄全球热资讯

个人诫勉谈话检查书_诫勉谈话个人检查报告观焦点

远兴能源董秘回复：公司产品销售价格随行就市天天视点

亲测很灵！武汉这些地方表白100％成功！全球快讯

前沿热点：征缴社会保险费及行政复议纠纷案开庭石景山区区长出庭应诉

紫杉类药物纳米级药物递送系统载体稳定性差破题有望用于多种实体肿瘤治疗

德班世乒赛五个项目抽签结果出炉国乒积极备战只待开赛

often后面加动词什么形式 wouldlike后面加什么天天要闻

缩水18个亿！这家房企干倒了股神牵出多起“骗局” 环球快资讯

环球动态:订单量较2019年增长2.9倍年轻客群带动“文博游”走热

震惊！92.3%的世界500强企业布局了新能源行业今日关注

瓜州县河东镇：“土地托管”新模式“托”起农户增收路实时

世界报道:易安财险正式更名深圳比亚迪财险比亚迪收购易安财险完成工商登记

“媛起海南因为有你”赵媛独唱音乐会海口唱响

联合国秘书长确认黑海港口农产品外运协议再延长两个月全球新消息

中国旅游日“文明旅游”分会场在厦启动将开展持续一个月的文旅系列活动

常德鼎城：重拳出击优环境高效维权守健康全球百事通

奶酪博士获iSEE全球奖奖项助推中国奶酪市场行业高质量发展|即时焦点

幽门螺杆菌，到底用不用治？当前快播

环球即时看！“国六b”对车市影响几何整体冲击力度有限

当前快讯:越野欧元卡车司机货运官网在哪下载最新官方下载安装地址

“二阳”来势汹汹，提醒酒友，要平时喜欢喝酒，这2点要牢记在心环球时快讯

【全球速看料】俄海参崴港成中国出海口？官方回应究竟是因为什么？

“国际青年中国行”走进南京感知现代化城市图景速看料

中原农险拟增资至40亿元引入河南投资集团、农开基金两家新股东

抢“鲜”山野菜助力乡村振兴

重庆高新区7.28亿元挂牌10.78万平宅地采取“拍卖+摇号”方式出让|每日热文