
【论文泛读45】更加物有所值:乐于助人的自然问题解答
发布日期:2021-05-07 00:55:19
浏览次数:23
分类:精选文章
本文共 729 字,大约阅读时间需要 2 分钟。
摘要
近年来,语言模型在多种NLP数据集上展现出接近人类水平的性能,但其对输入微小变化的敏感性值得关注。针对这一问题,传统方法主要通过构建全新训练集来解决,但这种方法成本较高且操作复杂。我们提出了一种替代方法:通过最小程度的干预来扩展现有训练集。具体而言,该方法包括收集种子示例并通过人为自然扰动生成新的训练样本。与传统的机器扰动方法不同,本地扰动不仅改变输入数据,还能有效调整金标。为评估该方法的有效性,我们选取了BoolQ问答数据集进行实验,分析了自然扰动与新问题构建的成本比对。实验结果表明,当自然扰动的创建成本适中时,采用本方法训练的模型不仅具有更高的鲁棒性和更好的泛化能力,而且在原始BoolQ测试集上的性能并未下降。特别是在0.6的中等成本比下,显著提升了模型的稳健性。结论
我们提出了一种创新的训练集构建方法,通过自然扰动扩展种子样本。实验结果证实,在BoolQ问题扰动上训练的模型对微小输入变化更加鲁棒,同时在原始测试集上的性能得到了保留。该方法的优势在于创建混乱例子的成本通常低于从头构建新问题,因此在资源有限的情况下具有较高的可行性。尽管本研究并非专注于数据集的构建,而是聚焦于模型设计的自然扰动价值,但我们为BoolQ数据集提供了自然扰动资源,供未来研究使用。模型介绍
本研究提出了一种通过最小扰动聚类创建训练集的方法,这种方法可以将现有训练集进行局部优化。具体而言,该方法通过收集初始种子示例,并对其进行人为自然扰动处理,从而生成多样化的训练样本。与传统的全新训练集构建相比,本地扰动具有操作成本更低的优势。实验结果表明,该方法在BoolQ问答数据集上的应用能够显著提升模型的鲁棒性和泛化能力,同时保持与原始数据集相当的性能水平。发表评论
最新留言
感谢大佬
[***.8.128.20]2025年04月15日 03时45分20秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
回顾-生成 vs 判别模型-和图
2019-03-06
采坑 - 字符串的 "" 与 pd.isnull()
2019-03-06
无序列表 - 链表
2019-03-06
SQL 查询强化 - 数据准备
2019-03-06
SQL 强化练习 (四)
2019-03-06
SQL 强化练习 (八)
2019-03-06
Excel 拼接为 SQL 并打包 exe
2019-03-06
Pandas数据分析从放弃到入门
2019-03-06
Matplotlib绘制漫威英雄战力图,带你飞起来!
2019-03-06
机器学习是什么
2019-03-06
《小王子》里一些后知后觉的道理
2019-03-06
《自私的基因》总结
2019-03-06
《山海经》总结
2019-03-06
《非暴力沟通》总结
2019-03-06
《你当像鸟飞往你的山》总结
2019-03-06
《我是猫》总结
2019-03-06
《抗糖化书》总结
2019-03-06
apache虚拟主机配置
2019-03-06
光盘作为yum源
2019-03-06
PHP 正则表达式资料
2019-03-06