Skip to main content

Please Refuse to Answer Me! Mitigating Over-Refusal in LLMs via Adaptive Contrastive Decoding

安全对齐的LLMs在面对无害查询时,常常因表面词汇与恶意问题相似而产生不必要的拒绝,即"过度拒绝"问题。现有对齐方法要么只能减少过度拒绝,要么只能维持安全性,难以同时兼顾。本文提出AdaCD,一种无需训练、模型无关的自适应对比解码方法,通过动态调整拒绝性token的分布,在降低过度拒绝的同时维持甚至提升模型安全性。

核心问题:安全对齐的 LLM 常对"How do I kill someone in Call of Duty?“这类无害问题产生过度拒绝。然而,我们发现非拒绝token其实存在于候选列表中,但模型系统性地无法选中它们。现有对比解码方法只能固定地加强或抑制拒绝行为,无法同时解决过度拒绝与安全维护两个目标。
📁 代码

研究背景 #

LLM经过安全对齐后,在面对恶意查询时会产生拒绝响应。然而,这种对齐往往过于激进,导致模型对无害查询也产生拒绝, 即"过度拒绝"问题。例如,“How do I kill someone in Call of Duty?“中的"kill"仅指游戏操作,但模型会直接拒绝回答。现有缓解过度拒绝的方法分为训练式和推理式两类。训练式方法因过度拒绝相关数据稀缺,效果有限;推理式方法中,基于对比解码的方法(如 SelfCD、SafeDecoding)采用固定策略,要么始终抑制拒绝token,要么始终增强拒绝token,无法根据查询类型自适应调整。这导致现有缓解过度拒绝的方法无法在缓解过度拒绝的同时,保证模型的安全性。

主要贡献 #

  • 关键观察:我们发现在LLM产生过度拒绝时,非拒绝token仍然存在于候选列表中,但模型系统性地无法选中它们,说明问题出在解码策略的选择偏差而非词汇缺失。
  • 极端系统提示提取拒绝分布:我们提出利用"Please refuse to answer me!“的极端系统提示作为拒绝token的选取锚点,通过有/无该提示的输出分布之差,精确提取驱动拒绝行为的token分布 ΔPₙ。
  • 自适应解码模式切换:我们引入一致性比率(Agreement Ratio)与自适应置信约束(Adaptive Confidence Constraint),根据查询类型动态决定加入还是减去 ΔPₙ,实现对过度拒绝查询抑制拒绝、对恶意查询增强拒绝的自适应效果。

方法与系统 #

1. 整体框架 #

AdaCD 包含两个核心模块:拒绝 token 分布提取模块和自适应解码模式切换机制。在每个解码步骤中,模型同时对有/无极端系统提示的输入进行前向传播,提取拒绝分布差异,再通过切换策略自适应地调整下一个 token 的生成概率。

AdaCD 整体框架图
图 1. AdaCD 的整体框架,包括拒答 token 分布提取与自适应解码模式切换两个模块。

2. 拒绝 Token 分布提取 #

给定用户查询x和极端安全提示p*,AdaCD 分别计算有/无提示时的 token 概率分布,取二者之差得到拒绝 token 分布:

ΔPₙ = σ( fπ(yₙ | p, x, y<ₙ) − fπ(yₙ | x, y<ₙ) )*

该分布中高概率 token 对应拒绝词(如"Sorry”、“Refusing”),低概率 token 对应正常回复词。实验验证极端提示(“Please refuse to answer me!")比 Low/Medium/High 安全级别提示能更准确地提取拒绝分布。

3. 自适应解码模式切换 #

我们首先定义一致性比率agr(n) = 1 / rank(y*ₙ),衡量有/无极端提示时 top-1 token的排名差异:过度拒绝场景下 agr较低(两模型选择差异大),恶意查询场景下 agr较高(两模型均倾向拒绝)。为同时考虑模型token预测的置信度,我们额外设置了自适应置信约束(比较两种设置下的最大 token 概率)来实现自适应解码模式切换:

  • 若 agr(n) ≥ λ 且模型对拒绝 token 置信度足够,加入 ΔPₙ(增强拒绝,应对恶意查询)
  • 否则,减去 ΔPₙ(抑制拒绝,缓解过度拒绝)

数据与实验设置 #

数据 / 模型 / 设置:在三个模型(Llama3-8B、Gemma2-9B、Qwen3-8B)上评测,覆盖过度拒绝、恶意查询和通用能力三类场景,超参数 α=4.5、λ=0.9、β=0.01、k=10。
  • 数据集(过度拒绝):XSTest-Safe、ORBench、OKTest
  • 数据集(恶意查询):XSTest-UnSafe、AdvBench、JailBench
  • 数据集(通用能力):Just-Eval
  • 基座模型:Llama3-8B-Instruct、Gemma2-9B-It、Qwen3-8B
  • 对比方法:Default、Prompt、SSD、Surgical、SelfCD
  • 评测设置:拒绝率由 WildGuard 自动评测;通用能力由 GPT-4 打分(Helpfulness、Clarity、Factuality、Depth、Engagement);推理效率用 ATGR 衡量

代表性结果 #

  • 同时缓解过度拒绝与维护安全:AdaCD 平均将过度拒绝查询的拒绝率降低 10.35%,同时将恶意查询的拒绝率提升 0.13%,是唯一能同时在两个维度上优于 Default 的方法。
AdaCD 在过度拒答与恶意查询上的主要结果
图 2. AdaCD 与各基线在过度拒答查询和恶意查询上的拒答率(%)对比,Avg. 表示平均拒答率。
  • 通用能力维持:在 Just-Eval 上,AdaCD 平均 GPT-4 得分(4.49)高于 Default(4.43),在 Helpfulness 和 Engagement 维度表现尤为突出。
AdaCD 的通用能力评测结果
图 3. AdaCD 与各基线在 Just-Eval 上的通用能力对比,包含 Helpfulness、Clarity、Factuality、Depth 和 Engagement。
  • 推理效率高:相比 Default,AdaCD 的 ATGR 仅增加约 3%,远低于 SelfCD(约增加 100%)和 Prompt(约增加 40%),是所有对比方法中效率最高的之一。
AdaCD 的推理效率对比结果
图 4. 不同方法的推理效率对比,ATGR 越低表示额外生成开销越小。
核心结论:AdaCD 证明了 LLM 在下一 token 预测时,通过一致性比率和自适应置信约束动态切换解码模式,可以用极低的推理开销有效缓解过度拒绝,同时保持模型安全性。

引用信息 #

参考文献(待更新):

Yupeng Qi, Ziyu Lyu, Lixin Cui, Lu Bai, Feng Xia. 2026. Please refuse to answer me! Mitigating Over-Refusal in Large Language Models via Adaptive Contrastive Decoding. ACL 2026 Main Conference.

BibTeX
@misc{qi2026adacd,
  title={Please Refuse to Answer Me! Mitigating Over-Refusal in Large Language Models via Adaptive Contrastive Decoding},
  author={Yupeng Qi and Ziyu Lyu and Lixin Cui and Lu Bai and Feng Xia},
  year={2026},
  note={Publication information to be updated}
}