英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
英伟达最近的研究揭示了长上下文大模型存在虚标现象,涉及包括GPT-4在内的10个知名模型。这些模型宣称能处理128K乃至1M的上下文长度,但在英伟达设计的新指标“有效上下文”测试下,能维持32K有效长度的模型已显稀缺。这一新基准名为RULER,它通过检索、多跳追踪、聚合及问答四类共13项任务,评估模型处理长文本的真实能力,确保关注点在于模型的理解而非单纯的信息回忆。英伟达新研究:上下文长度虚标严重,32K性能合格的都不多。
RULER基准的独特之处在于减少了对模型预存“参数化知识”的依赖,增强了评测的公平性和全面性。例如,它不仅升级了传统的单一检索任务,还引入了多针检索、多值检索、多查询检索等复杂情景,以及模拟指代消解的变量追踪、词汇提取和抗干扰的长序列问答等挑战,全方位检验模型的长文本处理实力。
实验涵盖了从6B至8x7B参数规模不等的10个模型,包括GPT-4及其他开源模型如Command-R、Yi-34B等,最大上下文长度跨度从32K至1M。在RULER的严格测试下,尽管多数模型在其标称的长上下文范围内表现出色,但深入分析发现,仅Mixtral模型能在其声明的长度上持续超越基线性能。GPT-4在4K长度下展现出最佳性能,且在扩展至128K时性能下降最少。开源模型中,Command-R、Yi-34B及Mixtral因采用较大RoPE基频和更多参数,表现突出。
进一步的研究还探索了输入长度、任务复杂度对模型表现的影响,以及模型大小、架构对长上下文处理能力的作用。结果显示,增大训练上下文通常提升性能,但效果不恒定;模型规模扩大显著有利于长文本理解;非Transformer架构模型在此类任务上表现不及基于Transformer的模型。
对于那些渴望深入了解模型长文本处理能力局限及优化方向的研究者而言,英伟达的这项研究无疑提供了宝贵的洞见和实证基础。