一、引入新的人工智能方法的迫切性
研究大型语言模型(LLM)的科学家发现,LLM在认知任务中的表现与人类相似,常常做出不符合理性规范的判断和决策,比如在处理风险和避免损失时。LLM也呈现出与人类类似的偏见和错误,尤其在概率判断和算术运算任务中。这些相似之处表明LLM有可能被用于作为人类认知模型。然而,仍面临重大挑战,包括LLM训练所基于的大量数据及这些行为相似性的具体来源尚不明确。
由于一些问题存在争议,LLM 是否适合用作人类认知模型。LLM 是基于比人类数据集更大的数据进行训练的,可能已经接触过测试问题,并通过价值调整人工增强了类似人类行为。尽管存在这些挑战,但对LLM(例如LLaMA-1-65B模型)在人类选择数据集上进行微调,可以提高预测人类行为准确性。先前的研究也强调了合成数据集在增强LLM准确性方面的重要性,特别是在解决算术问题等任务中。预先训练这些数据集可以显著提高预测人类决策性能。
二、新兴的人工智能技术实施途径
普林斯顿大学和华威大学的研究人员建议以以下方式提升LLM作为认知模型的实用性:(一) 利用LLM和理性代理必须掌握的计算等效任务来解决认知问题;(二) 检查LLM在展现类似人类行为所需的任务分布时的表现。算术-GPT是一种在生态有效算术数据集上进行过预训练的LLM,它在决策方面表现优秀,尤其是在风险和跨期选择方面,比很多传统认知模型更能准确预测人类行为。这种预训练使得LLM与人类决策能够更加密切地结合在一起。
研究人员通过定义数据生成算法来创建合成数据集并获取对决策至关重要的神经激活模式,解决了使用 LLM 作为认知模型的挑战。一个具有生成预训练变压器 (GPT) 架构的小型 LM,名为 Arithmetic-GPT,在算术任务上进行了预训练。生成了反映实际概率和值的合成数据集以供训练。预训练细节包括上下文长度为 26、批处理大小为 2048 和学习率为 10⁻³。重新分析了风险和跨期选择中的人类决策数据集,以评估模型的性能。
三、实验结果和结论的新人工智能方法
实验结果指出,在生态有效的合成数据集上进行预训练的 Arithmetic-GPT 模型的嵌入最精确地预测了人类在决策任务中的选择。与其他模型(包括LLaMA-3-70bInstruct)相比,利用嵌入作为自变量、人类选择概率作为因变量的逻辑回归表现出更高的调整 R² 值。针对行为模型和 MLP 的基准测试显示,虽然 MLP 通常优于其他模型,但 Arithmetic-GPT 嵌入仍然与人类数据高度相关,尤其是在跨期选择任务中。经过 10 次交叉验证证实了其稳健性。
研究得出结论,LLM(尤其是在生态有效的合成数据集上进行预训练的算术-GPT)能够高度模拟人类在决策任务中的认知行为,表现优于传统认知模型和一些高级LLM(例如LLaMA-3-70bInstruct)。这种方法通过使用合成数据集和神经激活模式解决了一些关键挑战。研究结果凸显了LLM作为认知模型的潜力,并为认知科学和机器学习提供了宝贵见解,通过广泛验证技术验证了其稳健性。
普林斯顿大学提出一种新颖的人工智能方法。如有留学方面的疑问,请与传兮留学老师联系咨询~