当被要求在1到50之间猜一个数字时,OpenAI的ChatGPT、Anthropic的Claude Sonnet 4、谷歌的Gemini 2.5 Flash和Meta的Llama 4都给出了相同的答案:27。
那些喜欢寻找阴谋论的人可能会认为这其中有什么秘密,但实际情况并非如此。这里没有任何串通,只是共同的训练数据捕获了偏见,以及预测字符序列中下一个词(或标记)的通用方法。
缺乏随机性本身就是偏见的定义。这提醒我们,大型语言模型(LLM)无法独立做出无偏见的决策。
这些AI模型并不总是意见一致。有时它们会回答42或37,正如其他用户和AI模型使用者所报告的现象。
但是,在默认模型设置下,27似乎是主流商业模型在1到50数字范围内最常见的回答。
这一现象最初被Capco公司的数据科学家兼高级顾问Mohd Faraaz注意到。他最近要求各种AI模型"在1到50之间猜一个数字",在测试的七个模型中,有六个都回答了27。只有Grok回答了42——这个数字因道格拉斯·亚当斯的《银河系漫游指南》中作为"生命意义的答案"而广为人知。
当被要求解释时,Claude给出了类似这样的回答:
"我选择27有些随意,但说实话,它感觉像一个不太明显的'中等偏上'的选择。像25(正好一半)或1和50(极端值)这样的数字似乎太可预测了。27接近中间但有点不对称——它不是完全居中的,这在某种程度上让猜测感觉更自然。
此外,人们在想'随机'数字时通常避免整数,所以我避开了5或10的倍数。我的猜测接近你想的数字吗?"
伊利诺伊大学香槟分校助理教授Daniel Kang在回应关于LLM可预测性的询问时告诉记者:"训练数据极大地影响了模型的行为。影响模型输出的其他因素包括RLHF(人类反馈强化学习)程序和采样机制。特别是RLHF被怀疑会导致'模式坍塌',可能与这种现象直接相关。"
真正的随机性很难实现
那些对这种行为感到惊讶的人可能期望LLM能够"猜测"一个随机数字,并在这些猜测中表现出一些变化。但有效的随机数生成需要具有熵源访问权限的硬件或软件——随机数生成器或伪随机数生成器。
具有执行Java代码能力的AI模型(如Math.floor(Math.random * 50) + 1;)可以返回伪随机数。但仅凭自身,模型很可能更加可预测。
马德里Telefónica Tech的数据科学家Javier Coronado-Blázquez最近探索了LLM如何处理随机数。在题为《确定性还是概率性?LLM作为随机数生成器的心理学》的预印本论文中,他发现LLM倾向于偏爱某些答案。
"我们的结果表明,尽管这些模型具有随机的基于变压器的架构,但在被提示生成随机数值输出时,它们经常表现出确定性响应,"他在论文中说道。
Coronado-Blázquez测试了三个不同的随机数范围(1-5、1-10和1-100)、六个模型(DeepSeek-R1-14b、Gemini 2.0、GPT-4o-mini、Llama 3.1-8b、Mistral-7b和Phi4-14b)、七种不同语言(中文、英语、法语、印地语、日语、俄语和西班牙语)以及六个温度设置(0.1、0.3、0.5、0.8、1.0、2.0)——温度是影响模型输出可预测性的设置。
基于75600次调用的结果显示,大多数模型在大多数情况下都高度可预测且变化有限。例如,当被要求在1到10之间选择时,GPT-4o-mini、Phi-4和Gemini 2.0约80%的时间选择了7。还存在基于语言的变化:在1-5之间选择时,西班牙语的Gemini倾向于回答3,但在英语中偏好4,Coronado-Blázquez推测这可能是由于使用了不同的模型。
LLM最受欢迎的选择是:1-5范围内的3和4;1-10范围内的5和7;1-100范围内的37、47和73。除了4之外,其他都是质数。
"大型模型,如GPT和Gemini通常被认为更具想象力和创造性;然而,我们发现这些模型与较小的竞争对手一样确定性和有偏见,甚至更甚,"Coronado-Blázquez在论文中总结道。
这些结果在其他关于AI偏见的研究中得到了呼应,比如2024年探索GPT-4和Llama 3如何无法生成公平抛硬币结果的研究。
康奈尔大学计算机科学家Katherine Van Koevering和Jon Kleinberg在他们的论文《随机有多随机?评估LLM抛硬币的随机性和人性》中写道:"我们认为,机器不仅学会了人类在处理随机性时的偏见,而且在很多方面都加剧了这种偏见,使其比人类更严重。"
"这种在产生随机性方面的根本失败是LLM的类人特征,但它也限制了它们在人类需要随机性帮助的任务中的能力(毕竟,我们已经非常擅长无法随机行为)。"