两名前 OpenAI 员工推出了一款名为 In the Weights 的网站,试图回答一个带有实验意味的问题:在不调用网页搜索的情况下,大模型本身到底“记得”多少人。随着越来越多用户转向聊天机器人获取信息,这类测试也开始有了现实意义。
用多款模型测试人名识别
网站名称中的“weights”指的是模型参数。开发者 Thomas Dimson 和 Joey Flynn 认为,传统搜索里的“搜自己”已不再是衡量个人网络存在感的唯一方式,模型能否直接说出一个人,正在变成另一种可见度指标。
In the Weights 会向不同模型发出类似“某某是谁”的问题,并要求给出最多 10 个结果、简短描述和置信度。网站随后把相近描述归类,再生成一个强度分数,用来衡量模型对该名字的“记忆”程度。
榜单会变动,也会出现幻觉
目前参与测试的模型包括 Grok、Gemini、多个版本的 GPT、Claude、Llama,以及一些较小众模型。结果页面还会显示,哪些模型给出了回答,哪些回答可能存在幻觉或混淆。
以 TechCrunch 作者 Anthony Ha 为例,网站给出的分数是 641,位于全部名字的前 6%。不过榜单排名会持续变化。报道发布时,演员 Macaulay Culkin 暂列第一,歌唱家 Luciano Pavarotti 排在其后。
报道还提到,GPT-5.4 Mini 曾把 Anthony Ha 解释成一个可能对应多人的模糊姓名形式,而不是直接识别为具体人物。这类情况也被网站标记为潜在幻觉。
开发者押注模型时代的新可见度

Dimson 在接受采访时表示,他和 Flynn 离开 OpenAI 后,希望做些能重新激发创意的项目。两人此前加入 OpenAI,源于其设计公司 Global Illumination 被收购。
他认为,到了 2026 年,随着流量继续向大模型转移,Google 式的 vanity search 已不再是最重要的目标。相较于网页结果排名,模型参数里是否“存有你”的信息,正在成为另一种新的网络存在感。
开发者还表示,接下来会继续研究同一模型系列为何给出不同结果、不同模型更容易“记住”哪类人,以及哪些人理论上应有维基百科词条却仍未建立。

