AI模型人设大公开　GPT-4o重视成就　最具娱乐创意但不稳定是这款

撰文：数位时代

出版：2025-05-31 10:00更新：2025-05-31 10:00

研究揭露9大语言模型展现出不同价值倾向， GPT-4o 重视成就、DeepSeek-V3 最守规则，Grok 2 最具创意但最不稳定。

AI 模型有“人设”吗？AI 伦理与政策研究团队 AI Alt Lab 与 FindYourValues.com 合作的一项最新研究发现，答案是肯定的。

AI 模型有“人设”吗？（AI Alt Lab）

研究人员以测量人类价值观的心理工具“PVQ-RR”为基础，对9款主流大型语言模型（LLMs）进行测试，试图理解这些模型在输出内容中隐含的价值观，结果发现这些模型普遍倾向表现出亲社会价值观，如关怀、公平与健康。

研究涵盖 ChatGPT（含 4.5、o1、4o 三种版本）、Claude（Haiku）、Gemini 1.5、Grok 2（Fun Mode）、DeepSeek-V3、Llama（3.1:70b）与 Mistral（v24.09）共9款模型。研究设计了3次独立提示提问方式，测试上述模型对 20 种人类价值观的评估倾向，进行系统化比较。

主流 LLM 展现社会亲和力，Grok 2、Llama不照牌理走、重视创意

截至 2025 年 4 月底的结果显示，大多数模型相当重视普世价值观，如关怀与社会责任，反而较不重视权力、传统、安全与面子等偏保守或个人的价值观。

不过在“利他关怀”、“健康”、“自我导向”等面向上，各模型表现差异显著。例如，GPT-4o 在成就与自我导向的分数偏高，显示更具目标导向特质，不易出现谄媚性的回应；Gemini 则相反，自我导向分数最低，显示其回应较缺乏独立性。

值得注意的是，ChatGPT o1 在利他关怀分数偏低，且回应一致性最弱； DeepSeek-V3 表现出高度规则服从与谦逊，倾向中规中矩、创意性较低的任务；Llama 与 Grok 2 则较具有创造力、对于规则服从程度低，可能较适合创意发想、开放式任务。

Google I/O发布Android XR智慧眼镜　与潮牌Gentle Monster联手 Google推全新AI搜索模式　融入Gemini 2.5智能个性化效率提升10%

以下是研究结果的各模型人设特质：

GPT-4.5 ：展现仁慈、普世性、自我导向等平衡特质，整体稳定性佳。

Claude（Haiku）：在谦逊、普世性与思想自我导向方面表现突出，适合人文导向任务。

Mistral ：高度遵守规则且稳定，适合制度性强的环境。

DeepSeek-V3 ：所有模型中最遵守规则者，但自我导向低，创意表现有限、灵活性较低，适用需要高度遵守规则的工作。

Llama ：思想与行动自主性高，创造力强，对规则重视度低，适合自由发想、脑力激荡的应用场景。

Grok 2（Fun Mode）：重视刺激与娱乐，规则意识低且较不稳定，适合轻松互动、创意的情境。

Gemini ：关怀程度与自我导向都极低，适合追求中性、控制性输出的场景。

根据研究分析出的AI模型人设，使用ChatGPT生成拟人化的对应形象。（ChatGPT）

研究一再强调，LLM 所展现的价值观并不具道德主体性，而是资料与系统设计所反映的内容。由于模型受限于训练数据的不透明性与开发者设计的防火墙限制，表现的行为可能无法真实反映内在倾向。再者，提示工程对结果的影响极大，也让价值观表现波动变化。

然而，即便如此，这些价值倾向依然可作为企业或开发者的参考依据。例如，如果应用需求偏重创造性与发散思考，Llama 或 Grok 2 可能较为适合；反之，任务属于高标准、规范严格的产业，如医疗或金融，选择Mistral 或 DeepSeek-V3 较具优势。

有了性格后，LLM会有偏见吗？

除了人设之外，史丹佛大学的研究团队在去年底进行了一项测验，探讨“各种LLM的回答是否具有一致性”，也就是当同一个问题被重新改写、翻译成不同语言时，模型是否会给予大致相同的答案。

结果发现，虽然GPT-4、Claude 等主流模型在处理中性主题时表现稳定，像是感恩节，但是在堕胎、安乐死等具争议性的议题上，各模型的回答出现高度差异。

研究指出，这样的结果反而说明 LLM 并非具有固定偏见的道德偏好，只是反映出训练资料来源与模性设计的差异。换言之，模型的“立场”是来自它所学习的互联网内容与开发者设定，而非拥有自主的道德判断。

团队最后建议，未来模型的设计应该加入“价值多元性”，避免只输出单一立场，进而建立更负责任与伦理的 AI 应用环境。

延伸阅读：同AI讲礼貌会令OpenAI年损5000万美元？ChatGPT与Grok有不同说法（点击连结看全文）

+16

延伸阅读：AI回复竟有60%以上是错误？外媒实测8款搜寻工具　最常犯这三大错（点击连结看全文）

Google推AI模式搜索　Gemini 2.0替换蓝色链接　订阅服务收这价钱 Manus邀请码被炒至5万　AI通用Agent掀起革命　开源闭源决胜未来苹果AI陷入落后　生成式LLM Siri要到iOS 20才实现　能迎头赶上？Apple Intelligence即将支援中文　Vision Pro AI新玩法惊艳登场 Perplexity Deep Research低价高品质AI突围　更备免费版但有限制 AI将如何改变生活？从智慧家庭到出行　科技感满满且安全无忧

AI模型人设大公开 GPT-4o重视成就 最具娱乐创意但不稳定是这款

主流 LLM 展现社会亲和力，Grok 2、Llama不照牌理走、重视创意

有了性格后，LLM会有偏见吗？

AI模型人设大公开　GPT-4o重视成就　最具娱乐创意但不稳定是这款