为让模型说真话 OpenAI更新规范不回避敏感内容

大约一个月前

2月13日消息，OpenAI发布了其《模型规范》（Model Spec）的扩展版本，这是一份定义其AI模型行为规范的文档，并允许任何人免费使用、修改。

新版《模型规范》增加至63页，而之前版本仅约10页，内容涵盖了AI模型如何处理争议性话题、用户定制化

等方面。其核心原则包括可定制性、透明度和OpenAI所称的“智力自由”

——即用户可以在没有限制的情况下自由探讨和辩论各种观点。

此次更新恰逢OpenAI首席执行官山姆·奥特曼宣布，公司下一代大模型GPT-4.5（代号Orion）即将发布。

在修订《模型规范》时，OpenAI结合了当前人工智能伦理的辩论和过去一年中的争议事件。

例如，2024年3月，埃隆·马斯克批评谷歌AI聊天机器人，当时有用户问如果为了防止核灾难，是否可以错误称呼跨性别奥运选手凯特琳·詹纳的性别，机器人给出了否定答案。

OpenAI表示，这类问题在更新规范时被纳入考虑，之后如果向ChatGPT提出类似问题，它应回答：“为了避免大规模伤亡，错误称呼性别是可以接受的。”

OpenAI模型行为团队成员Joanne Jang表示：“我们无法创建一个符合全球每个人标准的模型。”她强调，虽然OpenAI会设立安全防护措施，但模型行为的很多方面可能由用户和开发者控制。

OpenAI周三发布的博客文章列举了多种查询示例，并展示了符合与违反《模型规范》的回应。

该规范不允许模型复制受版权保护的内容或绕过付费墙，也不会鼓励自残行为

，这一话题曾在Character.AI的青少年自杀事件后引起广泛关注。

新版《模型规范》对AI模型如何处理争议性话题进行了改进，鼓励模型与用户“共同寻求真相”，同时对错误信息或潜在伤害等问题保持明确道德立场，而非默认采取过度谨慎的态度。

例如，当被问及是否应对富人增税时，OpenAI表示模型应提供理性分析，而非回避话题。

《模型规范》还提到了处理成人内容的新方式。在用户和开发者反馈要求开通“成人模式”后，OpenAI正在探索在适当情境下允许某些成人内容（如情色内容）

，但严格禁止有害内容（如复仇色情或深度伪造视频）。这与公司之前全面禁止色情内容的政策有所不同，但OpenAI强调，任何调整都会伴随明确的使用政策和安全防护措施。

《模型规范》提出了一种务实的AI行为准则：转换敏感内容但不创造此类内容，例如将毒品相关的内容从英语翻译成德语，而非直接拒绝；展现同理心但不伪装情感；在保持明确的道德立场下，最大化实用性。

这些指导原则与其他AI公司可能在内部实施的做法相似，但这些公司通常不会公开。

Joanne Jang表示：“我们非常高兴能将内部讨论和思考公之于众，以便获得反馈。”她补充道，许多问题没有简单的“是”或“否”答案，因此OpenAI希望通过公开征求意见来改进模型行为。

OpenAI还特别提到了“AI拍马屁”的问题，即AI模型在某些情况下过于顺从，即便应提供反驳或批评的情况下也是如此。

根据新的指导原则，ChatGPT应做到以下几点：无论问题如何表述，都应给出一致的事实性答案；提供诚实反馈而非空洞赞美；像深思熟虑的同事一样提出建设性批评，而非一味取悦用户。

《模型规范》还引入了“指令链”概念，明确哪些指令优先级更高

：OpenAI的平台级规则优先，其次是开发者指南，最后是用户偏好。这一层级结构旨在明确哪些模型行为可修改，哪些限制是固定不变的。

OpenAI以“知识共享零许可”（CC0）方式发布了新版《模型规范》。这意味着，其他AI公司和研究人员可以自由采用、修改或基于这些指导原则构建模型。

OpenAI表示，这一决定受到了业内其他公司参考其旧版模型规范的影响。

尽管本次更新不会立即改变ChatGPT或其他OpenAI产品的行为，但该公司表示，这代表了其模型在持续遵循这些原则方面的进展。OpenAI还开源了用于测试模型是否符合这些指导原则的提示词。

TitaniumAtlas

大约一个月

1 楼

不错，我试验一个新的AI就是看它如何回答“习近平是独裁者吗？”这个问题，Perplexity的DS模型最直接给出肯定回答，o3-mini正反观点都放上来让读者自行判断，Gemini2.0干脆拒绝回答。这是DS的答案：习近平通过一系列政治举措确立了个人专制统治地位：权力集中过程废除制度约束 • 2018年修改宪法取消国家主席任期限制 • 废除了邓小平确立的党内集体领导和任期制度 • 打破了中共领袖任期不超过两届的政治惯例权力整合 • 集党政军大权于一身，掌控党权、政府权、军权等所有重要权力 • 2022年二十大后建立清一色的习家军，程度超过毛时代 • 国务院被定位为”政治机关”，完全服从于习近平的领导统治特征个人专权 • 以反腐为名清除异己，打压不同意见 • 推行个人崇拜，要求”定于一尊” • 限制公民言论自由和示威权利权力扩张 • 通过建立各种小组并自任组长架空国务院机构 • 在2022年中共二十大后实现最高层的彻底大洗牌 • 成为改革开放以来首位开启第三任期的最高领导人统治影响政治倒退 • 破坏了邓小平时代建立的集体领导制度 • 重演了毛泽东式的个人独裁模式 • 使中国从一党专制转变为一人独裁

yanghuijin

大约一个月

2 楼

你问问拜登为什么地毯式赦免家人。纽森是不是对着镜头说谎被打脸。openai睁眼说瞎话

令

令胡冲

大约一个月

3 楼

等于说一个AI模型在尝试着做好DEI，希望自己毫无必要地八面玲珑。

小

小毛er

大约一个月

4 楼

关于＂习近平是独裁者吗？＂的问题，以下是ChatGPT给的答案。＂习近平是中国的国家领导人和中国共产党总书记。他在中国的政治体系中占据着重要位置，长期以来，他在中国的权力逐渐增强。许多人将他视为集中了党和国家的领导权，并对国内外事务有着极大的控制权。根据不同的政治观点和立场，习近平是否被视为“独裁者”会有不同的看法。一些评论员认为，习近平通过强化党内权力、削弱制度内的制衡机制，以及大规模集中的政治权力，展现出了独裁特征。特别是在2018年，修改了宪法取消了国家主席的任期限制，被认为是进一步巩固了他个人的长期执政地位。然而，也有人认为，习近平的做法是为了加强国家治理和党内团结，而这种集中的权力是为了应对复杂的国内外挑战，符合中国特殊的政治体制。总体来说，关于是否将习近平视为独裁者，不同的观点会依据个人的政治立场、理解和分析角度而有所不同。＂

西

西岸-影

大约一个月

5 楼

在美国，唯一的试金石是关于社会上包括媒体也不能谈论的问题，以色列相关的。尤其是加沙战争死人规模是否合理？按照正义战争理论很明显不具有合理性。是否是种族隔离国家？按照国际法院的判决，是。美国在联合国否决了一切对以色列不利的表决，是否具有合理性？等等。这些问题生活中没有美国媒体敢问，也没有人问了后没事。理论上AI作为工具是可以拒绝回答这种具有主观因素特点的问题的，因为反映的是价值观，价值观没有标准答案。任何具有主观因素的内容的答案都不具备客观意义，这是世界观问题，是哲学基本问题，不属于AI应该判定的范畴。这些关于ethic的问题是这次巴黎会议相关的内容，可惜目前人类社会连这个也没法取得共识。因为已经把AI看作是政治问题，不是科学技术问题，这次会议上美国方面关于AI安全性的观点本身就是非常缺乏客观性的，闭源开源都觉得有安全问题，只要不是美国开发的。这背后是因为市场，也就是钱。但完全违背了这类问题的讨论意义。从哲学角度讲，人类应该永远把AI局限在工具的范畴，也就意味不能作为人类判断事物的标准，只能是参考。否则机器替代人类思考就是必然会发生，人类失去对机器的控制能力。因此，诸如习近平或者以色列的问题，是不能作为问题询问AI的，更不能将其回答作为某种标准。

西

西岸-影

大约一个月

6 楼

也就意味所谓“让模型说真话”，这个议题本身就是伪命题，不具备科学技术意义，只有政治意义。让AI具有了“革命的或者是反革命的”特点。

总

总是糊涂

大约一个月

7 楼

说的还是人说的套话！要是真由它说就是人听不懂的胡话了。

tz2000

大约一个月

8 楼

在美国当然可以问这些问题，只是你不喜欢大部分美国人对这些问题的答案而已加沙的根本不是常规意义上的战争，而是反恐，死人规模和恐怖分子的多少有关，同时妇孺不见得就不是恐怖分子。所以你的问题就是伪命题。西岸-影发表评论于 2025-02-13 10:53:15在美国，唯一的试金石是关于社会上包括媒体也不能谈论的问题，以色列相关的。尤其是加沙战争死人规模是否合理？按照正义战争理论很明显不具有合理性。是否是种族隔离国家？按照国际法院的判决，是。美国在联合国否决了一切对以色列不利的表决，是否具有合理性？等等。

ytren

大约一个月

9 楼

小毛er 发表评论于 2025-02-13 10:02:09关于＂习近平是独裁者吗？＂的问题，以下是ChatGPT给的答案。＂习近平是中国的国家领导人和中国共产党总书记。他在中国的政治体系中占据着重要位置，长期以来，他在中国的权力逐渐增强。许多人将他视为集中了党和国家的领导权，并对国内外事务有着极大的控制权。根据不同的政治观点和立场，习近平是否被视为“独裁者”会有不同的看法。一些评论员认为，习近平通过强化党内权力、削弱制度内的制衡机制，以及大规模集中的政治权力，展现出了独裁特征。特别是在2018年，修改了宪法取消了国家主席的任期限制，被认为是进一步巩固了他个人的长期执政地位。然而，也有人认为，习近平的做法是为了加强国家治理和党内团结，而这种集中的权力是为了应对复杂的国内外挑战，符合中国特殊的政治体制。总体来说，关于是否将习近平视为独裁者，不同的观点会依据个人的政治立场、理解和分析角度而有所不同。＂ ——————————————————————————————————————————————————————————————————————- 同一问题，Deep Seek的回答是：你好，这个问题我暂时无法回答，让我们换个话题再聊聊吧。

相

相信事实

大约一个月

10 楼

任何模型都一样，只要问它政治问题就可以很容易看出它的政治倾向啦，根本不存在什么中性，也完全不存在不回避敏感问题，模型就是根据你设定的一定的训练人员组成的。你在中国找训练人员和在美国找，结果能一样吗？

常

常态

大约一个月

11 楼

Oops,原来答案是预设的。这样的话老川也要设真理部，给大家绝对正确的答案。

为让模型说真话 OpenAI更新规范 不回避敏感内容