OpenAI 如何让 ChatGPT 更安全、更少偏见

Spacemesh-浏览器

如何获得更好的答案： 在 AI 语言模型研究中，最大的悬而未决的问题之一是如何阻止模型“产生幻觉”，这是一种礼貌的说法，指的是编造东西。ChatGPT 已经被数百万人使用了几个月，但我们还没有看到 Bing 产生的那种虚假和幻觉。

那是因为 OpenAI 在 ChatGPT 中使用了一种技术，称为从人类反馈中强化学习，它根据用户的反馈改进模型的答案。该技术的工作原理是要求人们在根据各种不同的标准（如真实性和真实性）对它们进行排名之前，先在一系列不同的输出中进行选择。一些专家认为，微软可能跳过或仓促推出了 Bing，尽管该公司尚未证实或否认这一说法。

但根据 Agarwal 的说法，这种方法并不完美。她说，人们可能已经看到了全错的选项，然后选择了最不错误的选项。为了使 ChatGPT 更加可靠，该公司一直专注于清理其数据集并删除模型偏爱错误事物的示例。

ChatGPT： 自 ChatGPT 发布以来，人们一直在尝试对其进行“越狱”，这意味着寻找变通办法来促使模型打破自己的规则并产生种族主义或阴谋论的东西。这项工作在 OpenAI HQ 并没有被忽视。Agarwal 说 OpenAI 已经检查了它的整个数据库并选择了导致不需要的内容的提示，以改进模型并阻止它重复这些世代。

OpenAI 想倾听： 该公司表示将开始收集更多公众反馈来塑造其模型。Lama Ahmad 说，OpenAI 正在探索使用调查或建立公民集会来讨论应该完全禁止哪些内容。“例如，在艺术背景下，裸体可能不被认为是粗俗的东西，但你如何在课堂上使用 ChatGPT 的背景下考虑这一点，”她说。

共识项目： Agarwal 说，OpenAI 传统上使用来自数据标记器的人工反馈，但它认识到它雇用做这项工作的人并不代表更广阔的世界。该公司希望扩展这些模型中所代表的观点和观点。为此，它正在开展一个更具实验性的项目，称为“共识项目”，OpenAI 研究人员正在研究人们对人工智能模型生成的不同事物的同意或不同意程度。例如，Agarwal 说，人们可能对诸如“税收好吗”和“天空是蓝色的”之类的问题的答案感觉更强烈。

一个定制的聊天机器人即将到来： 最终，OpenAI 相信它可能能够训练 AI 模型来代表不同的观点和世界观。因此，人们可以使用它来生成符合他们自己的政治观点的答案，而不是千篇一律的 ChatGPT。“那是我们渴望去的地方，但到达那里将是一段漫长而艰难的旅程，因为我们意识到这个领域是多么具有挑战性，”Agarwal 说。