Descargitas

来自中国的最新突发新闻。

ChatGPT 的创造者正试图使用​​ AI 来解释自己——但遇到了大问题

ChatGPT 的创造者正试图使用​​ AI 来解释自己——但遇到了大问题

ChatGPT 的创建者试图让系统不言自明。

他们发现,虽然他们取得了成功,但也存在一些问题——包括人工智能可能会使用人类没有名字或无法理解的概念。

开发 ChatGPT 的 OpenAI 的研究人员使用其模型的最新版本(称为 GPT-4)来尝试解释早期版本 GPT-2 的行为。

它是通过使用 GPT 等大型语言模型来克服所谓的黑盒问题的尝试。 虽然我们对这些系统的进出情况有了相对较好的了解,但内部进行的实际工作在很大程度上仍然是个谜。

这不仅是一个问题,因为它给研究人员带来了困难。 这也意味着几乎没有办法知道系统中可能存在哪些偏见,或者它是否向使用它的人提供了错误的信息,因为几乎没有办法知道它是如何得出结论的。

工程师和科学家的目标是通过“可解释性研究”来解决这个问题,该研究寻求深入了解模型本身并更好地理解正在发生的事情的方法。 这通常需要查看构成这种模型的“神经元”:就像在人脑中一样,人工智能系统由一组所谓的神经元组成,这些神经元共同构成一个整体。

然而,要找到那些单独的神经元及其用途是很困难的,因为人类不得不手动选择和检查神经元以了解它们代表什么。 但有些系统有数千亿个参数,因此不可能用人访问所有这些参数。

现在,OpenAI 的研究人员已经考虑使用 GPT-4 来自动执行此过程,以努力更快地识别行为。 他们通过尝试创建一个自动化过程来做到这一点,该过程将允许系统为神经元的行为提供自然语言解释——并将其应用于另一个更早的语言模型。

这分三个步骤进行:查看 GPT-2 中的神经元并尝试 GPT-4 并解释它们,然后模拟这些神经元会做什么,最后通过比较模拟激活与真实激活的工作方式来记录该解释。

大多数这些解释都很糟糕,GPT-4 本身得分也很低。 但研究人员表示,他们希望实验表明,通过更多的工作,可以使用人工智能技术来自我解释。

然而,创造者面临着一系列“局限性”,这意味着现在存在的系统在解释行为方面不如人类。 部分问题可能是不可能用简单的语言解释系统如何工作——因为系统可能使用人类无法命名的个别概念。

“我们专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,无法简洁地描述,”作者写道。 “例如,神经元可以是多语义的(代表许多不同的概念),或者它们可以代表人类不理解或没有文字的单一概念。”

它还会遇到问题,因为它特别关注每个神经元单独做什么,而不是这可能如何影响文本后面的内容。 同样,它可以解释特定行为,但不能解释产生该行为的机制,因此它可以检测到实际上并非特定行为原因的模式。

研究人员指出,该系统还使用了大量的计算能力。