ChatGPT 的创建者试图让系统不言自明。
他们发现,虽然他们取得了成功,但也存在一些问题——包括人工智能可能会使用人类没有名字或无法理解的概念。
开发 ChatGPT 的 OpenAI 的研究人员使用其模型的最新版本(称为 GPT-4)来尝试解释早期版本 GPT-2 的行为。
它是通过使用 GPT 等大型语言模型来克服所谓的黑盒问题的尝试。 虽然我们对这些系统的进出情况有了相对较好的了解,但内部进行的实际工作在很大程度上仍然是个谜。
这不仅是一个问题,因为它给研究人员带来了困难。 这也意味着几乎没有办法知道系统中可能存在哪些偏见,或者它是否向使用它的人提供了错误的信息,因为几乎没有办法知道它是如何得出结论的。
工程师和科学家的目标是通过“可解释性研究”来解决这个问题,该研究寻求深入了解模型本身并更好地理解正在发生的事情的方法。 这通常需要查看构成这种模型的“神经元”:就像在人脑中一样,人工智能系统由一组所谓的神经元组成,这些神经元共同构成一个整体。
然而,要找到那些单独的神经元及其用途是很困难的,因为人类不得不手动选择和检查神经元以了解它们代表什么。 但有些系统有数千亿个参数,因此不可能用人访问所有这些参数。
现在,OpenAI 的研究人员已经考虑使用 GPT-4 来自动执行此过程,以努力更快地识别行为。 他们通过尝试创建一个自动化过程来做到这一点,该过程将允许系统为神经元的行为提供自然语言解释——并将其应用于另一个更早的语言模型。
这分三个步骤进行:查看 GPT-2 中的神经元并尝试 GPT-4 并解释它们,然后模拟这些神经元会做什么,最后通过比较模拟激活与真实激活的工作方式来记录该解释。
大多数这些解释都很糟糕,GPT-4 本身得分也很低。 但研究人员表示,他们希望实验表明,通过更多的工作,可以使用人工智能技术来自我解释。
然而,创造者面临着一系列“局限性”,这意味着现在存在的系统在解释行为方面不如人类。 部分问题可能是不可能用简单的语言解释系统如何工作——因为系统可能使用人类无法命名的个别概念。
“我们专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,无法简洁地描述,”作者写道。 “例如,神经元可以是多语义的(代表许多不同的概念),或者它们可以代表人类不理解或没有文字的单一概念。”
它还会遇到问题,因为它特别关注每个神经元单独做什么,而不是这可能如何影响文本后面的内容。 同样,它可以解释特定行为,但不能解释产生该行为的机制,因此它可以检测到实际上并非特定行为原因的模式。
研究人员指出,该系统还使用了大量的计算能力。
“驕傲的網絡狂熱者。微妙迷人的推特怪胎。讀者。互聯網先驅。音樂愛好者。”
More Stories
《东京恶习》制片人详述日本走向全球制作中心之路
康拉德·科尔曼仅使用可再生能源再次改变了世界
新款 MacBook Pro 为苹果一周的重大新闻画上了句号