AI可解释性的急迫性Anthropic创始人呼吁打开AI黑箱当AI逐渐成为各个领

量子位看科技 2025-04-28 13:19:51

AI可解释性的急迫性Anthropic创始人呼吁打开AI黑箱

当AI逐渐成为各个领域的核心,人类却不知道它们具体是怎么运作的……听起来是不是有点吓人?

近日,Anthropic创始人Dario Amodei在自己的博客上发布了名为《可解释性的急迫性》的文章,分享了自己对目前AI发展的一些担忧。

多年来,他一直致力于AI模型的机制可解释性领域。

以下是长文要点提炼:

一、“黑箱”带来的风险

- 生成式AI的内部机制是“涌现的”,而不是直接设计的,它的运作原理并不显而易见。

- 与生成式AI相关的许多风险和担忧都源于不透明性,如开发者未曾设想的危险行为、滥用AI模型生成恶意内容、无法适用于高精确度的任务。

- 为了解决这些风险的严重性,必须更清楚地了解AI模型在想什么以及它们如何运作。

二、机制可解释性领域迄今取得的成就

- 2014-2020年:专注于视觉模型,这一时期的研究成功识别出模型内部某些对应人类可理解概念的神经元。

- 2021年后:发现“叠加态”,虽然部分神经元能直接解读,但绝大多数神经元都是各种词语和概念杂乱无章的混合体。

通过稀疏自编码器可以识别对应着更清晰、更易于人类理解概念的神经元组合,这些概念被称为“特征”。

通过调节该特征在神经网络处理中的权重,能够实现对模型的精确干预。

- 近期:研究已经从追踪和操控单个特征,推进到了追踪和操控名为"回路"的特征组合,通过回路,可以"追踪"模型的思考过程。

最新的研究着眼于自动化发现回路的方法。

三、如何利用可解释性

- 尽管在可解释性方面取得了科学上的进展,但仍存在从抽象理论到实际应用的差距。

- 目前,研究人员开始尝试在实验中使用可解释性方法来发现和诊断模型中的问题。

- 长远目标是能够对最先进的模型进行类似“大脑扫描”的检查,以高概率识别出模型的各种问题。

四、我们可以做什么?

- 若整个科学界能携手推进,这一事业的成功概率将大幅提升。

- 企业方可以在现有可解释性研究上尝试投入更多资源。

- 学术界或非营利组织的AI研究人员可以通过直接投入研究来加速这一领域的发展。

在文章的结尾,Dario Amodei语重心长地总结道:AI将塑造人类的命运,而我们有责任在它彻底改变我们的世界之前,真正理解它。

阅读全文,欢迎点击:

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注