即刻App年轻人的同好社区
下载
App内打开
Simon的白日梦
10月前
Claude团队发布的这个工具有点酷啊,不仅可以可视化LLM怎么通过token之间的可能性推导来导向答案的,还可以允许用户介入修改LLM的思考过程(关闭、修改节点);感觉有潜力加工成一个有意思的AI科普艺术互动作品?🧐

🧠Circuit-Tracer:跨层MLP转换器特征的神经网络回路追踪工具
🧐一句话总结:

Circuit-Tracer 是一个用于分析神经网络中跨层 MLP 转换器(transcoder)特征间因果关系的工具链,它不仅可以构建和可视化特征归因图,还支持对模型内部状态进行干预,从而揭示模型内部“电路级”信息流动结构,挑战了“神经网络是黑箱”的传统认知。
➡️链接:github.com
中文拓展阅读:mp.weixin.qq.com

✨重点

●🔍 核心功能三大块:
构建归因图(attribution graph):分析输入 token、转换器特征与输出 logits 之间的直接因果影响;
可视化:通过交互式图形界面标注、分组和解释关键节点;
干预(intervention):直接设定某些转换器特征值以观测输出变化,实现类似“控制变量”的神经网络实验。
●🧪 支持的模型与转码器:

支持对 Gemma 2 (2B) 和 LLaMA 3.2 (1B) 等模型的转换器特征进行追踪与干预,转码器由原论文提供或手动训练生成,可使用自定义配置。
●💻 多种使用方式:

可通过 Python 脚本、Jupyter Notebook(包括 Colab)、命令行 CLI 运行,也可在 Neuronpedia 网页平台上“零安装”运行(但不支持干预)。
●🧰 命令行工作流三步走:
归因计算 --prompt、--transcoder_set;
图文件生成(JSON 格式);
启动本地可视化服务器(默认端口 8041)。
●🎓 附带教程与演示:

项目附带多个演示笔记本(如 circuit_tracing_tutorial.ipynb、intervention_demo.ipynb),涵盖从图构建到模型干预的全流程。Colab 免费 GPU 支持运行 Gemma 演示。
●🧠 高信息熵亮点:

Circuit-Tracer 将因果推理的概念引入深度学习特征分析中,不仅能“看见”模型在思考什么,还能“篡改”其思考路径,具有极高的研究启发性和教育价值。
●📊 可视化操作直观:

支持节点选择、固定、分组、注释等操作,可构建人类可解释的子图结构,辅助理解模型“逻辑电路”。
●📂 图剪枝策略:

提供节点与边的影响力阈值(如 node_threshold=0.8,edge_threshold=0.98),可过滤弱影响路径,提升图结构的可解释性与可视性。
●📌 引用来源:

该工具实现基于 2025 年由 Emmanuel Ameisen 和 Jack Lindsey 等人提出的论文成果,是当前 interpretability 工具的重要前沿之一。
如果你对神经网络如何“在内部做决定”感兴趣,这是一个非常值得探索的工具。
314

来自圈子

圈子图片

人工智能讨论组

474755人已经加入