|
|
+ i& B1 u' R0 s# c( k" \
! m! P6 c. n1 o. g, J0 ~5 m. ~) E
机器之心发布
4 m3 {3 g4 C9 z5 L9 c+ m, A- ~2026 开年以来,openclaw 带来的 Agent 热度正以惊人的速度从科技圈向全行业扩散。
" M6 M( P' V7 N7 R/ G会读文档、调工具、接工作流,那个曾经只存在于 Demo 里的数字员工,正在一步步走进真实业务。
/ ]0 R( E3 z+ g/ [1 i但真正的问题,也在这时浮出水面:
1 c3 R4 J) H3 S9 ]1 z时至今日我们都听说过龙虾的能力,可让人迟迟不敢放手的,是担忧太多:安装麻烦、权限太大、过程黑箱、出了事根本来不及拦。它到底在干什么,你看得见吗?它真要越界的时候,你拦得住吗?3 R# i# C3 g. I9 l: \7 N
最近,来自复旦大学马兴军老师的「零零后」团队开源的「 XSafeClaw 」,给出了一个让人眼前一亮的答案。它把安全监控、任务审计、风险拦截和运行轨迹,全都前移到了可视化界面里;原本藏在后台、让人提心吊胆的执行过程,在这里第一次变成了一座能被看见、被理解、也能被随时接管的安全智能体小镇——有点像给龙虾们造了一座带护栏的《星露谷物语》,让每个正在上班的小「牛马」都无处遁形。
3 ~/ V2 E0 [) ~' L* ^+ h4 h
3 g% D4 f7 z( e0 I+ D6 M* \9 N" j( ^% l; p3 _+ v# G
* m" h3 w$ i; }8 b项目网址:# z4 O- }3 R7 c3 T" v* u8 ]' \
https://xsafeclaw.ai
7 o6 Z2 ?- ?2 c8 @% H+ H5 gGitHub:: j& d# r* s% s& k4 X4 i
https://github.com/XSafeAI/XSafeClaw( s2 k2 c9 M f9 b. x1 T, ^
给全民「龙虾热」泼冷水: ! l, e: C" r; n* Q/ M' q
真实世界的复杂性,正在击穿Agent安全防线
- ?8 B( h: S6 l) P: P7 M当 Agent 开始继承上下文、调用工具、改写系统状态,谁能看见它在做什么?谁又能在它失控前叫停?
5 k! S0 Y6 D4 F1 o* i5 h; @ y1 `2 月底,TechCrunch 报道了一个极具警示意义的案例:Meta 的安全负责人Summer Yue将 OpenClaw 接入真实邮箱后,Agent 开始疯狂删除邮件。即便她在手机上几近请求地连发停止指令「please stop」,也没能拦住这个失控的「数字员工」。
- P+ F* o5 U# W9 h5 _
( g2 }# r! j7 y. R* ~9 l7 A7 q6 e- Q5 j% }# ]
r( A9 u5 q& N$ }6 k/ ?6 |& O+ ~Business Insider 也补充了一个很关键的细节:她之前在 toy inbox 上测试了很久,换到真实邮箱后,原本的「先确认再行动」这条约束在更大任务里丢了。
" u( h, p |0 F7 J" g! n% D
9 p) g3 w3 O3 K) A( e
, ?6 t5 v' z9 ]& x D, {2 n
* {' B+ O2 t$ h这个案例撕开了 Agent 繁荣下的裂缝:Agent 的风险,已不再停留在「胡言乱语」的文字输出层。. P/ t- b- A" T; I0 N
能力可以一路狂飙,治理要是没跟上,最先被「创飞」的往往就是用户。当它开始继承上下文、调用本地资源,带来的失控是实实在在的生产灾难。
1 b/ |; d4 |! y% j
+ G! c2 C; I- v
+ Y5 s5 q4 h! E! x5 O0 \, E/ Q" h0 h$ u3 B* `# r; |' ?
Anthropic 与 Microsoft 最近相继发声:没有任何 Browser Agent 能对注入攻击免疫。在复杂的执行回路里,身份边界和本地状态,全是风险点。
( {: z) t4 w/ w这一连串的安全震荡,给所有狂热的开发者敲响了警钟:Agent 的能力上限,终究是由安全治理的下限决定的。
" e# o' Y6 p( w* n* C$ V' l8 e: q在这种从「裸奔」转向「治理」的行业拐点下,复旦大学可信具身智能研究院姜育刚、马兴军团队开源了XSafeClaw。它的出现,也证明行业达成了一个隐秘的共识:Agent 规模化落地的最后 1 公里,是人类对工具的确定性控制,是疾驰狂奔的赛车上的刹车键。8 Y+ q+ i; F3 h( p) _1 v) @/ S2 Y
Agent 全生命周期监控:
2 L' b! }! y* Q: NXSafeClaw 让风险看得见管得住 : v1 W2 v' c, Z n; n( M
XSafeClaw 的思路很清晰:既然 Agent 的风险是动态的,那安全控制就得「全时段在线」:先让其运行过程看得见,再让其行为管得住。
. z5 T n# Z( m @0 l, I大部分 Agent 框架还在以「后台黑箱」的方式运行。它调了什么工具、执行了哪些指令、协同了多少流程、消耗了多少资源,用户往往只能查看系统日志,很难在运行当下形成直观判断。一旦出现误操作、异常调用或结果偏差,排查成本会迅速上升,不确定性也会被放大。1 K r$ o# d5 ?0 `, a
1、看得见,才放心:' ]2 ] L! X6 F) J& I
以往的安全工具,会将开发者和用户锁在「日志地狱」里。我们往往要对着满屏的日志流才能猜到哪里出了错。而 XSafeClaw 把 Agent 的运行过程做成了一座可视化的「安全智能体小镇」。在这里,Agent 变成了界面上清晰可见的「员工」。鼠标悬停,能透视它的基座模型和实时状态;点进去,工具调用和任务轨迹一清二楚。任务链路、工具调用、风险状态、资源变化,都能在界面里被直接看见。
( E6 {0 I4 C# V每一个 Agent 都像一个正在上班的数字角色,你能一眼看到它在忙什么、跑到了哪一步、哪里亮起了告警。开发者既可以回看每个 Agent 的完整历史,也可以按 task 单独审计具体任务内容。对真正要把 Agent 接进工作流的人来说,这种「可见、可感、可干预」的确定性,本身就是信任的开始。
/ R& ?8 l0 o, H" D$ A" }
& } d; Y0 ?7 C6 d4 _+ ], d2 Z
+ Q5 a& z, o1 `+ y' K8 |. r4 P" m* T- a d7 R3 q8 q
同时 XSafeClaw 为 Agent 搭了一套完整的「运行时安全监控环境」:
( c! n: h; S# | l3 P+ p' K" l( P初始化层,先检查 Skill 配置,从源头隔离潜在注入攻击;# a$ z* e; ~# l7 w0 A
输入层,过滤越狱提示与可疑上下文,降低污染数据进入主链路的机会;0 s' R: c/ d; c2 W
推理层,持续扫描记忆和中间状态,防止 Agent 被「脏」信息一步步带偏;0 ?" f+ V/ k3 S9 W1 v r& R' H1 @
决策层,重点审查工具权限,把高风险动作单独拎出来复核;) I- g& f8 n& s X8 h8 V4 ^
执行层,实时审计结果,关键操作支持回收、留痕与版本回退。
0 M6 c. o( ?8 n6 j1 C
+ i* I0 v' B! s
8 x9 Q6 ~. }4 c8 B$ H
5 H# t& f" ~, O2 A, \2、管得住,才敢用:
q! r2 M& V. ^, i! H2 rXSafeClaw 的后台是一个智能体安全监控系统,主要包含以下几个核心的功能模块。
5 T5 T# F: Q0 N% K; v* m01安全监控:给Agent 装上「行车记录仪」/ G6 `8 \! v8 j6 B6 v
系统会持续记录 Agent 的会话、任务轨迹、工具调用和 Token 消耗。在可视化界面里,开发者不再只能盯着日志猜发生了什么,而是能直接看到 Agent 正在做什么、走到了哪一步、是在哪个环节触发了风险。; d6 t0 }7 h) V
5 n& v# I, }# s' a8 I! e ?1 l/ k
- c3 g+ F: |1 g, N( h
( v& a3 J1 \6 w. y- t/ L9 d6 [
0 e( X; S" I% P, O3 J5 e8 S
' b3 e6 L5 W( d1 T: S! y% _ e. V
9 p- _- E0 s) q4 g02资产守护:监控权限、依赖和硬件1 N0 i* [2 T7 Y4 N( J
文件系统、软件依赖、CPU/GPU 负载,这些原本分散在不同后台的信息,被统一收进一个界面里。对真正要把 Agent 接进生产环境的人来说,安全从来不只是 prompt 的审计,也包括它到底碰了什么资源、占了多少权限、系统现在处在什么状态。
, Q. A: ?7 c, g6 X
6 N$ W+ q3 R: Z* W! \& A% o$ B2 x& S2 b& X+ w7 @
" Z( I! }- J' z) ^1 O
03风险测试:与其线上翻车,不如提前排雷
2 N' `$ K3 v, l* z! j* E与其等 Agent 线上翻车,不如在实验室里压力测试。XSafeClaw 内置红队测试机制,针对诱导输入、长链路协同等高压场景进行压力自检。通过主动测试发现脆弱点,在部署前完成风险闭环,确保系统绝对可信。
/ E) B& Y2 j) u' I
8 N( X6 \/ `5 t4 k6 k1 B9 W; e9 e# J7 }8 @0 a* n3 y" f) s2 z! j; j
( R7 F! R' D# u5 F& n. v k04当风险触发:该拦截时绝不手软,该放权时交给人类
! C' x8 b/ c) O& M9 x, O•瞬时拦截:一旦 Agent 触发高风险动作,系统会瞬间「踩下刹车」并弹出风险预警,直接封锁未经确认的敏感操作。(这两张图做成左右划切换)
/ p. T: F$ n1 t9 ]5 b6 t X4 E
+ z* O' \' i6 m& |
! |( q. b: h2 v0 m& q) n9 V2 R
4 H7 d: K6 _. P/ g3 T( `
# F: r' G! G$ b$ Y$ E& J! |. i4 }- ?; p4 s2 R1 X" {7 S/ r
& |2 G- S# p0 m: r/ s# K
•人在回路(human in the loop):所有的拦截记录会自动转入人工审核流程。你可以像审批员工申请一样,审查 Agent 到底想做什么,并自主决定是「批准」还是「驳回」。
' f4 f5 A3 V8 t" J+ _
" |; }8 y0 f3 a) g# P- T+ v9 N
& f6 i9 t9 ?9 s( D) `- z/ Y
* f- R6 u3 o9 k a3 K
好看的 Agent 产品,反而更有工程价值? 0 e1 t! Y! M- p, j
产品的美观与可爱这件事只是个噱头吗?
; n9 ]6 W4 _: P长期以来,开发者圈子里有个根深蒂固的偏见:搞技术的、搞后端的,界面做得越极简越 cli 才越显得专业。至于「美感」和「可爱」?那通常被认为是产品经理拿去忽悠小白用户的噱头。+ [5 m1 T) H0 M. c! x% J0 V0 r
但在 Agent 时代,这个逻辑被彻底击穿了。
! }) I! h- ~* U7 U2 P3 ]8 `% jAgent 系统最难解的痛点其实是链路太长、工具太杂、模型太多,状态太乱,当你的后台日志瞬间被成千上万条上下文填满时,它就变成了一个吞噬注意力的垃圾堆。在这种极端高压的认知负荷下,所谓的「实时审计」和「人工控制」全是空谈——你连它在干嘛都看不清,还谈什么安全?
4 y6 c: ^. ]9 e; t
- P0 ^$ K( u# `; s7 V" j5 B4 P! `0 l D [
! N4 g, H- z% v4 H而当一个产品有秩序的美观,用户更容易理解与信任它
. ~/ G$ y0 B. U: C$ d1 y! N7 i这是这群来自高校的「00 后」开发者团队给出的工程答案:它把冰冷的进程变成了像素小镇里「正在上班」的数字员工。经典办公、赛博未来、机械工业、中式宫苑、欧式宫廷五种办公场景,你可以根据心情一键切换场景和BGM 。这种视听层面的用心让每个用户动容,科技的美学消除认知摩擦,降低使用门槛,让工具惠及每一个普通人。& l' m5 S V2 X/ E @
; X& ~% ^" ^: P7 Q% p
7 W" l) y, Q1 v; S5 l
" v% S, [1 q# a6 }! C测评 XSafeClaw 的全程小编都在疯狂找彩蛋:脚下是致敬「哈利波特」的「活点地图」轨迹,还有「星露谷」既视感的像素小镇,这个复旦「00 后」团队开发的作品确实有趣,让人上头。9 }9 }, f% Y1 G3 l/ a! S9 K5 d
) u h+ Q/ J# v. t6 P2 M0 e! n: @) f/ b9 S$ S$ ^( A- g
! P% V1 i9 z. j2 N而点进每一个 Agent,原本冰冷的执行链路,在这里第一次像一条可回望的「生命线」。从任务开始的那一刻起,它如何理解指令、如何调用工具、如何一步步接近结果,又是否曾在某个节点偏离轨道、触碰风险边界,这些都被串成了一条清晰可回望的生命线。原本藏在后台的执行过程,在这里第一次有了可被阅读的故事感,这是属于每一个技术爱好者的浪漫。6 k e" h8 g, T8 }
7 B% z6 [0 l! u8 V
$ a* n5 l: `# X- W, f* z' e
$ `% h4 v' }* e C) [0 Z0 s. z审美也是生产力,对技术的敬畏和热爱更是弥足珍贵。有温度的界面设计正在拉近人与技术的距离,让新技术更易被理解与接受,一人公司的形态也随之逐渐清晰。0 a. _. S& S2 D* ?/ _9 Y+ ~0 ?
目前,XSafeClaw 已正式开源,支持无脑部署 OpenClaw(也可以自动检测已有龙虾)、灵活配置国内外主流大模型,欢迎广大开发者与企业用户试用体验:- q. n$ F/ Y( u/ S5 r
项目网址:
$ o: e. }7 |1 h8 z1 khttps://xsafeclaw.ai
Q4 T$ q! {. d/ K2 AGitHub:/ d; z6 ]' n$ _/ g) b- ~
https://github.com/XSafeAI/XSafeClaw
( C8 W9 t7 r- a! a/ e5 g文中视频链接:https://mp.wEIxin.qq.com/s/1Dp5uTasxnm3ues_hNPlWQ |
|