|
|
新智元报道
, Y9 i3 C' Z# R L$ z3 k编辑:倾倾; b$ P& ]# _: W
【新智元导读】3月16日,大英百科全书联合韦氏词典,起诉了OpenAI,并且罗列了ChatGPT的「四宗罪」。不要觉得Britannica心狠,此前ChatGPT编造错误信息,却把来源伪托给Britannica。OpenAI未作回应。 D1 T( x0 M3 e: T3 X2 u i7 b; y
OpenAI又被起诉了。
. A0 I) L5 C i/ Y/ x3月16日,大英百科全书联合旗下的韦氏词典,对OpenAI提起诉讼。8 w. R. s C: Z6 e7 i$ Z; N
原因是,它认为ChatGPT进行了大规模的版权侵权。
# n) ]; H, h) \& i, D0 b: yBritannica比所有原告准备得更充分:它紧抓训练数据抓取、模型记忆输出、RAG实时检索,同时追加《兰纳姆法》商标侵权。
- [1 v% C9 E2 l# g- m7 O4 @ O这是AI版权诉讼史上,第一次有人试图把整条生成链路一锅端。
' K' F. E- f5 T8 }- n# k( MGPT-4能逐字默写大英百科6 @1 w4 k& S# ?0 E+ @
根据TechCrunch报道,Britannica直接点名GPT-4,认为它已经记住了其大量版权内容,能够按需输出近乎逐字逐句的复制品。
) S2 h* [. z) a8 H不是相似,不是接近,是逐、字、复、制。
/ E0 _/ `* m" q4 G( l9 G! o这背后有一定的技术依据。斯坦福和耶鲁的研究团队曾做过实验,从主流大模型中提取《哈利·波特》原文,最高提取率达到96%。4 w+ _" m1 Z' k. }, s, V, m
: f b3 O6 z* K5 p3 Q
4 L+ K6 ~7 U* |! P& u! U也就是说,训练数据里的内容,有相当一部分被记在了模型权重里,在特定提示词下可以几乎原样还原。
& \% |: A# [* y$ B) TBritannica持有的版权内容规模并不小。它旗下近10万篇在线文章、百科条目和词典释义,覆盖从科学、历史到文学的几乎所有主要知识领域。. P1 R6 r& T& H. P1 {
这些内容由专业编辑和学科专家历经数十年积累而成。在维基百科崛起之前,这套体系就是人类知识的标准索引。) d0 X0 [+ v% @: p# M) W3 g* X" U& L
而OpenAI一直在灰色地带游走。
! P) g9 [" R4 f( \查一次资料,也算侵权
+ r5 W) P" q4 E" g, N此前,各方一直在争论:用我的内容训练模型,算不算版权侵权?4 d K \" `: |2 j. c9 _3 D: W
Britannica这次的指控更进一步。他的指控分三层:3 z, E4 M& h9 j
第一层,未经许可抓取近10万篇内容用于大模型训练。
( \) ]0 j0 ~3 B第二层,ChatGPT在生成回答时,输出了Britannica内容的完整或部分逐字复制,这构成直接侵权。$ S, Y. A, F9 ^9 j. [3 Q
第三层,也是最具争议的一层。OpenAI在ChatGPT的RAG工作流中使用了Britannica文章。- q% V! o. J( s* Z+ a- l
RAG是ChatGPT扫描外部数据库、获取最新信息的机制。
; y) }; O/ Q8 C& ?# ?4 ~4 z# A: [+ j. ?% I4 {7 m
& J# r3 l6 h& KBritannica认为,即便它的内容没有进入训练集,但只要它出现在实时检索里,就被视为侵权。' L# K# p+ I6 k3 [- b2 _
这种想法前所未有,它意味着不管是静态训练还是动态检索,只要调用了版权内容而未获授权,都要负责。# m7 P1 w% F8 `4 ? t; h
更有意思的是第四条指控:Lanham Act商标侵权。
' u0 H% x. Q' h& o! ]Britannica认为,ChatGPT有时会产生幻觉,然后把这些错误内容归因于Britannica,制造Britannica生成了错误信息的假象。
1 w- w: p7 c* _8 G4 O* W这不单单是侵权,Britannica的品牌信誉都要替OpenAI的错误买单。* N7 ]: E" p- `; ]* a$ b
这危及公众持续获取高质量、可信赖在线信息的能力。) X; @3 u; y! e" W
同一个问题:德国说侵权,英国说没有
- |& H& T0 f* {5 T这是整场官司的核心,也是目前全球司法界争论最激烈的问题之一。+ T& l* x! {: v0 E% ]- }
德国慕尼黑法院在GEMA诉OpenAI案中认定:GPT-4和GPT-4o的模型权重中确实嵌入了歌词,这构成版权意义上的复制,可以提出禁令和赔偿请求。7 j. f0 _5 R% ?$ R% p
* ^* F2 _. y2 ~% g P3 i W: ~. r
4 _" Q, y4 @) f4 t6 w$ l
模型权重是AI在训练过程中学到的数值参数,它决定了模型会输出什么。在慕尼黑法院看来,只要能从这些参数里还原出作品就足以构成侵权。' X$ _+ A+ M q4 i$ L5 d
英国高等法院在Getty Images诉Stability AI案中得出了完全相反的结论。
* b; u) p( C9 s0 o
. F# W. h& _% z. l7 Y! c6 ^ ~* {! Q1 {6 T4 A2 `
AI模型不是侵权副本,因为其权重既不包含也不复制版权作品本身,只存储了学习到的规律性模式。" K$ v- v7 b. s3 ^
美国这边,Anthropic曾在版权诉讼中说服联邦法官William Alsup,认定将内容用作训练数据具有足够的转化性,可以适用合理使用原则。
- R \5 K; x0 N+ A. ?! _但Alsup同时认定Anthropic非法下载了数百万本书而非付费获取,这一点构成违法,最终促成了1.5亿美元的集体和解。
" K4 o7 |6 B9 D P+ q4 NBritannica这起案子在纽约提起,适用的是美国联邦法律。
9 g, c& a1 F4 i4 H; }6 o& O+ i但目前没有确立性先例明确说明用版权内容训练LLM究竟算不算侵权,每起案子的结果,在相当程度上仍取决于具体法官的认定逻辑。
2 g$ o7 ]$ V9 Q- I x' h3 ^" F如果法院认可实时检索也构成侵权,那对整个AI行业的影响将远超任何一起训练数据纠纷。
3 R% |7 C5 I4 k8 }! K, D4 ~5 y告Perplexity,是在给OpenAI热身
6 E" n' |8 Q- A' z5 p8 U3 q" u这不是Britannica第一次出手。+ A. h6 M# r/ p( k/ [0 Y+ w
早在2025年9月,Britannica就对Perplexity提起了类似的版权和商标侵权诉讼,该案目前仍在审理中。
. A' j8 o0 _3 g2 m# j0 r0 u+ s; K/ R2 h# @% _& o7 x7 k, Q
. K& T: B5 U# a/ x0 Z2 u
Perplexity是一家以RAG为核心产品逻辑的AI搜索公司。! Y2 f8 d! R9 x1 V7 G
Britannica选择先打Perplexity,像是在做法律预演,摸清RAG侵权这条路的可行性,然后再把同样的逻辑复制到OpenAI身上。4 g+ s7 p8 N. P
与此同时,行业里的版权战场正在全面升温。1 O& D! n1 M' a- r! U* D
《纽约时报》、Ziff Davis、美国和加拿大十余家报纸先后起诉OpenAI。( P D+ ]! w4 _3 k
' m( |' p4 v2 S
) |3 F+ w ~8 R9 ]The Intercept和US News & World Report也已加入原告队伍。; P5 K ]2 Y' l7 P" q
截至目前,专门追踪AI版权诉讼的网站ChatGPT Is Eating The World统计显示,这已是针对OpenAI的第63起版权诉讼。 y7 t1 Y3 L) g: [8 {; V2 O. a. z
OpenAI对TechCrunch的置评请求未作回应。
. F$ D" j6 t9 L* f8 L3 o3 A被维基百科打残,又被ChatGPT截流
' C/ _( U- F1 i9 T6 c1 i- ]/ Z3 d退一步看,有些事情比赔偿金额更值得关注。
4 Q4 J: {' B1 b R0 rBritannica创立于1768年,是英文世界里持续时间最长的百科全书品牌,它代表的是几百年人类知识整理传统的某种象征。
0 G& `8 ]* w0 l: G当这样一个机构出现在AI版权诉讼的原告席上,传递的信号很清晰:知识权威这个概念,正在试图通过法律手段,重新在AI生态里划定自己的边界。
, P, D3 J. o; C0 q7 fBritannica曾是纸质百科时代的绝对权威,被维基百科打得几乎找不到存在感。: V( z6 v, k1 C2 F% s$ p
" u' M3 h( C+ g9 K7 e/ j* w, G/ t# H7 u" W
后来转型为数字订阅平台,靠着内容的可信度和专业性重新站稳脚跟。
" S( }( l0 s: {/ m( e; ~# R如今,ChatGPT的出现让它又一次面临被替代的威胁——但不是被更好的百科替代,而是被一个用它内容训练出来、但不分给它一分钱的模型替代。$ |3 j' C6 g1 _& L }
诉状里有一句话:6 I: S8 G, R0 `# @/ _4 B" D. n7 N. e
ChatGPT通过生成替代出版商内容的回复,抢走了出版商的流量。+ y( ]% m! w/ r$ P! f
这是商业模式的正面冲突。RAG这条指控是否能站住脚,目前没有人能给出确定答案。
# G0 A5 f5 n$ [0 @; J' L但如果法院哪天认可了这个逻辑,整个行业的实时检索管道都需要重新谈授权。
3 Z) S3 ]# E* A所有以联网搜索+AI生成为核心产品的公司,都要面临这样的问题。
* ~8 ^' E2 A P" b& [8 ?, }250年的老牌百科,正在用一份诉状,尝试给AI的边界划一条线。
" K! R+ D' ?5 A/ @8 `. S这条线最终画在哪里?2026年,大概会有答案。. c" h9 K) R! L5 K6 n
参考资料:6 n0 [# d. s# `3 X, z
https://www.reuters.com/legal/litigation/encyclopedia-britannica-sues-openai-over-ai-training-2026-03-16// d4 \; t& `+ h9 L9 P7 ]; i( I
https://techcrunch.com/2026/03/16/merriam-webster-openai-encyclopedia-brittanica-lawsuit/
; m- B5 ~: W/ {+ a) _: Q2 n: @$ Uhttps://the-decoder.com/encyclopedia-britannica-sues-openai-for-training-on-nearly-100000-articles-without-permission/
1 `# h" B5 g) j6 R* j4 h1 dhttps://gizmodo.com/encyclopedia-britannica-sues-openai-over-ai-training-data-2000607770
! L8 i @- C) r; z Y$ M) F. Phttps://news.bloomberglaw.com/ip-law/britannica-merriam-webster-accuse-openai-of-copying-thEIr-works6 I1 c3 A+ `3 g0 M: V
https://chatgptiseatingtheworld.com/wp-content/uploads/2026/03/Encyclopedia_Britannica_Inc-v-OpenAI-COMPLAINT-Mar-13-2026.pdf3 ^, |) x+ ]4 |% N6 V* j
https://www.aol.com/articles/encyclopedia-britannica-sues-openai-over-141324436.html |
|