近日,数家人工智能(AI)公司被指控违反了出版商用来阻止内容获取的标准,以便用于生成其AI系统。内容许可初创公司TollBit在给出版商的一封信中披露了这一情况,尽管没有具体点名涉及的AI公司或受影响的出版商。
这一事件发生在AI搜索初创公司AI Perplexity与福布斯媒体之间关于相同Web标准的公开争端之后,同时也是科技公司和媒体在生成式AI时代关于内容价值辩论的一部分。商业媒体出版商公开指责Perplexity在未经许可的情况下,在其AI生成的摘要中引用福布斯的调查性报道。
根据Wired本周发布的一项调查,Perplexity可能绕过了通过robots.txt协议阻止其Web浏览器访问的尝试。robots.txt协议是广泛接受的标准,用于决定网站哪些部分可以被浏览器访问。然而,TollBit表示,Perplexity并不是唯一忽视robots.txt协议的违规者,许多AI代理商也通过了这一协议。
新闻媒体联盟(NMA)代表2200多家美国出版商,对这种忽视其成员“不要偷窃”信号的行为表示担忧。NMA主席Danielle Coffey表示,如果出版商不能选择退出大规模的数据收集,就无法将内容货币化并支付记者费用,这可能会严重破坏行业。
TollBit定位为AI公司和愿意达成许可协议的出版商之间的中间人,该公司使用分析工具跟踪AI流量到出版商网站,并帮助双方确定使用各种内容的成本。根据TollBit的一封信,其分析显示有“许多”AI代理商忽视了robots.txt协议。
robots.txt协议创建于1990年代中期,作为避免Web浏览器超载网站的一种方式。尽管没有明确的执法机制,但在网络上一直存在广泛的合规性。出版商用该协议阻止科技公司试图将其内容免费用于生成AI系统,后者可以模仿人类创造力并立即总结文章。
包括《纽约时报》在内的几家出版商起诉AI公司侵犯与内容使用相关的版权。而其他出版商则与愿意支付内容费用的AI公司签署了许可协议,尽管双方对材料的价值存在分歧。许多AI开发者认为,在免费访问内容时并未违反法律。
汤森路透是同意授权新闻内容用于AI模型的公司之一。出版商自谷歌推出使用AI作为一些搜索查询的摘要工具以来,警惕性大大提高。如果出版商希望阻止其内容被谷歌AI使用以生成摘要,他们必须使用相同的工具,这也将导致其内容从谷歌的搜索结果中消失,使其在网络上几乎不可见。
这场关于AI与出版商之间的内容使用纠纷,反映了在AI时代,如何平衡科技创新与知识产权保护的复杂性。对于出版商来说,确保内容的价值不被侵蚀,同时适应技术的发展,仍是一个重大挑战。