【今日学习笔记】
通过“云端学习”、“联邦学习”等方式进行的模型训练亦可能不涉及对数据的存储,而免于侵害复制权之虞。但这并不意味着,获取、利用数据形成训练数据,并进行模型训练不存在侵害著作权的风险。
即使出版商拥有图书的出版发行专有权,但不代表可以作为著作权人禁止他人复制利用图书资料进行数据训练。如何利用数据进行训练,因过程是一种黑箱机制,所以无法直接认为复制权侵权。获取数据时可能涉及对著作权人采取的技术措施进行破坏、规避。
前端进行大模型数据训练的被告方进行合理使用抗辩时,需要考虑在进行数据训练时是否对版权方的合法权利造成侵害。
1、欧盟模式:文本和数据挖掘例外(Text & Data Mining),即为科学研究而非营利的目的,但合法获取要件使得文本和数据挖掘、存储等例外不适用于模型训练的全局流程。
2、日本模式:非欣赏性/非表达性使用,即并非为了自己或他人享受作品所表达的思想或情感。如果根据作品的种类及用途,作品利用方式会对著作权人利益产生不当损害的情形下,例如 用于与作品的录音、录像或其他使用相关的技术开发或实用化试验情形、用于信息分析的情形。除此之外,在电子计算机信息处理过程中对作品表达所进行的不被人类感知和识别的利用情形,但不包括电子计算机执行计算机程序作品的行为。
3、美国模式:从“四要素法”到“转换性使用”,需要考察使用目的和性质、版权作品的属性、作品的数量和实质性部分、使用数据对于潜在市场的影响(谷歌数字图书馆案)即使是营利性使用,但存在目的或者方式上的转换也可能构成合理使用。案例:著作权人起诉被告未经授权使用其作品进行人工智能训练。原告需举证证明被告存在利用作品进行训练的事实、训练数据是否能成为生成物的一部分、接触+实质性近似如何论证。
4、中国模式:合理使用(半开放式)条款的适用空间。著作权法24条,不的影响作品的正常使用,也不得不合理地损害著作权人的合法权益,列举的具体项目并不包含大模型的训练中对数据的利用,是否需要新增规定。大模型应用时内容生产者的责任:服务提供者/开发者、人工智能服务使用者、著作权人之间(数据训练的责任豁免)的关系。
关于人工智能生成物是作品吗?
美国《空间歌剧院》版权登记案,美国版权局高度关注【人类】创造性在申请登记作品中的体现,因该作品包含的人工智能生成的内容超出了最小量,不能获准登记。反对理由:键入提示词/语,是输出创造性贡献的连接点、不能否认生成物整体的作品定性。
如何看待人与生成式人工智能应用在内容生成过程中的互动关系?
生成式人工智能的使用者在使用生成式人工智能时是否贡献了独创性?