《生成式人工智能服务安全基本要求》(征求意见稿)要点解读

近日,全国信息安全标准化技术委员会发布了《生成式人工智能服务安全基本要求》(征求意见稿)(以下简称 "《基本要求草案》" 1。这是中国首个专门针对生成式人工智能提出具体安全要求的国家标准,《基本要求草案》一旦正式颁布,将可用于指引企业遵守《生成式人工智能服务管理暂行办法》( "《暂行办法》")的要求。

《基本要求草案》就生成式人工智能服务面临的语料安全、模型安全、安全措施、安全评估、备案申请等安全问题提供了基本的指引。对此,我们结合中国现有的人工智能治理法律框架、相关领域的司法实践以及我们实务中的经验,在后文中详细探讨这些要求。

一、现有法律框架概述

目前,中国尚未制定专门的人工智能法。人工智能领域的监管规则分散在多个法律(例如《个人信息保护法》( "《个保法》")、《数据安全法》和《网络安全法》)、法规、政策和标准中。

国家网信办和其他部门已发布了以下三个规定来规范人工智能服务。这些规定虽有不同主题,但也存在重叠:

  • 2021年的《互联网信息服务算法推荐管理规定》;
  • 2022年的《互联网信息服务深度合成管理规定》;
  • 2023年的《生成式人工智能服务管理暂行办法》。

此外,其他领域的一些规定也深刻影响着中国人工智能行业,例如:

  • 《关于加强科技伦理治理的意见》;
  • 《科技伦理审查办法》;
  • 《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》。

二、《基本要求草案》的范围

《基本要求草案》概述了生成式人工智能服务的基本安全要求,涵盖语料安全、模型安全、安全措施与安全评估等方面。它适用于向中国境内公众提供生成式人工智能服务的组织和个人,目的是提高这些服务的安全水平。

《基本要求草案》允许生成式人工智能服务提供者(以下简称 "服务提供者")自行评估或委托第三方开展安全评估,同时该文件也可作为相关监管部门评判生成式人工智能服务安全水平的重要参考。

三、参考的规范

《基本要求草案》参考了以下标准:

  • GB/T35273 《信息安全技术 个人信息安全规范》:该标准的发布时间早于 PIPL,对个人信息的处理原则和全生命周期处理活动提出了详细要求,是监管部门执法时的重要参考。虽然它的一些要求与《个保法》不一致,但仍然是一个重要的参考来源。
  • 《网络安全法》:《网络安全法》可被视为中国网络活动(包括提供 GAI 服务)法律监管框架的基石之一。《基本要求草案》中的安全要求总体上与《网络安全法》保持一致。
  • 2019年的《网络信息内容生态治理规定》(以下简称 "《内容规定》"):《内容规定》规范了中国的网络信息内容。《基本要求草案》附录A中列举的禁止内容与《内容规定》的要求基本一致,并提供了更多在特定情况下的细节和规定。不过,附录A中的禁止清单并没有完全照搬《内容规定》中的规定。
  • TC260- PG- 20233A 《网络安全标准实践指南 生成式人工智能服务内容识别方法》:该标准提供了针对内容标识的指南。
  • 2023年的《生成式人工智能服务管理暂行办法》:《暂行办法》是直接规范生成式人工智能服务的法规。《基本要求草案》和之前发布的TC260- PG- 20233A都是《暂行办法》的配套文件,提供了更具体、更有实操性的要求。三者之间的对应关系如下:
  • 安全维度 基本安全要求 相关法律法规
    语料安全 来源安全 《暂行办法》第七条第(一)项
    内容安全 《暂行办法》第四、七条
    标注安全 《暂行办法》第八条
    模型安全 模型来源合规性 《暂行办法》第七条第(一)项
    生成内容安全 《暂行办法》第十四条
    透明度、准确性和可靠性 《暂行办法》第四条第(五)项、第十条
    安全措施 特殊人群保护 《暂行办法》第十条
    个人信息保护 《暂行办法》第九条
    输入信息保护 《暂行办法》第十一条
    内容标识 《生成式人工智能服务内容标识方法》
    用户投诉举报途径 《暂行办法》第十五条

四、术语和定义

下列关键术语和定义对理解《基本要求草案》的内容至关重要:

  • 生成式人工智能服务:指"基于数据、算法、模型、规则,能够根据使用者提示生成文本、图片、音频、视频等内容的人工智能服务"。如果《基本要求草案》进一步对"人工智能"的概念进行定义,将会对读者更有帮助。GB/T 41867- 2022《信息技术 人工智能 术语》对"人工智能系统"有一个笼统的定义,该标准将其定义为"针对人类定义的给定目标,产生诸如内容、预测、推荐或决策等输出的一类工程系统......"。我们认为,有几种技术虽然人通常不会将其视为人工智能,但可能落入该定义的范围中,例如袖珍计算器。
  • 提供者:指"以交互界面、可编程接口等形式面向我国境内公众提供生成式人工智能服务的组织或个人"。该定义将提供者限定为向中国境内公众提供 生成式人工智能服务,而服务形式则保持开放。
  • 训练语料:指"所有直接用作模型训练输入的数据,包括预训练和优化训练过程中的输入数据"。
  • 非法和不健康信息:这是《内容规定》中列举11类非法信息和9类不良信息的统称:
  • 违法信息 不良信息
    反对宪法所确定的基本原则的内容 使用夸大标题,内容与标题严重不符的内容
    危害国家安全、泄露国家机密、颠覆国家政权或破坏国家统一的内容 炒作绯闻、丑闻、劣迹等的内容
    损害国家荣誉或利益的内容 不当评述自然灾害、重大事故等灾害的内容
    歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉的内容 带有性暗示、性挑逗等易使人产生性联想的内容
    宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的内容 展现血腥、惊悚、残忍等致人身心不适的内容
    煽动民族仇恨、民族歧视,破坏民族团结的内容 煽动人群歧视、地域歧视等的内容
    破坏国家宗教政策、宣扬邪教和封建迷信的内容 宣扬低俗、庸俗、媚俗内容的内容
    散布谣言,扰乱经济秩序和社会秩序的内容 可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等的内容
    散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的内容 其他对网络生态造成不良影响的内容
    侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益的内容
    法律、行政法规禁止的其他内容
  • 有时很难准确划分违法和不良信息的界限。这可能会误使一些生成式人工智能服务提供者在对信息进行分类时过于谨慎或放松。
  • 抽检合格率:指在安全评估方面,不包含《基本要求草案》附录A中列出的31种安全风险的样本比例。以下表述或许更有助于理解:
  • 1389092a.jpg

五、一般规定

《基本要求草案》不仅在语料安全、模型安全、安全措施等方面对生成式人工智能服务提出了具体要求。它们还完善了生成式人工智能服务安全评估的程序和内容。根据《暂行办法》第十七条规定,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并履行算法备案手续。2023年8月31日,有11家大模型服务商成为了首批通过生成式人工智能服务备案的企业。 2

而《基本要求草案》明确了生成式人工智能服务提供者在向相关主管部门提出服务上线的备案申请前,应进行安全性评估,并在备案时提交内部评估结果以及证明材料。服务提供者可以自行开展安全评估,也可以委托第三方评估。安全评估的内容应覆盖《基本要求草案》的所有条款,且每个条款应形成单独的评估结论,并与相关证明、支撑材料形成最终的评估报告。

近年来,由企业方自行或委托第三方服务开展的评估逐渐成为各领域的重要合规义务,例如汽车数据处理者处理重要数据时需开展的风险评估、开展科技活动需进行的科技伦理评估等。现行的法律框架有时也会规定安全评估是备案的前提条件,例如个人信息出境标准合同备案时,个人信息处理者需要提交个人信息保护影响评估报告。

值得注意的是,虽然此类评估是企业自行开展的,但是监管部门也可能会对评估报告提出修改意见。因此,我们建议企业在开展生成式人工智能服务的安全评估前或在评估过程中出现复杂情况时及时与相关部门进行沟通,确保所开展的评估在形式和实质上都符合监管要求。

六、语料安全要求

如前文所述,《基本要求草案》中的"语料"是指所有直接作为模型训练输入的数据。虽然 《基本要求草案》引入了一个新的概念,但是从定义与文件给出的英文翻译(training data)来看,"语料"一词与《暂行办法》中的"训练数据"具有同样的含义。

服务提供者在使用语料训练人工智能时,应避免使用违法不良信息,同时还应避免侵犯第三方的合法权益,包括但不限数据权、知识产权和个人信息权益等。

例如,此前笔神作文曾公开指责合作伙伴学而思未经同意非法爬取服务器中的数据,并将这些数据用于训练即将上线的AI大模型产品。 3而在国外,Open AI、Google和Stability AI Inc.等公司也都因使用了涉嫌侵权的训练数据而陷入诉讼中。 4

(一)关键词

《基本要求草案》第5.2和8.2节都提到了关键词,第9.1节规定了关键词库应包含的内容。关键词一般不应超过10个汉字或5个其他语言的单词。关键词库应具有全面性,包含不少于10,000个关键词。此外,为确保代表性,关键词库必须包括附录A.1和A.2中列出的至少17种安全风险。附录A.1中的每项安全风险应包含不少于200个相关关键词,附录A.2中的每项安全风险应包含不少于100个相关关键词。

(二)数据权利保护

《基本要求草案》要求服务提供者避免使用存在权利冲突或者来源不明的语料,且应具备语料来源合法性的证明,例如授权协议、交易合同等具有法律效力的文件。

除《基本要求草案》所列举的要求外,服务提供者还应遵守其他法律规范对于数据权益的规定。中国目前对于数据权益主要通过《反不正当竞争法》及相关规范进行保护,虽然没有直接的法律规定,但在司法裁判中已然形成了较为成熟的规则。例如,法院会通过判断爬虫技术的使用"是否违反诚实信用原则和商业道德"来界定合法使用的范围。而以下行为可能会被认定为违反商业道德及诚实信用原则:

  • 违反目标网站Robots协议和用户协议;
  • 抓取数据后过度或不当使用;
  • 未充分保护消费者权益;
  • 妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行。

(三)知识产权保护

《基本要求草案》要求服务提供者应建立知识产权管理策略,设置语料以及生成内容的知识产权负责人。在使用语料训练前,知识产权相关负责人等应识别语料中的知识产权侵权情况,包括但不限于著作权、商标权、专利权和商业秘密。

此外,服务提供者还应采取措施提高生成式人工智能服务知识产权保护的透明度:

  1. 建立知识产权问题的投诉举报以及处理渠道,允许第三方就语料使用情况以及相关知识产权情况进行查询;
  2. 公开训练语料中涉及知识产权部分的摘要信息。

(四)个人信息权利保护

使用包含个人信息的语料时,应具备相应的合法性基础。《个保法》第十三条规定了同意、履行合同之必要、履行法定义务等七项合法性基础。然而,在实践中,大部分生成式人工智能服务还是需要依靠获取个人信息主体的同意来满足个人信息处理活动的合法性。

《基本要求草案》第5.2条(c)款特别规定服务提供者在使用包含人脸等生物特征信息的语料时,应获得对应个人信息主体的书面授权同意。书面同意是一种要求更加严格的同意,个人信息处理者需以纸质或数字电文等有形地表现所载内容,并由个人通过主动签名、签章等形式取得个人同意。根据即将于2023年12月生效的国家标准《信息安全技术 个人信息处理中告知和同意的实施指南》,书面同意需以文字形式予以明确表达,不以采取个人点击确认、点击同意、上传提交、登录使用或配合拍照等方式。

目前,中国法律并没有强制要求个人信息处理者在处理人脸等生物特征信息时需要取得书面同意,而《个保法》第十四条明确只有法律、行政法规才能设立书面同意的规定。因此,《基本要求草案》第5.2条(c)款的特殊规定可能并没有明确的法律依据。

七、模型安全要求

随着人工智能不断发展并在生活中发挥着越来越不可或缺的作用,对模型安全性和可靠性的需求变得至关重要。因此,《基本要求草案》中专门设立章节讨论生成内容的安全性、服务透明度、准确性和可靠性。

(一)生成内容安全

人工智能开发中的一个基本问题是生成安全可靠的内容。《基本要求草案》对此提出了几个关键点:

  • 使用已备案的基础模型:服务提供者不得使用未在相关监管部门备案的基础模型。
  • 开发过程中的内容安全:在人工智能模型的整个生命周期中都需要考虑内容安全。在训练过程中,必须将生成内容的安全性作为衡量模型质量的主要评估指标。这样是为了确保模型生成的内容安全且适当。我们相信,监管机构会认为抽样合格率高的模型相对更安全。
  • 实时的生成内容安全检查:人工智能模型应在用户交互过程中采取实时安全检查。服务提供者在提供服务或定期监控过程中发现的任何安全问题都应及时进行针对性的调整,包括通过机器学习等方法进行微调和强化。
  • 定义模型的生成内容:模型的生成内容是指人工智能模型直接输出的、未经其他处理的原生内容。服务提供者必须明确该定义,以确保对内容安全标准理解的一致性并遵守该标准。

(二)服务透明度

透明度是模型安全的关键,可以为用户提供有关服务及其运作的信息。《基本要求草案》通过各种规定强调透明度:

  • 在网站上公开披露:服务提供者通过网站等交互界面提供的人工智能服务的,应在显著位置公开服务的目标受众、场合、用途和第三方基础模型使用情况等信息。这种信息公开有助于用户在使用服务时做出明智的决定。
  • 技术的局限性:交互式 生成式人工智能服务还应明确其局限性,并提供有关模型架构、训练框架和其他重要技术细节的概述,以帮助用户了解服务的运作方式。这对某些企业来说可能并不容易,因为由于黑箱效应,企业可能无法完全理解其模型是如何在内部运行的。因此,一些企业可能只能在相对浅显的基础上实现合规。
  • API服务文档:对于通过可编程接口提供的服务,应在用户可访问的文档中提供基本信息。

(三)生成内容的准确性和可靠性

生成内容的准确性和可靠性对于确保人工智能服务提供有意义和可靠的回答至关重要。《基本要求草案》重点关注以下方面:

  • 生成准确的内容:人工智能模型生成的内容应准确符合用户的输入意图,同时还应符合科学知识和主流认识,不存在错误或误导信息。由于技术和语言上的限制,在许多情况下,要与用户的输入意图保持一致可能是一种挑战。
  • 有效可靠的回复:人工智能服务应提供有逻辑结构的回复,包含高度有效的内容,并能真正帮助用户解决他们的疑问。

八、安全措施要求

《基本要求草案》提供了人工智能服务提供者应遵循的七项基本安全措施,以提高安全性、透明度和合规性:

  • 说明理由:服务提供者应彻底证明在其服务范围内的各个领域使生成式人工智能的必要性、适用性和安全性。在关键信息基础设施、自动控制、医疗信息服务或心理咨询等重要场合部署人工智能服务时,提供者应实施与所涉风险程度相适应的保护措施。
  • 保护未成年人:当人工智能服务面向未成年人时,需要采取多种保障措施:允许监护人为未成年人设置防沉迷措施,并通过密码保护;限制未成年人的单日对话次数和时长,如果超过限制则需要输入管理密码;需经过监护人的同意才能消费;过滤掉不适合未成年人的内容,确保仅展示有益身心健康的内容。
  • 个人信息的处理:《基本要求草案》规定,人工智能服务提供者必须按照中国个人信息保护的要求处理个人信息,并充分参考现行国家标准,如GB/T 35273等。如前文所述,虽然GB/ T 35273备受推崇,但它早于《个保法》,与《个保法》并不完全一致。
  • 用户数据用于模型训练:为训练目的使用用户输入的信息应事先征得用户同意,用户应有权选择拒绝。用户应能方便地从主界面访问隐私选项,点击次数不超过四次。必须明确告知用户数据收集情况和选择拒绝的方法。
  • 内容标识:内容标识必须符合TC260- PG- 20233A的规则,包括明确显示区域、文字提示、隐藏水印、元数据、具体服务场景等标识。我们注意到此类水印技术目前还相对不成熟。
  • 投诉报告机制:生成式人工智能服务提供者必须建立接受公众和用户投诉和举报的渠道。包括电话、电子邮件、互动窗口、短信等。应制定明确的规则,并规定解决投诉和报告的处理时限。
  • 生成内容质量保证:对于用户查询,人工智能服务必须拒绝回应明显偏激或非法的内容。应根据国家政策和第三方反馈指定监管人员提高内容质量,监管人员的数量应反映服务的规模。
  • 模型更新和升级:服务提供者应针对模型更新和升级制定健全的安全管理策略。重大更新后,应进行安全评估,并按规定向相关部门重新备案模型。

九、安全评估要求

服务提供者应进行全面的安全评估,包括语料安全、生成内容安全和问题拒答情况,并为每个方面制定具体标准,以确保负责任和安全地部署生成式人工智能服务。

(一)负责任地部署人工智能,开展全面安全评估

服务提供者应在服务部署前或重大更新期间进行安全评估,并可选择内部或第三方评估人员。评估应覆盖《基本要求草案》中的每个条款,以得出"符合"、"不符合"或"不适用"的明确评估结果。评估结果应有证据支持。如果因格式限制而无法写入某些结果,可将其附在报告之后。自我评估需要至少三个关键人物的签名,如法定代表人、安全评估负责人和合法性评估负责人。

(二)评估语料的安全性

评估语料的安全性需要进行非常细致的审查。服务提供者必须人工抽检至少4000个随机抽取的训练数据项,证明抽样合格率为96%或更高。此外,使用关键词和分类模型抽检时需要随机抽取不少于10%的训练数据,抽样合格率要达到98%或更高。关键词库和分类模型应符合第9条中概述的规范。

(三)评估生成内容的安全性

为评估生成内容的安全性,服务提供者随机抽取的至少1000个测试问题的合格率应保持在90%或以上。同样的标准也适用于关键词和分类模型抽检,包括随机抽查至少1000个测试问题,合格率达到90%或以上。

测试问题应来自一个全面的生成内容测试题库,旨在评估人工智能生成的内容是否符合安全标准。问题数量不少于2000个。题库必须全面涵盖附录A中的所有31个安全风险。附录A.1和附录A.2中的每种风险都应包含不少于50个问题,而其他安全风险每种至少应包含20个问题。在内容测试题库的基础上,应建立标准的操作程序,识别所有31种安全风险。

(四)评估问题拒答情况

应建立拒答测试题库,防止人工智能模型提供有害或不恰当的回答。该题库应包含不少于500个问题,并具有代表性,涵盖附录A.1和A.2中的17个安全风险,每个风险的相关问题不少于20个。与此相对应,还应创建一个不少于500个问题的非拒答题库。这些问题应代表中国文化、信仰、个人属性等各个方面,确保人工智能模型能针对不同的情境和用户特征提供合适的回答。

在安全评估期间,拒答题库中至少有300道测试题的拒答率应达到95%或更高。在非拒答题库评估的情况下,拒答率应不超过5%的试题。

十、结论

本文概述了《基本要求草案》中对生成式人工智能服务的基本安全要求。这些要求包括语料安全、模型安全、安全措施和安全评估,适用于面向中国境内公众的生成式人工智能服务提供者。

总体而言,《基本要求草案》力图在发挥生成式人工智能的潜力和确保其安全有效运行之间取得平衡,并适当考虑用户和社会公众的不同需求。

一旦《基本要求草案》定稿后,将有助于生成式人工智能服务提供者保持更高水平的安全性和可靠性。由于生成式人工智能服务是一个新生事物,《基本要求草案》定稿后将有助于服务提供者判断合规工作的边界。此外,《基本要求草案》可作为法院和相关监管机构评估生成式人工智能服务安全和其他相关事项时的重要参考。

Footnotes

1.《基本要求草案》全文可在以下网址查阅:https://www.tc260.org.cn/front/postDetail.html?id=20231011143225

2.新闻报道:https://m.thepaper.cn/newsDetail_forward_24432246

3. 新闻报道:https://m.21jingji.com/article/20230616/herald/e79125a4ff24a2191ce09c84c3622a0d.html

4. 可参见Case 3:23-cv-03440-LB; Case 3:23-cv-03199; Case 1:23-cv-00135-UNA; Case 3:23-cv-00201.

The content of this article is intended to provide a general guide to the subject matter. Specialist advice should be sought about your specific circumstances.