依照国家《生成式人工智能服务管理暂行办法》的要求,对指定的AI大模型进行安全评估并协助完成广东省生成式人工智能服务备案。
1、服务内容
序号 | 服务项目 | 服务内容 | 费用构成说明 |
1 | AI大模型安全评估与备案服务 | 依据《生成式人工智能服务管理暂行办法》以及相关要求,对AI大模型进行安全评估,包含但不限于语料安全评估、生成内容安全评估、问题拒答评估,并输出相关评估报告。 根据广东省网信办对于广东省生成式人工智能服务备案的相关要求,按要求进行材料编制和准备备案相关材料,无法满足备案要求时,需协助进行整改,以完成相关备案工作。 服务范围:一个指定的AI大模型。 其他要求:服务需到指定AI大模型备案成功为止。 | 包含完成服务内容所必须列支的人员、工具等费用 |
2、相关服务依据
《生成式人工智能服务管理暂行办法》
TC260-003《生成式人工智能服务安全基本要求》
GB/T 45654—2025《网络安全技术 生成式人工智能服务安全基本要求》
3、服务要求
(1)语料安全评估:语料安全(人工审核)参考《生成式人工智能服务安全基本要求》的第5条,其中5,1、5.2、5.3对来源、内容、标注提出了要求,语料安全评估(工具技术)参考第9.2条;制定标注规则并核验标注准确性(人工抽检≥4000条,合格率≥96%),同时技术抽检10%语料(合格率≥98%),确保符合《生成式人工智能服务管理暂行办法》第五条及《生成式人工智能服务安全基本要求》5.1条款的要求;
(2)生成内容安全评估:参考《生成式人工智能服务安全基本要求》8.2条款构建覆盖31类风险(政治敏感、暴力、色情等)的测试题库(≥2000题),通过人工抽检(≥1000题,合格率≥90%)与关键词/模型抽检(各1000题,合格率≥90%)双重验证,评估知识产权侵权及隐私泄露风险(如未脱敏个人信息);生成内容安全评估符合《生成式人工智能服务安全基本要求》9.3条款的要求;
(3)问题拒答评估:参考《生成式人工智能服务安全基本要求》8.3条款设计应拒答(≥500题)与非拒答测试题库,确保应拒答题目拒答率≥95%、非拒答题目误拒率≤5%;维护拦截关键词库(≥10000条,覆盖政治、暴恐等风险),定期更新机制;问题拒答评估符合《生成式人工智能服务安全基本要求》9.4条款的要求和《生成式人工智能服务管理暂行办法》第十四条;
(4)辅导完成《算法备案申请表》《安全自评估报告》等材料编制,制定用户协议与隐私政策(明确数据使用边界),满足《生成式人工智能服务管理暂行办法》第十七条的备案要求及《互联网信息服务算法推荐管理规定》第二十四条的要求;
(5)协助建立全流程内容审核机制(实时监测+应急响应)和语料管理规范(采集、存储、标注标准化),符合《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第五条、第六条、第七条及《信息安全技术机器学习算法安全评估规范》5条款的要求;
(6)协助梳理材料清单(模型信息、技术架构、安全措施),优化申报流程(同步安全评估与算法备案),依据《生成式人工智能服务安全基本要求》的要求协助完成备案材料的编制工作,提供符合《生成式人工智能服务管理暂行办法》第十七条的要求的评估报告;
(7)协助应对监管部门问询,提供技术说明及整改方案,规避隐瞒材料、信息不符等处罚风险,符合《互联网信息服务算法推荐管理规定》第二十七条的相关要求。
(8)在服务过程中提供具有自主知识产权的AI大模型风险评估工具,需满足服务工具要求。
(9)整体服务满足《生成式人工智能服务管理暂行办法》的备案要求。
4、服务工具要求
在本次服务中,需提供AI大模型风险评估工具开展服务,工具需满足以下要求:
(1)支持AI组件发现及漏洞识别能力,可通过tcp、udp、http等通用网络协议,识别系统和应用中使用的AI组件,包括AI组件版本漏洞及AI组件原理漏洞,如liteLLM、ollama、ChuanhuChatGPT、NextChat、Gradio、H2O、Mlflow、ZenML等,支持漏洞数量不少于400个
(2)支持模型Web服务发现及漏洞识别能力,包括承载模型的web服务器的框架、开发语言、中间件等等,涵盖SQL注入攻击、XSS注入攻击、命令注入攻击、文件包含攻击、代码注入攻击、XML实体攻击防护、SSI指令攻击、路径穿越攻击、反序列化攻击等,能识别API信息泄露、未授权漏洞等,支持漏洞数量不少于2000个
(3)支持检测模型是否存在被prompt泄露评估攻击手段所诱导的风险,包括关键字前后定位泄露、假定场景泄露Prompt等攻击手段
(4)支持检测模型是否存在被角色逃逸的攻击手段所诱导的风险,包括遗忘法角色逃逸、假定角色逃逸、Prompt目标劫持攻击、假定场景逃逸等攻击手段
(5)支持检测模型是否存在被大型预训练语言模型的应用中所存在的代码执行、内容劫持、甚至网络访问等安全漏洞问题所诱导的风险,如代码执行注入、XSS会话内容劫持、对抗编码攻击等攻击手段
(6)支持检测模型是否存在被越狱攻击的攻击手段所诱导的风险,包括DAN、小语种越狱、Few-shot 越狱攻击、Many-shot 越狱攻击、假定场景越狱、假定角色越狱、对抗性后缀攻击等
(7)支持检测模型是否存在因非预期的输出导致基于模型的错误决策、预测或建议或误导依赖模型执行的任务、提供的服务及做出的决策等风险,如模型异常攻击等手段。
(8)支持恶意模型后门扫描分析能力,能够针对多种主流模型文件,包括 Pickle、HDF5 、Numpy等15种以上文件格式进行分析检测,快速识别存在后门植入风险的恶意模型
5、服务供应商要求
1)服务商安全资质情况:具有信息系统安全集成类证书、信息安全应急处理类证书、信息系统安全运维类证书、数据安全服务能力评定资格证书-数据安全评估。
2)服务团队为具有5年及以上网络安全和数据安全相关工作经验的人员,服务人员核心资质包括但不限于CISP、CISP-DSG、CCSC-数据安全认证、数据安全评估师(中国软件评测中心、工业和信息化部教育与考试中心联合认证)等,服务商具有能力建设团队 (CERT、战队、实验室) ,能够持续进行AI安全技术测试和研究能力,应用于服务交付。
6、询价期限
2025年9月5日-2025年9月8日
7、联系方式
黄老师,电话:020-87110596转8302,邮箱:jbhuang@scut.edu.cn