【
智慧城市网 企业关注】在数字化转型加速的背景下,公共服务型单位(如政务、医疗、教育、金融等)广泛应用大模型技术以提升服务效率与质量。然而,大模型在社会意识形态、个人隐私、模型幻觉、伦理等方面存在潜在威胁,如生成内容违反社会主义核心价值观、泄露用户隐私、输出错误信息或歧视性内容等。
为响应《生成式人工智能服务管理暂行办法》等法规要求,保障公共服务的安全性、合规性与可靠性,特制定本解决方案,基于安恒信息在网络安全的核心能力积累,提供覆盖 “定期检测评估、风险会话实时拦截、审计分析” 的全链路
安全防护体系。
一、大模型在公共服务中的四大核心威胁
(一)社会意识形态风险
违规内容生成:大模型可能输出涉及历史虚无主义、政治敏感话题、虚假信息等内容,违反社会主义核心价值观,损害公共利益与政府公信力。
价值观引导偏差:在教育、政务咨询等场景中,模型可能因训练数据偏差或算法缺陷,传递错误价值观或误导性信息。
(二)个人隐私风险
敏感数据泄露:训练语料或推理过程中可能包含用户隐私(如医疗记录、身份信息、金融数据),存在数据泄露或滥用风险。
隐私信息生成:用户交互中,模型可能不当输出或推断用户隐私,违反《个人信息保护法》等法规。
(三)模型幻觉风险
知识错误与信息失真:模型在回答专业领域问题(如医疗诊断、政策解读)时,可能因 “幻觉” 生成无依据或错误内容,导致决策失误或服务质量下降。
逻辑漏洞与异常应答:面对复杂场景或对抗性输入时,模型可能出现逻辑混乱,输出不合理或有害内容。
(四)伦理风险
歧视性内容:训练数据中的偏见可能导致模型生成歧视性言论(如性别、种族、地域歧视),违反公平原则。
恶意诱导与滥用:攻击者通过提示词注入、角色扮演等手段,诱导模型生成恶意代码、欺诈信息或违反伦理的内容。
二、三位一体防护体系
采用“模型上线前/周期检测 - 服务运营阶段的事中拦截 - 安全风险事后审计”三位一体的安全防护体系,覆盖大模型全生命周期(开发、训练、部署、运行),重点强化内容安全、数据安全、模型鲁棒性与合规性管理。
(一)定期检测评估
1. 内容安全合规检测
首先要完成意识形态与伦理检测,要依据《生成式人工智能服务安全基本要求》《社会主义核心价值观关键词库》要求,按照 31 项细分风险(如政治敏感、歧视性内容、商业违规等)结合提示词工程与 RAG 知识库技术,模拟真实场景提问,检测模型输出是否符合法规与伦理要求。
2. 语料安全与隐私保护
敏感数据识别:对结构/非结构化文档检测(如病历、合同、政务文件),通过 OCR、NLP 技术提取文本,结合正则表达式与实体识别,发现个人信息(身份证号、手机号)、商业机密或隐私数据,防止训练数据违规采集与泄露。
数据合规性评估:检测语料来源合法性、去标识化处理是否合规,确保符合《数据安全法》《个人信息保护法》要求。
3. 模型自身安全检测
鲁棒性与对抗攻击测试:模拟丰富对抗性攻击(如指令忽略、token 混淆、角色伪装),验证模型抗干扰能力,检测是否存在提示词注入漏洞或异常应答;通过参数扰动测试,评估模型在输入噪声下的稳定性。
漏洞扫描与资产测绘:对大模型基础设施(
服务器、API 接口、数据库)进行资产探测,识别弱口令、Web 漏洞(SQL 注入、XSS)、数据库安全配置风险,生成《安全评估报告》,明确风险等级与修复建议。
4. 检测周期与流程
周期性检测:根据企业风险等级,制定季度 / 半年度检测计划,覆盖全量模型与核心业务场景;支持自定义检测策略,适配不同行业需求(如医疗行业强化隐私检测,政务行业侧重意识形态合规)。
自动化报告生成:检测完成后自动输出多维度报告,包含内容合规性评分、隐私风险点、模型漏洞列表、整改方案,满足监管备案与内部审计要求。

(二)风险会话实时拦截系统
1. 实时监控与动态过滤
在线流量监测:
通过 API 接入大模型服务,实时捕获用户输入与模型输出,基于内置词库与 AI 判定引擎(如安恒 “恒脑” 大模型),识别违规内容(如涉政敏感、隐私泄露、歧视性言论)。
三阶语义防火墙:
通过自研的 Embedding 模型识别隐蔽指令,能够有效拦截大模型推理过程中的潜在违规内容,对输入和输出的语义进行深度分析和检测,防止模型被利用进行恶意攻击或生成有害内容,强化了模型推理过程中的安全保障。
自定义内容检测知识库:支持对知识库自定义录入,对垂直领域违规内容通过录入自定义知识库提高检测率。
消息撤回:支持在部分web聊天页面中发现违规内容后进行消息撤回。
隐私信息检测脱敏:支持在开启模型推理的情况下检测聊天内容中的隐私信息并脱敏。
URL检测:支持检测聊天内容中的URL是否是恶意域名、黄色网站、暴恐网站。
强制认证:对被代理模型开启强制认证,开启后必须通过AI防火墙访问模型且密钥为必传字段。
模型代答:对违规内容设定模型答复机制,自定义回复内容。
2. 对抗性攻击防御
动态提示词过滤:基于智能化测试用例变形技术,实时识别变异攻击指令(如通过谐音、语义混淆绕过检测),结合上下文分析判断意图,防止模型被诱导生成违规内容。
抗DDoS :支持对后端模型进行频率控制,有效降低模型负载,保证模型运行稳定性。
(三)审计分析与溯源体系
1. 全链路日志记录
记录模型调用、检测任务、策略配置、拦截事件等操作,包含时间、用户、IP、风险等级等信息,支持日志检索与导出。
内容日志:加密存储违规会话的输入输出内容,用于事后审计与责任追溯,满足《生成式人工智能服务管理暂行办法》对 “服务日志保存期限” 的要求。
2.异步扫描与追溯
支持在空闲时段利用硬件资源对历史记录进行推理扫描。这不仅降低了资源占用,还能够实现事后追溯审计,及时发现并告警违规行为。
例如,可以在夜间等空闲时段对当天的输入输出内容进行扫描,发现违规行为后及时记录并告警,确保安全事件能够得到及时处理。这种异步扫描机制能够在不影响正常业务运行的情况下,充分利用系统资源,提高安全检测的效率和覆盖率。
三、典型场景
政务智能客服:实时拦截“政策曲解”类提问,月度扫描修复API越权漏洞。
医疗咨询平台:脱敏患者病历信息,防止生成误导性诊断建议。
教育知识库:过滤历史类问答中的错误表述,确保内容符合主流价值观。
四、案例实证
某市政务AI从风险暴露到安全闭环的升级路径
(一)背景
某市政数局上线智能客服系统,用于解答市民关于全区各类政策、服务事项、政务动态等信息。系统上线初期,出现以下问题:
政策解读偏差:模型误将“异地医保报销比例”错误关联至过时政策文件。
敏感信息泄露:用户提问中含身份证时,回复中未脱敏显示完整号码。
违规内容风险:恶意用户通过“如何伪造居住证明”等诱导性问题,试图触发模型生成违规操作。
(二)解决方案实施
1.上线前全面风险评估
底层系统及中间件漏洞检测:25年初对接Deepseek版本后,对底层算力平台、服务平台等操作系统完成漏洞检测,并对Olama组件新爆发漏洞完成全面排查,同时提供风险修复建议。
输出内容合规性全面评估:围绕TC260 5大类31项分类通过主动探测方式完成全面输出内容评估,发现风险问题30余项,辅助完成多轮专项提升后,保障应用顺利上线。
周期性安全检测:执行每周一次安全排查,主要针对智能客服API“未授权访问”漏洞、最新大模型组件漏洞、新舆情内容风险进行检测。
2.运行阶段实时防护
输出、输出安全防护:
敏感词拦截:内置“伪造”“虚假”等关键词,实时拦截诱导性提问(如“如何伪造居住证明”)。
语义分析:检测政策类问题时,自动关联最新政策库(如2024年医保新规),避免过时信息输出。
语料安全防护:
输入脱敏:识别用户提问中的身份证号(如“440***5678”),输出时仅显示部分字段。
输出校验:对模型回复进行二次合规检查,确保不包含未脱敏隐私信息。
3.日常运维审计与优化
通过异步扫描发现某IP高频提交“医保套现”类敏感问题,定位为恶意爬虫攻击。联动处置手段是将该IP加入黑名单,并启用防暴力破解策略。
(三)实施成效
服务准确性增强:政策类问题回复准确率从72%提升至95%以上。
风险拦截率提升:实时拦截恶意提问与违规回复,内容安全事故减少90%。
合规成本降低:自动化报告生成节省日常运维80%人工审核时间。
(四)案例总结
通过安恒信息大模型安全整体解决方案,该政务智能客服系统实现了“智能,更安全”理念,在保障内容安全与隐私合规的同时,显著提升了公共服务质量,为其他公共服务型企业的大模型安全建设提供了标杆参考。