大模型安全的探索与实践分享教安护航与法治论坛一大模型安全的“快”与“慢” 王维强蚂蚁集团-安全实验室大模型身后的影子：AI安全问题本源人类对齐模式机技摄化指令微调SFT 生成式大模型输出：生成内容不可：生威戏视突品出谐大规模数据大模型时代函需安全、可靠、可控的A/技术不可解构：可控可靠：不可预测算法系统的解释诉求伦理安全：向善合规：信息安全算法结果的价值导向超大规模数据中知识生成式学习范式下的安全、可控、可靠大模型安全性的几个关键环节外部诱导的问题训练数据源头的问题推理过程黑盒的问题生成不可控恶意攻击数据有毒