(通讯员 赵秀臣)近期OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,网络与信息安全学院吕锡香教授指导的博士生李一戈的论文「Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks」OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,被人工智能顶级会议ICLR 2021收录OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,在ICLR 2021会议近3000篇投稿中OPE电子竞技 | 官方网站,均分排名前7.5%OPE电子竞技 | 官方网站。这项研究成果由西电网信院OPE电子竞技 | 官方网站、蚂蚁集团OPE电子竞技 | 官方网站、迪肯大学、墨尔本大学和UIUC合作完成。
ICLR(International Conference on Learning Representations),即国际学习表征会议,成立于2013年OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,由深度学习三大巨头之二的Yoshua Bengio和Yann LeCun共同牵头创办OPE电子竞技 | 官方网站,发展至今已经被学术研究者们广泛认可OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,被誉为“深度学习的顶级会议”,目前在H5-index领域已超越ICML、NeurIPS等OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,在所有顶会中影响力仅次于CVPROPE电子竞技 | 官方网站。

本篇论文的研究对象是AI安全领域的后门攻击OPE电子竞技 | 官方网站。作为一种发生在训练阶段的定向攻击,后门攻击近年来在AI安全中引起了极大的重视OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站。后门攻击能够控制模型的预测结果,但是却不会影响正常样本的预测准确率,是一种相当隐蔽且危险的攻击。更重要的是,一旦将后门触发器嵌入到目标模型中OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,就很难通过传统的微调或神经修剪来彻底消除其恶意的影响OPE电子竞技 | 官方网站。
针对这一问题OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,本文提出了一种新颖的防御框架--神经元注意力蒸馏(Neural Attention DistillationOPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,NAD)OPE电子竞技 | 官方网站,以消除DNN中的后门触发器OPE电子竞技 | 官方网站。NAD利用教师网络在少量干净的数据子集上指导后门学生网络的微调OPE电子竞技 | 官方网站,以使学生网络的中间层注意力激活与教师网络的注意力激活保持一致OPE电子竞技 | 官方网站。其中OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,教师网络可以通过对同一干净子集进行独立的微调获得OPE电子竞技 | 官方网站。针对6种最新的后门攻击——BadNetsOPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,Trojan attack,Blend attack,Clean-label attackOPE电子竞技 | 官方网站,Sinusoidal signal attackOPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,Reflection attackOPE电子竞技 | 官方网站OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,验证了提出的NAD的有效性,仅使用5%的干净训练数据就可以有效擦除后门触发器OPE电子竞技 | 官方网站,同时几乎不影响干净样本的性能。
本文提出的基于神经元注意力蒸馏的后门净化方法是目前业界最简单有效的方法OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,能够抵御目前已知的所有后门攻击OPE电子竞技 | 官方网站,理论分析表明该方法具有对后门攻击的普适性防御能力。论文代码已经开源:https://github.com/bboylyg/NADOPE电子竞技 | 官方网站。



本论文指导老师吕锡香教授认为,该研究产出的神经元注意力蒸馏后门攻击防御框架OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,提供了目前SOTA的通用后门防御技术,防御效果最好OPE电子竞技 | 官方网站,防御范围最大OPE电子竞技 | 官方网站,普适性最好OPE电子竞技 | 官方网站,防御方法简单OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,通用于工业界任何需要使用外部预训练模型的应用场景OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站。相信该技术的创新将为深度学习安全研究提供重要借鉴意义,在未来将有望应用于各行业OPE电子竞技 | 官方网站OPE电子竞技 | 官方网站,进行精准行业赋能,对深度模型的在产业界的应用落地提供重要安全保障。