Topic 2:How to Improve Error Tolerance Capability in Collaborative Inference System ?
Sun Hao

Fault and Error Tolerance in Neural Networks: A Review

该文对神经网络的容错工作进行了调研,介绍了容错相关名词及定义,并对故障类型、故障模型进行划分。该文重点对神经网络容错工作进行了具体分类。 被动容错:利用系统结构中的冗余和故障屏蔽有效地屏蔽故障效应(增加冗余、调整训练策略、解优化问题)。 主动容错:明确、动态地识别和管理系统冗余资源,以补偿故障出现时的影响。

 

NeuroMessenger: Towards Error Tolerant Distributed Machine Learning Over Edge Networks

该工作考虑了分布式机器学习(Distributed Machine Learning)中的通信开销问题,提出一种新的容错分布式机器学习范式,用于提升分布式机器学习系统的效率,涉及模型分割式协同推理和联邦学习两个方面。具体而言,该工作使用交织编码和重要性编码提升分布式机器学习系统的容错能力。

 

FT-CNN: Algorithm-Based Fault Tolerance for Convolutional Neural Networks

该工作针对CNN的计算容错问题,提出了多个算法层面的容错方法,用于应对可能发生的软错误(soft errors)。另外,该工作将提出的四种策路集成到一个工作流中,以使用有限的运行开销获得较高的纠改错能力。

 

Fault-Tolerant Collaborative Inference through the Edge-PRUNE Framework

该工作针对多设备协同推理的容错问题提出机器学习框架Edge-PRUNE。该框架能够自动生成端设备和服务器间的协同推理最佳分割点,并根据模型的有向图进行条件计算。该框架实现协同推理容错的方式为将失效设备的计算任务转移到冗余设备上。

 

 Comments