顶部图片-新闻详情
必威

【必威】:星云Clustar应邀出席GTC畅谈GPU加速联邦学习计算的探索

阅读量 :56     发布者 :     来源 :必威     发布时间:2019-12-25    

2019年12月16 - 19日,顶级AI盛会“英伟达GTC2019”再次于苏州举行,来自全球的顶级专家汇聚一堂,共同探讨当今AI领域最热门的话题。星云Clustar CTO胡水海,同微众银行算法高级工程师黄启军,受邀在“智慧金融”分论坛上联合发表了题为“GPU在联邦学习中的探索”的演讲,与业界精英分享了星云Clustar在联邦学习领域中的领先研究成果。同时星云Clustar的AIOS人工智能操作系统和星云联邦学习一体机也在本次GTC厂商展览区中亮相。

GTC展会现场人声鼎沸

演讲于19日11:30在分会场三进行,星云Clustar CTO胡水海深入分析了联邦学习场景下,GPU计算的优势与挑战,并提出了星云Clustar的破局之道。

联邦学习是一种基于隐私保护和数据加密的机器学习方法。在加速计算上,GPU拥有四大优势:加速高度并行的计算任务、加速重复的轻量级计算任务、加速密集型计算任务及加速海量数据批量计算任务;然而联邦学习计算需进一步处理2048-bit的大整数运算、大量的模幂运算以及缓存大量中间计算结果,此时GPU表现就捉襟见肘。

星云Clustar CTO胡水海开始演讲

针对GPU进行联邦学习计算的这三个挑战,星云Clustar CTO胡水海提出了3种优化方法。首先使用分治思想做元素级并行,将大整数乘法分解成可并行的小整数乘法;其次,利用平方乘算法和蒙哥马利算法降低复杂度并避免取模运算;最后,使用中国剩余定理,减小中间计算结果,不需要更大的显存缓存中间结果。

优化后测试结果显示,相对于传统服务器,星云Clustar基于GPU所做的优化方案在联邦学习的同态加密计算效率上提升了5.8倍,同态解密效率上提升了5.93倍,密态乘法效率上提高了31.4倍,密态加法的效率上提升了419倍。

星云Clustar CTO胡水海开始演讲

星云Clustar CTO胡水海表示“数据中心内部不同机构间通信”以及“不同机构间数据中心跨区域通信”是联邦学习两大主要通信场景。而在这两个场景都需要加速联邦学习通信,以提高模型训练效率。为此,星云Clustar自研了GDR(GPU Direct RDMA)技术,GPU的数据不再经过内存的多次拷贝,而是直接从GPU移动到RDMA网卡,然后通过RDMA网卡直接发送到网络,接受侧也是一样,从而实现零拷贝的数据流目标。同时GDR还可以控制内存分配机制,直接把数据分配在允许RDMA操作的内存上,就能减少数据拷贝,进一步提升性能。相对于TCP模式,GDR能提高75%整体训练效率。目前GDR是星云AIOS人工智能操作系统的核心技术之一。

展会期间,星云Clustar同合作伙伴Amax在会议现场进行了产品展示,包含星云Clustar研制的星云AIOS人工智能操作系统及星云联邦学习一体机。

星云Clustar展位

星云Clustar的星云AIOS人工智能操作系统是一款一站式、高性能、高易用、高安全、高扩展的人工智能操作系统,为用户提供数据处理、模型训练、推理服务及AI应用等完整的AI解决方案。AIOS支持大规模的人工智能训练场景,可搭载在通用硬件上使用,充分发挥算力资源,加速各行业的AI 应⽤落地。

星云Clustar展位

星云Clustar 成立于2018年1月,是全球领先的AI算力解决方案提供商 ,致力于将高性能网络、同态加密等创新性技术应用到人工智能及数据安全领域。星云Clustar 在北京、深圳和香港都设有产品和研发中心,目前团队规模50余人,其中80%以上为产品研发团队。

星云Clustar 从通用AI市场着手,首先完成AIOS高性能算力平台,加速分布式AI训练;于2019年进一步打造全新产品线 PAI (Privacy Preserving AI),这是软硬件一体的高性能AI算力解决方案,支持密态AI场景下从数据准备、模型训练到模型推理的完整解决方案,包含星云AIOS高性能通用算力平台和星云深度安全AI处理器。

同时,星云Clustar 以领先的联邦学习、迁移学习、AutoML等技术,为制造、保险、电商等行业定制AI解决方案,赋能传统行业AI战略升级,实现低成本、高效率的业务场景转型。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
必威
必威资讯