AI的“高度近视”有何破解之法?深度学习加速技术让“人工智障”戴上眼镜-600学习网
600学习网终身会员188,所有资源无秘无压缩-购买会员
【简介】
“什么黑涩技术满足了AI快速.准确和经济的愿望?”
有什么比秃顶更悲伤的吗?
是的,例如,一个智能机器人会将秃顶的后脑勺识别为一张没有面具的脸,然后跟着提醒你戴上面具。
今天,人工智能应用程序变得非常流行,在这个过程中收获了许多关于”人工智能迟钝”的笑话。以上只是其中之一。除了能自动识别令人反感的图像外,还有一些智能对话可以回答未回答的问题。
自迎来以深度学习为代表的第三次发展浪潮以来,人工智能技术已广泛应用于目标检测.图像识别.自然语言处理(NLP)等场景。从语音识别.自动送餐机器人到生产线图像监控,人工智能无处不在。
客户的业务需求和创新应用对人工智能推理和培训的效率和质量提出了更严格的要求。为了促进人工智能的发展,三个方面-数据.计算能力和算法-需要进一步优化和高效。
两全其美是罕见的。如果你想在一件事中实现”三件事”,那真的很难而且”贪婪”。
但要克服”人为智力残疾”,它确实需要”贪婪”。
发展人工智能必须同时提高数据精度.存储空间和处理速度
一般来说,数据类型的宽度越大,表达式的动态范围和准确姓就越高。
更大的动态范围和更高的精度意味着更多的存储空间。例如,FP32需要的内存占用是FP16的两倍,这给内存带宽带来了双重压力,并对计算能力提出了挑战。
同时,在算法层面上,尽管深度学习是近年来人工智能复苏的一个原因,但它也是一个消耗计算能力的巨大”黑洞”。
平衡这三者仍然存在困难。从数据类型级别来看,节省存储空间需要做出一些让步或牺牲。例如,谷歌引入了BFloat16(BF16)数据类型来加速人工智能深度学习,它使用FP16数据宽度来实现与FP32相当的动态范围,但代价是精确度降低。
这只解决了一方面的问题,但如果实现”准确.经济.快速”的三重幸福AI,三个要素必须协同工作:简化数据.增强计算能力和优化算法。
英特尔深度学习加速技术:准确.经济.快速.低精度,效率高!
算法创新是最重要的。
如上所述,大多数深度学习应用程序在其训练和推理工作负载中使用32位浮点精度(FP32)。虽然精度很高,但它占用了更多的内存,这影响了计算效率。
当数据格式从FP32更改为8位整数(INT8)或16位浮点数(BF16)时,内存可以移动更多数据,从而更好地利用计算资源。
准确姓的降低会影响数据处理的准确姓吗?
答案是:没有,或者影响可以忽略不计。
近年来,许多研究和实践表明,低精度数据格式的深度学习训练和推理不会对结果的准确姓产生太大影响。例如,BF16用于训练,INT8用于推理,这可以将准确姓的损失降到最低,甚至完全没有损失。
低精度数据格式的优点不仅在于提高内存利用效率,而且还在于减少处理器资源消耗,在深度学习常见乘法运算时实现更高的运算速度(OPS)。
算法的升级有助于达到”准确”和”省级”的标准,但”快速”的水平仍稍不令人满意。
为了确保推理过程的准确姓,在CPU的矢量处理单元中执行矩阵运算时,首先将8位值与
在指令集的支持下,简化了数据,避免了额外的开销,从而可以根据内存利用率提高性能。AVX-512_VNNI使用INT8进行推理。与FP32相比,AVX-512_VNNI理论上可以实现四倍的性能,同时将内存需求减少到¼
内存的减少和频率的增加加快了低数值精度运算的速度,最终加速了人工智能和深度学习推理,适用于图像分类.语音识别.语音翻译.对象检测等诸多方面。
AVX-512_BF16的优点是它不仅可以用于推理,还可以用于训练,这有助于将训练性能提高1.93倍。Intel的第三代Xeon可扩展处理器,代号为Cooper Lake,集成了bfloat16加速功能,以类似于FP32的精度提高了性能和内存利用率。
软硬件合作成立”AI改造车间”,展示CPU多场景应用的优势
计算能力.算法和数据都有自己的标准和解决方案。当三者形成一个完整的闭环时,我们如何才能提高整个过程的效率?
还有进一步的进步空间,也就是说,当人工智能应用程序的原生数据格式不统一时,如何有效地将大量使用传统FP32数据格式的人工智能模型转换为BF16或INT8格式。
Intel的OpenVINO™ 该工具套件提供了模型量化功能,为上述问题提供了很好的解决方案。
它可以将基于不同AI框架(如TensorFlow.MXNet.PyTorch等)的FP32数据格式AI模型转换为INT8和BF16数据格式,精确度损失很小。
除了模型量化功能,OpenVINO还针对一系列人工智能应用场景,如视觉模拟.自动语音识别.自然语言处理和推荐系统™ 该工具套件还提供了可以提高开发和部署效率的组件,如OpenVINO™ 模型服务器和OpenVINO™ Model-Zoo等组件可以更高效地优化基于TensorFlow.PyTorch.MxNet.Keras等不同框架的训练模型,并简化这些模型的部署过程和时间消耗。
有许多人工智能应用场景。哪个场景可以突出AVX-512_BF16等深度学习加速技术的优势?
例如,在准确姓比实时姓更重要的医学图像中,慧仪慧英推出了集成在乳腺癌图像分析场景中的Intel®第二代Intel深度学习加速技术®xeon®可扩展处理器和OpenVINO™ 经过INT8变换和检测模型优化后,该工具箱的推理速度比原方案高8.24倍,精度损失小于0.17%。
当企业开始构建人工智能应用程序时,改变他们的方式并不划算。他们可以全面评估现有的数据存储.处理和分析平台。通过这种方式,他们可以基于准确.快速和经济的CPU构建和部署满足自己需求的AI应用程序。
此外,CPU本身的AI能力也在不断发展。即将推出的Intel第4代Xeon可扩展处理器,代号为Sapphire Rapids,添加了高级矩阵扩展(简称AMX)技术。
AMX是一个新的x86扩展,具有自己的存储和操作。它主要针对在人工智能领域非常重要的矩阵乘法。它比前两个DL Boost的实现更复杂。效果如何?让我们拭目以待
600学习网 » AI的“高度近视”有何破解之法?深度学习加速技术让“人工智障”戴上眼镜-600学习网