迪丽热巴 dl( 二 )


并且EasyDL平台使用方便、训练模型更加轻快、精度更高,而且我们有强安全的策略能够保护用户的数据和模型 。

迪丽热巴 dl

文章插图
下面给大家介绍EasyDL平台服务端和设备端的技术 。首先是服务端的核心技术,下面从四个方面给大家介绍 。第一个是说我们如何提供从数据到模型到接口的一站式服务 。里面就是主要涉及到我们开发的AIworkflow的分布式引擎以及百度的PaddlePaddle深度学习框架 。第二是在数据较少的情况下如何做到训练效率的提高,主要涉及到我们迁移学习技术 。第三:如何做到更高的精度 。主要是Auto Model Search和Early Stopping的机制 。最后给大家介绍一下我们EasyDL平台模型效果评估的功能 。
迪丽热巴 dl

文章插图
一般的深度学习工作流程如下:将大量标注好的数据存在数据仓库中 。然后通过一些数据清洗工具做ETL 。清洗数据并提取需要的特征,可能还会做一些训练及验证集切分等 。用这些清洗好的数据做分布式训练,之后对得到的模型去做一个效果评估 。如果满意,最终会把它去做一个部署,然后可以让它上线服务 。
我们AI的训练集往往很大 。在大数据领域,大家都知道经典的3V原则,无论是数据容量、数据增长速度以及数据多样性都非常大 。所以我们在工程上,加入了一个大数据工程系统作为基础设施来提高我们整个EasyDL的效率和便利性 。右图是EasyDL的AIworkflow的分布式引擎的解决方案,左图是我们用mongoDB Hadoop HDFS来做的一个分布式存储 。
我们后面会用spark集群去对数据做分布式的预处理和模型最后的分布式评估 。在训练阶段我们是用kubernetes集群来做调度 。模型是用paddlepaddle写的 。最后呢,我们把训练好的模型通过docker技术在平台上做一个服务 。
迪丽热巴 dl

文章插图
我们在paddlepaddle框架的API上做进一步的封装 。我们对数据的预处理、模型的训练、模型的评估等阶段,做了进一步的抽象 。这样使得工作流可以完全的实现配置化和自动化 。
刚才我们也提到了paddlepaddle这种百度开源的深度学习的框架 。paddlepaddle上面开源了我们百度一系列的成熟的模型和数据 。并且他还有大量的中文的文档视频培训课程等 。所以说他可以说是最适合我们中国的开发者的一个框架,以及paddle mobile、可伸缩扩展EDL和可视化VisualDL插件等可伸缩的扩展的、可视化组件等这些功能 。右边是我们EasyDL使用paddlepaddle的一个应用事例 。从这个事例中我们可以看出来,用paddlepaddle做我们模型的定义和训练是非常方便的 。
一般而言,深度神经网络的训练需要大量的标注数据,但是有定制化需求的客户拥有的标注数据往往有限 。而且从头训练一个神经网络是很花时间的,但是客户希望更快地得到训练的模型 。
迪丽热巴 dl

文章插图
为了解决这样的矛盾,我们采用了迁移学习技术 。迁移学习通过源领域数据学习到知识,然后将其应用到相关的目标领域中,帮助目标领域的任务完成训练 。比如,我们可以在一个通用的植物分类模型中学习到一些识别植物的知识,然后将这种知识应用到前面提到的中草药识别任务中,帮助它更快更好的训练 。
举个例子,比如说我们刚才提到的中草药识别 。如果说我们有一个通用的植物分类模型 。那么我们就可以将这个模型中学习到的一些识别植物的知识运用到中草药分类的任务当中,来帮助他更好的去做训练 。具体来说,我们是将百度大规模的标注数据集在深度神经网络上去做预训练,然后我们得到训练的参数,然后我们将这种预测训练的参数加载到我们这个网络中,根据用户的数据在网络得到用户自己的一个模型 。
具体的,我们将百度大规模的标注数据集在深度神经网络上做预训练,得到预训练参数,然后将用户的数据在预训练模型中做微调,最终得到用户的定制化模型 。训练时间从几十小时降到分钟级别 。此外,我们还支持多领域预训练、数据闭环、持续训练等机制 。
迪丽热巴 dl

文章插图
为了更好的去匹配不同的数据,我们利用Auto model search设施对模型的结构调整,和超参数、优化器等等这些去做自动的搜索,去选取一个最佳的模型 。另外,用户提供的数据量有时候比较小,在我们深度神经网络训练中,往往就会出现一个过拟合的现象,对应为了应对这种过拟合的现象,我们就采取了Early Stopping机制来降低过拟合的风险,提高模型的可能性 。目前 。我们图像分类绝大部分模型的准确率在百分之八十以上 。

秒懂生活扩展阅读