改进机器学习:知识图谱如何为数据赋予更深层的意义?-600学习网
600学习网终身会员188,所有资源无秘无压缩-购买会员
[51CTO Quick Translation]在部署机器学习系统时,许多企业采用过时的数据管理方法,这将导致两个负面影响:一是过时的数据复制方法会延迟最终的洞察结果,二是数据缺乏统一姓和上下文。
过度的数据复制和由此产生的”二级效应”正在给大多数组织中的数据科学家带来巨大的效率低下和浪费。根据IDC的数据,去年生成了超过60ZB的数据,复合年增长率预计将达到23%,并将持续到2025年。更糟糕的是,唯一数据与复制数据的比例为1:10,这意味着大多数组织的数据管理方法都是基于复制数据的。
当公司创建机器学习模型时,他们通常通过复制来自不同数据源的相关数据来划分数据。该模型通常需要20%的数据用于训练,其余80%的数据用于测试。数据清理.特征工程和模型评估需要六个月或更长时间,这将使数据在过程中过时,延迟获得洞察力的时间,并影响数据结果。
传统过时的数据管理方法的第二个影响是洞察力的下降。这种影响不仅是由于使用过时的数据构建模型,还由于关系意识不足.垂直数据孤岛断开.上下文信息不足以及关系数据管理技术对模式的限制。
使用现代数据结构正确实施知识地图可以纠正这些数据管理问题,并提高机器学习的价值。在知识地图辅助的数据结构中部署数据虚拟化使数据科学家能够将机器学习引入数据,避免时间和资源的浪费。
此外,图形模型固有的灵活姓及其利用关系的能力使组织非常容易为机器学习准备数据,因为它们提供了改进的特征工程.根本原因分析.图形分析和其他功能。随着数据管理和人工智能的融合,该功能也有助于知识地图在未来20年成为主要数据管理结构的关键。简言之,知识地图将帮助人工智能,就像人工智能将帮助知识地图一样。
越来越多的数据组织正在处理长期的机器学习部署。数据孤岛或数据湖中的不同数据格式.模式和术语将延迟需要这些训练数据的机器学习计划。缺少上下文和语义注释使得组织很难理解数据的含义和特定模型的目的。即使数据有足够的上下文,这些信息也很少持久,因此组织必须重新启动后续项目。快速移动的数据(如物联网设备收集的信息)使得在数月的培训中复制这些不同的数据变得更加困难。组织被迫通过再次复制新数据来应对这一障碍,重新启动这一耗时的过程,从而损害了模型的功能。
一种推荐的方法是在数据结构层训练模型,而不是将数据复制到孤岛。组织可以轻松创建培训和测试数据集,而无需移动数据。例如,一个组织甚至可以指定一个随机的20%数据样本,并通过这种基于知识图的数据虚拟化方法使用查询来提取特征和提供训练数据集。这种方法澄清了数据管理和机器学习之间的联系,以加快洞察力的获取。另一个优点是使用较新的数据训练模型。
与关系或其他方法相比,知识地图为理解企业数据提供了更丰富.更坚实的基础。它们提供上下文理解和节点边缘之间的关系检测,这是图存储数据的一种方式。语义图数据模型将公司特定的术语标准化为一组分层词汇表或分类法,大大增强了这一功能。因此,数据科学家自然能够理解数据的含义及其与任何用例(如机器学习)的关系。语义地图数据模型还可以在模式级别对齐数据,提供关于概念或业务类别的智能推理,避免术语或同义词的传统问题,同时提供企业数据的完整视图。
这些特征对这一点至关重要:减少为机器学习准备数据所需的时间,同时从可用数据中生成高度微妙的上下文洞察力。这种方法的另一个优点是图的算法
600学习网 » 改进机器学习:知识图谱如何为数据赋予更深层的意义?-600学习网