计算机审计中电子数据清洗的主要应用

作者：课课家来源： www.kokojia.com点击数：859发布时间： 2015-11-02 11:44:02

恍惚恍惚又来到了文章的学习，想必大家又有很多问题吧!

（一）定义和确定错误的类型。
1.数据分析。数据分析是数据清洗的前提与基础，通过详尽的数据分析来检测数据中的错误或不一致情况，除了手动检查数据或者数据样本之外，还可以使用分析程序来获得关于数据属性的元数据，从而发现数据集中存在的质量问题。
2.定义清洗转换规则。根据上一步进行数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数，数据源中不一致数据和“脏数据”多少的程度，需要执行大量的数据转换和清洗步骤。要尽可能的为模式相关的数据清洗和转换指定一种查询和匹配语言，从而使转换代码的自动生成变成可能。oracle视频
（二）搜寻并识别错误的实例。

经李克强总理签批，2015年9月，国务院印发《促进大数据发展行动纲要》（以下简称《纲要》），系统部署大数据发展工作。oracle教程

《纲要》明确，推动大数据发展和应用，在未来5至10年打造精准治理、多方协作的社会治理新模式，建立运行平稳、安全高效的经济运行新机制，构建以人为本、惠及全民的民生服务新体系，开启大众创业、万众创新的创新驱动新格局，培育高端智能、新兴繁荣的产业发展新生态。

《纲要》部署三方面主要任务。一要加快政府数据开放共享，推动资源整合，提升治理能力。大力推动政府部门数据共享，稳步推动公共数据资源开放，统筹规划大数据基础设施建设，支持宏观调控科学化，推动政府治理精准化，推进商事服务便捷化，促进安全保障高效化，加快民生服务普惠化。二要推动产业创新发展，培育新兴业态，助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用，推动大数据发展与科研创新有机结合，推进基础研究和核心技术攻关，形成大数据产品体系，完善大数据产业链。三要强化安全保障，提高管理水平，促进健康发展。健全大数据安全保障体系，强化安全支撑。^[11]

2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作，力争通过3至5年的努力，将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。

围绕这一目标，贵州省将重点构建“三大体系”，重点打造“七大平台”，实施“十大工程”。

“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保oracle视频教程障体系；“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台；“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。

此外，贵州省将计划通过综合试验区建设，探索大数据应用的创新模式，培育大数据交易新的做法，开展数据交易的市场试点，鼓励产业链上下游之间的数据交换，规范数据资源的交易行为，促进形成新的业态。

国家发展改革委有关专家表示，大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等，而是要充分依托已有的设施资源，把现有的利用好，把新建的规划好，避免造成空间资源的浪费和损失。探索大数据应用新的模式，围绕有数据、用数据、管数据，开展先行先试，更好地服务国家大数据发展战略。

oracle数据库教程
1.自动检测属性错误。检测数据集中的属性错误，需要花费大量的人力、物力和时间，而且这个过程本身很容易出错，所以需要利用高的方法自动检测数据集中的属性错误，方法主要有：基于统计的方法、聚类方法、关联规则的方法。
2.检测重复记录的算法。消除重复记录可以针对两个数据集或者一个合并后的数据集，首先需要检测出标识同一个现实实体的重复记录，即匹配过程。检测重复记录的算法主要有：基本的字段匹配算法，递归的字段匹配算法，Smith—Waterman算法，Cosine相似度函数。
（三）纠正所发现的错误。在数据源上执行预先定义好的并且已经得到验证的清洗转换规则和工作流。当直接在源数据上进行清洗时，需要备份源数据，以防需要撤销上一次或几次的清洗操作。清洗时根据“脏数据”存在形式的不同，执行一系列的转换步骤来解决模式层和实例层的数据质量问题。为处理单数据源问题并且为其与其他数据源的合并做好准备，一般在各个数据源上应该分别进行几种类型的转换，主要包括：
1.从自由格式的属性字段中抽取值（属性分离）。自由格式的属性一般包含着很多的信息，而这些信息有时候需要细化成多个属性，从而进一步支持后面重复记录的清洗。
2. 确认和改正。这一步骤处理输入和拼写错误，并尽可能地使其自动化。基于字典查询的拼写检查对于发现拼写错误是很有用的。
3. 标准化。为了使记录实例匹配和合并变得更方便，应该把属性值转换成一个一致和统一的格式。
（四）数据回流。当数据被清洗后，干净的数据应该替换数据源中原来的“脏数据”。这样可以提高原系统的数据质量，还可避免将来再次抽取数据后进行重复的清洗工作。
更多视频课程文章的课程，可到课课家官网查看。我在等你哟！！！

踩(1)

分享到：

上一篇：使用大数据做出更明智业务决策的理解

下一篇：怎样用acdsee去除图片中多余的人