“当你有一块手表的时候,你能知道时间。但有了两块手表,反而不知道what is the time?”
乍听这句话有点不明所以,细细琢磨才有点明白背后的意思:当有不同的入口去解读同一个信息的时候,就会产生信息重叠和冲撞。这个时候,我们如何理解这些数据?
这是大数据时代下的一个典型特征,信息入口多、数据冗余、混杂甚至孤立,造成了信息噪音和过载。8月15日~17日,以“数据有引力”为主题的2019帆软数据智数大会在南京举行。华为云智能数据服务域总经理丁响明指出了一个现实:只有5%的数据真正产出了价值。
同时,帆软数据应用研究院高级顾问薛晨宇也表示:不要期望从垃圾数据中提炼出黄金。“问渠哪得清如许,为有源头活水来。”
在产业数字化转型的当下,对各个企业来说,数据应该如何辨伪求真,进行治理和连接?
构建高质量数据,“信、深、速”成为刚需
牛顿的万有引力有一个公式,F=(G×M₁×M₂)/R²。类比到“数据有引力”这个概念,可以将这个公式中的三个元素G(万有引力常量)、M(物体质量)和R(两个物体之间的距离)拆开来理解:
当常量不变,数据的质量越大,数据与价值之间的距离越小,数据对企业产生的引力(效率比提升)就会越大。
但现实是,已成为新的生产资料的数据目前的情况却是尸横遍野,“数据没有人看。”
因此,现在需要做的其中一步就是构建重质量的数据。帆软数据应用研究院院长杨扬在会上总结了三个构建维度,即信度、速度和深度。
第一,数据需要是可信的,如果数据不可信,随便拿来一些数据,这个数据毫无价值。也就是说,要从源头保证数据不是垃圾数据。
第二,数据需要贴合它本身的特性,同时贴合业务的特性,即深度。如果只是把数据列出来,那这个数据表可能对大家的分析价值不会很高。
第三,速度。天下武功,唯快不破。当遇到一个问题需要十天半个月才能得到数据的详解,在这样的情况下它还能有质量吗?所以数据要有时效性。
杨扬介绍了目前帆软对这三个维度的解决方案从四个步骤来完成。第一步是构建数据标准,包括编码规则、命名规则、划分规则等;第二步,构建平台规划,涵盖了基础设置、数据管理、接口管理、流程管理。再接下来,通过维护机制,集团统一、数据运维,安全把控来实施方案,最后构建数据中心及交换平台。
数据管理,主数据先行
据薛晨宇介绍,目前推动企业数据治理的因素排名前三的分别是行业法规要求、建立用户信任和满意度、加强企业数据决策,总体来看需求还是比较旺盛。
但现状是,处于全面实施阶段(数据管理是企业核心,拥有专门的数据治理团队及有效的监督管理手段)的只占到了31%,规划阶段(企业已开始计划启动数据治理)的占到9%。开始实施阶段(企业已为数据治理完成了数据发现与数据清单的阶段)占到21%,正在实施阶段(企业已完成数据发现,并正在开发流程,规则,定义数据,分类数据和数据治理战略)的占到42%。
究其原因,数据治理发展缓慢主要是因为企业数据治理主要会面临几个障碍:项目成本、行政部门是否支持、是否有合适的数据治理办法、部门是否支持、是否有有效的数据治理工具和是否有使用的业务案例。其中,项目成本以绝对领先的优势占据了第一位,成为企业数据治理的第一座大山。
薛晨宇表示,要想翻越这几座大山,除了资金等硬件以外,还需要注意四个核心要素:
一、明确数据治理责任,建立数据治理组织;
二、管理出成效,制度是保障;
三,数据规范:没有规矩,不成方圆;
四,数据治理活动,理论联系实际。
在这里面,第三点的数据规范包括了完整性、有效性、一致性、唯一性、正确性、准确性、可用性、时效性、清晰性和充足性。完整性表示对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。有效性是指数据包含了一个有效的数据格式或值。一致性则要求数据仓库系统内数据定义的统一、口径的一致性。
以及,唯一性代表了经营分析系统数据定义的唯一性。正确性代表ETL(Extract-Transform-Load,数据仓库技术)过程正确性、加工过程正确性、数据整合正确性、模型正确性、展现正确性、查询正确性和核对过程是否充分。准确性代表在准确性基础上的精度和近似规则。可用性则主要体现在使用的效率上。
此外,时效性代表能够按照业务需求集市产生所需的数据。清晰性是要求能清晰定义每一个数据的来龙去脉,没有歧义。充足性表示在保证数据正确性和准确性基础上是否能对主要业务专题提供足够的数据进行足够精度的分析需求。
在所有这些数据治理的过程中,薛晨宇认为,数据管理是第一位的,且其中的主数据管理是重中之重。“主数据描述了企业的客观存在,关联度和复用度高的基础数据,因此主数据管理先行。”
联合发布智能数据解决方案
在数据治理的过程中,连接也是治理的一部分。从信息孤岛的烟囱式建设,到数据的集成(从生产数仓、销售数仓、客服数仓转变为统一的数据资产中心),越来越多的企业开始有了打通的需求。打通的第一步就是要将数据入湖,让数据成为资产中心。那么是不是一股脑将所有的数据全部抓取丢到数据湖里就完事了呢?
显然,这里面还有很多值得学习的方法论和准则。华为云数据治理中台总架构师龙江在现场介绍了包括拉、推、虚拟链接的三种数据入湖方式和六项入湖标准:
三种入湖方式
PULL(拉):指从多个不同的数据源中获取数据,然后传输到中间临时系统或目标系统中;
PUSH(推):指数据源主动通过消息或FILE LOADING的方式向目标系统推送数据
虚拟链接:通过元数据集中管理,并以此建立动态数据路由,实现快速数据入湖通道;
六项入湖标准:
数据Owner:按照《数据管理体系手册》的相关规定发布数据Owner;
数据标准:依据《数据管理体系手册》发布数据标准;
数据源:一句《数据源管理政策》的相关要求做好数据源认证,识别清楚初始源、可信源;
数据密级:一句《信息保密管理规定》定义;
数据质量:进行源系统数据质量评估制定质量控制方案,满足数据质量要求;
元数据:进行元数据注册,为数据导航和数据地图建设提供关键输入。
当所有业务数字化并形成数据能力中心之后,数据也就自然而然可以被企业消费利用,助力决策提升效率。智能网了解到,华为云与帆软在现场还联合发布了智能数据解决方案,未来在DAYU数据治理、商业智能BI等领域进行深度合作。
据了解,DAYU是华为此前推出的一款智能运营平台,与“大禹”同音。意为像大禹治水一样帮助企业进行数据治理与运营,最终让数据便为企业创新的新能源,助力企业新增长。龙江表示,华为云与帆软此次发布的智能数据解决方案将根据行业模板和运营平台,赋能更多行业客户,构建企业中台,真正做到融合、变现、智能和效率。
本文作者龚晨霞,微信Gcx847076575,欢迎关注企业服务和产业互联网的朋友加微信交流。
版权声明
本文来源智能网,经智能网授权发布,版权归原作者所有。转载或内容合作请点击转载说明,违规转载法律必究。