浅谈工业大数据

2021-05-14 19:19:44 88

随着企业数字化转型的不断深入,企业积累的各种数据也越来越多,这些数据从分散到集中经历了较长的时间,但数据本身并不直接创造价值。因此,企业需要思考如何利用工业大数据分析工具,深入挖掘蕴藏在数据中的业务价值。

一、工业大数据的内涵 

工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。

美国国家科学基金会(NSF)智能维护系统(IMS)产学合作中心的创始人和主任李杰教授在他的《工业大数据》一书中曾指出,在自动化设备产生了大量未被充分挖掘价值的数据、获取实时数据的成本不再高昂、设备的实时运算能力大幅提升以及依靠人的经验已无法满足复杂的管理和优化的需求的条件下,大数据技术在工业领域逐渐兴起。

对制造企业而言,高效的处理和使用工业大数据将有利于企业在新一轮产业竞争中占据产业发展的制高点。工业大数据主要涵盖三类数据,即企业信息化数据、工业物联网数据以及外部跨界数据(见下图)。

 

1.png

 工业大数据的类别(来源:王建民,清华大学软件学院)


信息化数据是指传统工业自动化控制与信息化系统中产生的数据, 如 ERP、MES 等 。工业物联网数据是来源于工业生产线设备 、机器 、产品等方面的数据,多由传感器、设备仪器仪表进行采集产生。外部数据是指来源于工厂外部的数据,主要包括来自互联网的市场、环境、客户、政府、供应链等外部环境的信息和数据。

工业大数据技术是使工业大数据中所蕴含的价值得以挖掘和展现的一系列技术与方法,包括数据规划、采集、预处理、存储、分析挖掘、可视化和智能控制等。归纳来说,主要包括数据采集技术、数据管理技术、数据分析技术。

1.数据采集技术

工业软硬件系统本身具有较强的封闭性和复杂性,不同系统的数据格式、接口协议都不相同,甚至同一设备同一型号、不同时间出厂的产品所包含的字段数量与名称也会有所差异,因此无论是采集系统对数据进行解析,还是后台数据存储系统对数据进行结构化分解都会存在巨大的挑战。由于协议的封闭,甚至无法完成设备的数据采集;即使可以采集,在工业大数据项目实施过程中,通常也需要数月时间对数据格式与字段进行梳理。挑战性更大的是多样性的非结构化数据,由于工业软件的封闭性,数据通常只有特定软件才能打开,并且从中提取更多有意义的结构化信息工作通常很难完成,这也给数据采集带来挑战。因此,先进的数据采集技术需要满足海量高速、支持采集的多样性、保证采集过程安全等特点。

未来,先进的数据采集技术并不简单的将数据通过传感器进行采集,而是构建一个多数据融合的数据环境,使产品全生命周期的各类要素信息能实现同步采集、管理和调用。此外,需要尽可能全地采集设备全生命周期各类要素相关的数据和信息,打破以往设备独立感知和信息孤岛的壁垒,建立一个统一的数据环境,这些信息包括设备运行的状态参数、工况数据、设备使用过程中的环境参数、设备维护保养记录以及绩效类数据等。最后,在先进的数据采集技术下,改变现有被动式的传感与通信技术,实现按需进行数据的收集与传送,即在相同的传感与传输条件下针对日常监控、状态变化、决策需求变化以及相关活动目标和分析需求,自主调整数据采集与传输的数量、频次等属性,从而实现主动式、应激式传感与传输模式,提高数据感知的效率、质量、敏捷度,实现数据采集的自适应管理和控制。

2.数据管理技术

各种工业场景中存在大量多源异构数据,例如结构化与非结构化数据。每一类型数据都需要高效的存储管理方法与异构的存储引擎,但现有大数据技术难以满足全部要求。以非结构化数据为例,特别是对海量设计文件、仿真文件、图片、文档等,需要按产品生命周期、项目、BOM结构等多种维度进行灵活有效的组织、查询,同时需要对数据进行批量分析、建模,对于分布式文件系统和对象存储系统均存在技术盲点。另外从使用角度上,异构数据需要从数据模型和查询接口方面实现一体化的管理。例如在物联网数据分析中,需要大量关联传感器部署信息等静态数据,而此类操作通常需要将时间序列数据与结构化数据进行跨库连接,因而先进的数据管理技术需要针对多模态工业大数据进行统一协同管理。

3.数据分析技术

工业大数据分析技术包括多种技术,最常用的有K均值、BP神经网络、遗传算法和贝叶斯理论等。其中K均值是最常用的主流聚类分析算法,BP神经网络是较先进的数据挖掘分析方法。使用工业数据之前,许多用户不知道期望的目标,并且无法获取更多的数据应用背景知识,可以利用K均值算法构建一个自动聚类分析的大数据模式。比如通过分析后能够自动将工业设计数据划分为高、中、低等档次,企业可以把高档设计案例推荐给用户,促进商务达成。BP神经网络可以通过机器学习获取相关指标关键特征,从而通过网络算法构建一个分类的预测系统,这样可以用于判断日常运行趋势,在设备的智能化健康维护中就较多的应用到这项技术。当前先进的数据分析技术包括以下几个方面:

(1)强机理业务的分析技术。工业过程通常是基于“强机理”的可控过程,存在大量理论模型,刻画了现实世界中的物理、化学、生化等动态过程。另外,也存在着很多的闭环控制、调节逻辑,让过程朝着设计的目标逼近。在传统的数据分析技术上,很少考虑机理模型(完全是数据驱动)、也很少考虑闭环控制逻辑的存在。

(2)低质量数据的处理技术。低质量数据会改变不同变量之间的函数关系,这给工业大数据分析带来灾难性的影响。现实中,制造业企业的低质量数据普遍存在,例如ERP系统中物料存在“一物多码”问题,无效工况、重名工况、非实时等数据质量问题也大量存在。这些数据质量问题都大大限制了对数据的深入分析,因而需要在数据分析工作之前进行系统的数据治理。

工业应用中因为技术可行性、实施成本等原因,很多关键的量没有被测量、或没有被充分测量(时间/空间采样不够、存在缺失等)、或没有被精确测量(数值精度低),这就要求分析算法能够在“不完备”“不完美”“不精准”的数据条件下工作。在技术路线上,可大力发展基于工业大数据分析的“软”测量技术,即通过大数据分析,建立指标间的关联关系模型,通过易测的过程量去推断难测的过程量,提升生产过程的整体可观可控。

二、工业大数据发展趋势 

随着智能制造与工业互联网概念的深入,工业产业进入了新一轮的全球性革命,互联网、大数据与工业的融合发展成为了新型工业体系的核心,工业大数据的应用将带来工业生产与管理环节的极大的升级和优化,其价值正在逐步体现和被认可。

工业大数据是推进工业数字化转型的重要技术手段,需要“业务、技术、数据“的融合。这就要求从业务的角度去审视当前的改进方向,从IT、OT、管理技术角度去思考新的运作模式、新的数据平台、应用和分析需求,从数据的角度审视如何通过信息的融合、流动、深度加工等手段,全面、及时、有效地构建反映物理世界的逻辑视图,支撑决策与业务。因此,工业大数据的发展将呈现以下发展趋势:

(1)数据大整合、数据规范统一。工业企业逐步加强工业大数据采集、交换与集成,打破数据孤岛,实现数据跨层次、跨环节、跨系统的大整合,在宏观上从多个维度建立切实可行的工业大数据标准体系,实现数据规范的统一。另一方面,在实际应用中逐步实现工业软件、物联设备的自主可控,实现高端设备的读写自由。

(2)机器学习,数据到模型的自动建模。在实现大数据采集、集成的基础上,推进工业全链条的数字化建模和深化工业大数据分析,将各领域各环节的经验、工艺参数和模型数字化,形成全生产流程、全生命周期的数字镜像,并构造从经验到模型的机器学习系统,以实现从数据到模型的自动建模。

(3)构建不同领域专业数据分析算法。在大数据技术领域通用算法的基础上,不断构建工业领域专业的算法,深度挖掘工业系统的物理化学原理、工艺、制造等知识,满足企业对工业数据分析结果高置信度的要求。

(4)数据结果通过3D工业场景可视化呈现。进行数据和3D工业场景的可视化呈现,将数据结果直观的展示给用户,增加工业数据的可使用度。通过3D工业场景的可视化,实现制造过程的透明化,有利于过程协同。

三、工业大数据市场纵览

目前,国内外做大数据的厂商主要分为两类:一类是已经具有获取大数据能力的公司,他们利用自身优势地位冲击着大数据领域,并占据着市场主导地位。主要包括IBM、SAP、HPE、Teradata、Oracle、Microsoft等老牌厂商,谷歌、亚马逊、百度、腾讯、阿里巴巴等互联网巨头,以及华为、浪潮、中兴等国内领军企业,涵盖了数据采集、数据存储、数据分析、数据可视化以及数据安全等领域。

另一类是初创的大数据公司,他们针对市场需求,为市场带来创新方案并推动技术发展。国外如专注Hadoop技术的三家公司Cloudera、Hortonworks(两家公司已合并)和MapR(已被HPE收购),以及Palantir、Splunk、Tableau(已被Salesforce收购)等,其中Palantir被称为硅谷最神秘独角兽的大数据挖掘公司,Splunk从日志分析工具起家,当前已成为机器数据分析龙头企业;国内有航天云网、树根互联、石化盈科等一批具有制造基因的企业,他们具有较强数据汇聚能力,还包括星环科技、天云大数据、昆仑智汇、美林数据、东方国信、Kyligence等技术型企业,他们在数据存储、数据建模、分析处理等领域不断突破核心技术。

四、工业大数据产业发展 

工业大数据技术及应用将成为未来提升制造业生产力、竞争力、创新能力的关键要素,是驱动产品智能化、生产过程智能化、管理智能化、服务智能化、新业态新模式智能化,以及支撑制造业转型和构建开放、共享、协作的智能制造产业生态的重要基础,对实施智能制造战略具有十分重要地推动作用。

当前,我国的大数据产业增长迅速,产业规模持续放大。大数据产业主要涵盖三个层次:基础支撑、数据服务和融合应用相互交融,协力构建了完整的大数据产业链。

基础支撑是整个大数据产业的核心,它提供了大数据产品和服务正常运转所需的多样化软硬件资源,包括大数据存储管理系统、大数据网络和计算等系统资源管理平台,大数据管理平台,以及大数据相关硬件设备等。其中,大数据存储、网络和计算相关的软硬件产品和服务,为海量数据的存储、传输和分析挖掘奠定了坚实基础,代表厂商有专注Hadoop发行版的星环科技、红象云腾和天云大数据,传统数据库厂商人大金仓和南大通用,研发新型分布式数据库的巨杉数据库、PingCAP等,以及华为、联想、浪潮、中兴等硬件厂商。

数据服务是围绕各类应用和市场需求,提供辅助性的服务,包括前端的数据采集、中端的流处理、批处理、即时查询、数据分析和数据挖掘,末端的数据可视化,以及贯穿始终的数据安全。这一层通常与上层融合应用相伴,同时也可作为独立的环节提供技术服务。由于数据服务层覆盖了数据处理各个流程,积极布局各个细分领域的厂商也较多。例如在商业智能领域有阿里云,其Quick BI是第一个入选Gartner数据分析和商业智能领域的中国产品,还包括永洪科技、帆软和亦策等;数据可视化领域的海智BDP、海云数据、数字冰雹相对领先;在数据安全领域有网智天元、安恒信息、明朝万达等。

融合应用是大数据产业的发展重点,主要包含了通用性的营销大数据,以及与行业紧密相关的各类细分领域整体解决方案。在大数据应用市场,一种厂商致力于为企业提供大数据驱动的数字营销解决方案;另一种厂商则基于自身在数据技术的积累,结合不同行业的属性和需求,向客户提供具有行业特色的整体解决方案,在这一细分市场,布局的厂商众多,例如以阿里巴巴、百度、腾讯、人大金仓、浪潮、曙光、南大通用为代表的互联网企业、云计算和数据库厂商纷纷加大应用推广力度,在国际先进的开源大数据技术基础上,形成各自的大数据平台、和应用服务解决方案,以支撑不同行业不同领域的专业化应用;还包括昆仑数据、美林数据、百分点等厂商,也均形成了面向不同行业/领域的大数据应用,如百分点已推出了基于大数据的智能营销、基于大数据的智能供应链、基于大数据的智能工厂、基于大数据的智能物联网这四大智能场景解决方案。

随着大数据技术与开源社区的不断成熟,为数据技术向工业界渗透提供了必要的条件,同时也为高端制造企业提供了巨大的市场机会。近年来,国际知名工业企业、软件公司和科研机构纷纷研发面向制造业转型升级的大数据产品和系统。

美国通用电气(GE)公司联合Pivotal向全球开放工业互联网云平台Predix,将各种工业资产设备接入云端提供资产性能管理(APM)和运营优化服务;丹麦维斯塔斯(Vestas)公司联合IBM基于Big Insights大数据平台分析气象、传感器、卫星、地图数据支持风场选址、运行评估等工作;德国西门子公司面向工业大数据应用,整合远程维护、数据分析及网络安全等一系列现有技术和新技术,推出Sinalytics数字化服务平台,作为其实现工业4.0的重要抓手;德国SAP公司开发了面向物联网应用和实时数据处理的HANA大数据平台,并利用其在传统企业信息化ERP系统上的优势,推动HANA与信息化系统的集成;美国航空航天局(NASA)对外开放自身数据,帮助进行火星8生命探测和天文观测等。此外,硅谷新兴创业公司也在积极投入工业数据的技术和产品研发,典型代表有Uptake Tech公司,为建筑、航空、采矿行业提供分析与预测软件服务。






提交成功!非常感谢您的反馈,我们会继续努力做到更好!

这条文档是否有帮助解决问题?

非常抱歉未能帮助到您。为了给您提供更好的服务,我们很需要您进一步的反馈信息:

在文档使用中是否遇到以下问题: