【佳文推荐】侯自兵:基于连铸生产大数据的热轧卷质量预测模型
板坯热送热装或连铸连轧技术逐渐被慢慢的变多的钢厂采用,然而其逐步发展受到连铸坯质量的制约。故针对连铸坯缺陷的有效判断可避免存在质量上的问题的铸坯进入轧制环节,以此来降低额外的能耗。基于对铸坯质量的在线检测困难这一问题,从生产大数据的角度建立了板坯热轧卷的质量预测模型。首先是根据正常与缺陷产品高度不平衡的数据特点,提出了相关性分析、不平衡数据随机分类与主成分数据降维三者相结合的数据预处理方法,随后选择GA-BP神经网络算法构建了针对低碳钢、包晶钢和中碳钢的热轧卷质量预测模型。预测模型具有较高的准确率,其中低碳钢模型总体预测准确率达到94.7%,缺陷预测准确率为82.8%;包晶钢模型总体预测准确率达到93.3%,缺陷预测准确率为87.5%;中碳钢模型总体预测准确率为85.4%,缺陷预测准确率为87.3%。最后,基于Python语言编写了热轧卷质量在线预测软件,可对热轧卷质量进行实时预测,方便快速地溯源缺陷发生原因。
目前全世界的连铸比已超过95%,中国的连铸比更是高达98%以上,是最主流的钢水凝固成型方式,与连铸工艺相匹配的热装热送或连铸连轧工艺因具备能耗低和流程紧凑的特点也逐渐被慢慢的变多的钢企广泛采用。高的连铸比需要连铸车间提供质量更优的连铸坯以保证钢铁企业更高的经济效益。然而,在现有的连铸生产条件下,总是难以避免地产生铸坯缺陷。若直接对这些有缺陷的铸坯进行轧制,则缺陷会遗传到轧材中并表现为表面翘皮、夹渣以及裂纹等缺陷,既影响企业正常生产流程又导致额外的能源消耗,这限制了热装热送率的进一步提升。因此,提前对铸坯质量做准确地判断有利于对连铸参数实施针对性控制并减少轧材缺陷,对于钢铁企业节能降耗目标的实现有着重要意义。
针对铸坯缺陷的在线判断,现场主要从两方面做:一是物理检测的手段;二是专家系统。物理检验测试手段包括CCD摄像头检测的新方法和涡流检测法等,但这类方法的缺陷识别准确度总是受限于高温铸坯、氧化铁皮以及现场环境等因素的影响。另外,这些检测设备只能对铸坯表面缺陷进行判断而无法检测内部缺陷。对于专家系统而言,其是通过应用领域内专家积累的经验根据实际生产条件进行判断,预测的结果局限于原有知识;然而铸坯缺陷的产生是多因素的非线性作用结果,仅依靠特定因素进行判断的准确性难以满足日益增加的判断准确率的需求。近年来,随工业互联网及人机一体化智能系统的发展,大数据分析技术在工业生产里产品性能及质量预测有大量应用,然而,由于连铸坯质量在线检测较为困难;同时连铸环节生产的板坯多是采用热装热送工艺进行轧制,故缺乏连铸板坯的质量信息,难以建立有效的铸坯质量预测模型。铸坯缺陷经过轧制会遗传至热轧卷中形成表面相关缺陷,但目前热轧厂提供的丰富轧材质量信息往往只是用于个别样本质量上的问题的溯源。随信息采集技术的发展,轧制生产能够区分连铸过程引起的缺陷,因此可尝试利用连铸生产大数据与热轧卷质量信息建立热轧卷质量预测模型。
本文基于连铸生产的全部过程大数据以及热轧产品质量信息,针对正常与缺陷产品高度不平衡的数据特点,首先从现场采集数据入手,搭建了连铸参数-热轧质量信息数据库,并针对生产大数据自身的特点,建立了预测模型原始输入特征预处理及样本选择方法;随后对不同钢种热连轧生产数据分别建模,构建了基于遗传算法的BP神经网络预测模型;最后,根据建立的热轧卷质量预测模型,基于Python语言编写了适用于不同钢种的热轧卷质量预测软件。通过调用神经网络程序代码,可以便捷地利用连铸过程工艺参数数据对热轧卷质量进行实时预测,方便快速溯源缺陷发生原因。
针对实际热装热送生产的全部过程的大数据,构建了数据预处理及热轧卷质量预测方法流程图,结果如图1所示。首先从热轧车间的热轧卷质量信息数据库中筛选出连铸责任归属的样本,并结合连铸车间现场的生产参数构建连铸参数-热轧卷质量信息数据库。然后对上述数据库进行数据预处理,包括连铸工艺参数自身的相关性分析、热轧卷缺陷信息不平衡数据分类以及数据降维。将预处理后的数据作为热轧卷质量预测模型的输入,并采用遗传算法对BP神经网络算法来优化,最终实现热轧卷质量的有效预测。最后,利用Python语言编写不同钢种的热轧卷质量预测模型,可用于实现热轧卷质量在线数据库搭建
现场采集的数据包括连铸过程从钢包、中间包至结晶器等方面的42个参数(其中含各参数的设定值),具体工艺参数实际值名称(共包含25个工艺参数)见表1。在数据库构建及预测模型的建立过程中,由于板坯连铸缺陷主要产生于钢水初始凝固阶段即结晶器及以上环节,故未对二冷相关参数加以考虑。同时,由于生产参数随浇铸钢种而变化,且不同钢种的缺陷类型及缺陷数量也有很大差异,在本研究中对钢种进行分类,包括低碳钢、包晶钢和中碳钢3类。
表2所示为不同钢种热轧卷缺陷的种类及数量。其中,低碳钢样本共31 339个,缺陷占比为1.09%;包晶钢样本共5 860个,缺陷占比为0.78%;中碳钢样本共4 305个,缺陷占比为1.53%。能够准确的看出,热轧卷中合格产品集合为多数类,缺陷产品集合为少数类,缺陷产品占全部产品总量的比例不到3%,可见实际生产的全部过程的数据为高度不平衡数据。高度不平衡类数据的预测分类是工业难题,不平衡的数据导致建模的分类器倾向于过拟合,尤其是在少数类上表现不佳。在热轧卷合格率在95%以上时,直接引发无法准确预测出缺陷产品。因此本文针对这种数据集应用欠采样的方法合理减小无缺陷热轧卷样本量,从而减小缺陷样本数和正常样本数量的差别,具体实现在1.2节进行介绍。欠采样后的各钢种不同缺陷的数量及比例见表2。
采用Pearson相关系数计算得到连铸参数之间相关系数热图来反映参数之间的相关程度,结果如图2所示。图中椭圆的长宽比为两个参数之间的相关程度大小(长宽比越大,相关性越强),椭圆倾斜的方向为正相关或负相关(向右上方倾斜为正相关,向右下方倾斜为负相关)。从图中能够准确的看出,连铸结晶器各面水流量与热流呈现较好的正相关,是因为结晶器传热特征决定了热流与各面水流量的关系。除此之外,其他参数相互之间的正相关性或负相关性并不是很明显,而是存在轻微的偏相关,这表明在后续分析的研究中,可以将某些相关性较强的参数进行合并处理,从而为后续神经网络训练模型提供更好的输入。本方法采用主成分分析对原始输入参数进行降维,最大限度降低原始数据的信息冗余,从而提升模型精度。
当两种数据变化趋势相似时,它们包含的信息也相似,通过对参数之间的相关分析可知,部分连铸参数之间具有较强的相关性,相似参数都作为输入会造成信息冗余,造成模型过拟合。主成分分析作为一种高效、实用的降低数据维度的方法,能对复杂的高维连铸数据来进行降维,减少参数相关性带来的信息冗余度。因此本节将通过主成分分析对连铸工艺参数进行降维,以满足神经网络模型输入需要。通过对原始连铸工艺参数进行降维,得到不同钢种各个主成分对参数的累计贡献率,结果如图3所示。按照主成分累计贡献率不低于80%的主成分选取方式,得到低碳钢共8个主成分,包晶钢7个主成分,中碳钢6个主成分。
人工神经网络以其在科学数据中捕捉非线性趋势的可靠能力而闻名。而反向传播神经网络(Back Propagation Neural Network,简称BPNN),是一种通过误差反向传播实现误差调整的前馈网络算法,旨在最小化由网络计算的输出的总误差(或平均误差)。Hormik K等已证明一个三层的BP神经网络可以精确逼近任何一个非线性函数,所以本文采用一种三层的BP神经网络研究热轧卷质量预测问题。在本文中,将原始数据集约80%的样本用于训练,其余样本做测试。同时,将有缺陷样本定义为1,无缺陷样本定义为0,且均为无量纲数值。训练结束后将模型结果四舍五入后与实际值比较,结果一致则准确预测,否则判定为未准确预测。根据主成分分析选取的各个钢种的主成分变量,低碳钢、包晶钢、中碳钢网络输入层神经元数分别选为8个、7个和6个;模型输出为缺陷的发生情况,网络输出层神经元数为1。对于隐含层,根据公式(1)计算隐含层神经元数范围。
式中:m为隐含层神经元数,n为输入层神经元数,l为输出层神经元数,a为1~10之间的常数。计算得到隐含层神经元数范围为5~13,并通过试错法最终确定隐含层神经元数。模型数据集分为训练集及测试集两部分,根据训练测试结果选取准确率最高的隐含层神经元数。通过调整隐含层神经元数构建神经网络,从而确定其拓扑结构。对于低碳钢模型,当隐含层神经元数m为6时,网络在训练测试集上展示出最高的准确率,为91.52%;对于包晶钢模型,隐含层神经元数m为10时,网络在训练测试集上展示出最高的准确率,为92.11%;对于中碳钢模型,当隐含层神经元数m为8时,网络在训练测试集上展示出最高的准确率,为90.63%。因此,确定各个钢种模型结构分别为8-6-1、7-10-1和6-8-1。具体神经网络模型参数见表3。
在数据预处理以及网络拓扑结构确定之后,由于在BP神经网络算法中初始传递权值是随机的,所以在训练时神经网络模型容易在误差最小处收敛,从而陷入局部最优化,很难达到全局最优。未解决BP神经网络容易陷入局部最优化的问题,在BP神经网络中主要使用遗传算法来优化连接权值,克服局部最优化的问题。本文采用遗传算法(Genetic algorithm)优化BP神经网络连接权值算法的流程如图4所示。
遗传算法的种群大小、遗传代数、交叉概率和突变概率等参数对神经网络的精度和收敛速度有一定的影响。一般来说,种群中的个体数量在[20,100]的范围内。终止演化代数在[100,500]之间;交叉概率通常在[0.4,0.99];突变概率通常在[0.000 1,0.1]的区域,每个权重或阈值将被编码为具有10位数字的二进制数字。训练样本采用GA-BP模型进行训练,记录每个种群中最优个体的适应度值,适应度值最初随着遗传代数的增加而迅速增加。当遗传代数达到40时,适应度值保持在接近0.95。因此,遗传代数能适当地设置为50。表4所示为GA-BP模型的参数。
为了评估预测模型的性能,采用了平均绝对误差(Mean Absolute Error,简称MAE)、平均绝对百分比误差(Mean Squared Error, 简称MSE)和均方根误差(Root Mean Squared Error, 简称RMSE)等模型评估指标。为了尽最大可能避免正负相抵消,取误差的绝对值做综合并取其平均数,平均绝对误差MAE是误差分析的综合指标法之一。MSE为平均绝对百分比误差,一般MSE越小时,其预测精度较高。均方根预测误差RMSE代表了预测值的离散程度,其越接近0预测精度越高。
为了更好地描述模型对热轧质量的预测结果,训练结束后将模型结果四舍五入后与实际值比较,结果一致则准确预测,否则判定为未准确预测,模型预测准确率(Accuracy Rate,简称AR)为预测准确的样本个数与总样本个数之比,且由于样本分布不平衡的特点,更加关注对缺陷样本的预测准确率,故引入缺陷预测准确率(False Accuracy Rate,简称FAR)作为模型评价指标。
图5所示为低碳钢 GA-BP模型预测结果,测试集共342个样本,测试集中缺陷样本数为40个,测试结果四舍五入取整后,共324个准确命中,总体预测准确率达到94.7%,测试集中缺陷样本共命中33个,缺陷预测准确率为82.8%。低碳钢模型评估指标MAE、MSE和RMSE在3个模型纵向对比中均处于最优水平,其中平均绝对误差仅为0.044 5,模型具有较高的预测精度。
图6所示为包晶钢GA-BP模型预测结果可知,测试集共30个样本,测试集中缺陷样本数为8个,测试结果四舍五入取整后,共28个准确命中,总体预测准确率达到93.3%,测试集中缺陷样本共命中7个,缺陷预测准确率为87.5%,在纵向对比中,包晶钢预测模型的缺陷预测准确率最高,较低碳钢预测模型高5%,较中碳钢预测模型约高10%。
图7所示为中碳钢GA-BP模型预测结果,测试集共48个样本,测试集中缺陷样本数为23个,测试结果四舍五入取整后,共41个准确命中,总体预测准确率为85.4%,测试集中缺陷样本共命中18个,缺陷预测准确率为87.3%。相较于低碳钢和包晶钢预测模型,中碳钢预测模型在模型评估指标(MAE、MSE、RMSE)等方面均最高,模型精度相比来说较低。总体而言,针对不同钢种构建的具有不一样拓扑结构的质量预测模型具有相比来说较高的准确率;但同时也发现不同钢种的预测准确率有所差别,这可能是由于样本量差异导致的。
鉴于实际运用中对热轧卷质量检验的便捷性需求与相关模型建立的可操作性,质量预测模型开发应用如图8所示,利用Python语言编写不同钢种的热轧卷质量预测模型,进行热轧卷质量预测模型应用研究。该模型的应用研究最重要的包含了开发工具的选取、模型功能及构成、模型可视化主界面设计和模型参数运算结果等。通过调用编写的神经网络程序代码,根据采集的连铸过程工艺参数数据,实现热轧卷质量的实时预测。本节中利用获得的离线数据对软件的相关功能及界面进行展示。热轧卷质量预测模型的部分界面如图9~图12所示,图9(a)所示为根据钢水成分计算实际碳当量以确定所属钢种,分别输入钢水元素的含量计算碳当量。确定碳当量后,有必要进行钢种查询以匹配不同的钢种模型,如图9(b)所示。确定钢种后,选择对应的要预测的钢种模型,并进行热轧卷质量预测过程的计算。
(1)建立了适用于连铸生产大数据集预测热轧卷质量的数据预处理方法及模型算法。其中,数据预处理综合采用相关性分析、不平衡数据随机分类与主成分数据降维等三类方法;预测模型选用了遗传算法优化神经网络算法(GA-BP模型)。(2)基于连铸工艺参数利用GA-BP神经网络算法对不同钢种热轧卷质量预测效果较为良好。低碳钢模型总体预测准确率达到94.7%,缺陷预测准确率为82.8%;包晶钢模型总体预测准确率达到93.3%,缺陷预测准确率为87.5%;中碳钢模型总体预测准确率为85.4%,缺陷预测准确率为87.3%。
3.【专刊征稿通知】《连铸》2024 年“连铸过程解析研究方法与应用”专刊