一种钙钛矿电池修饰层材料的筛选方法

文档序号:37756046发布日期:2024-04-25 10:42阅读:8来源:国知局
一种钙钛矿电池修饰层材料的筛选方法

本技术涉及钙钛矿太阳能电池领域,特别涉及一种钙钛矿电池修饰层材料的筛选方法。


背景技术:

1、铵盐材料在钙钛矿电池中的应用具有广阔前景。钙钛矿电池作为一种新型再充电电池,因其长循环寿命、快充放电速率和高功率密度等优点,在新能源汽车、大规模能源存储等领域展现出巨大应用潜力。而铵盐的引入可以有效增强钙钛矿材料的导电性、活性、稳定性等性能。因此,准确高效筛选钙钛矿电池修饰层的铵盐材料,对实现钙钛矿电池的实际应用具有重要意义。

2、目前,筛选合适的钙钛矿电池修饰层铵盐材料主要通过经验判断与少量实验验证的方式进行,这种方法依赖专家经验,筛选样本量小,无法进行高通量实验与数据积累,导致筛选结果的精度难以保证,无法满足钙钛矿电池大规模应用对修饰材料数量与性能的需求。因此,如何建立高效、准确的钙钛矿电池修饰层铵盐材料筛选方法,成为一个急需解决的技术问题。

3、在相关技术中,比如中国专利文献cn115579089a中提供了一种基于机器学习的理想带隙钙钛矿材料筛选方法,包括采集有机无机杂化钙钛矿材料实验带隙数据,利用钙钛矿本征特征构建特征池,计算特征间皮尔逊相关系数剔除相关性强的冗余特征,再利用梯度提升回归树算法对剩余特征进行重要性排序,按排序顺序进行迭代学习以筛选模型精度最高时的最优子特征组合,通过最优子特征构建基于梯度提升回归算法和符号回归算法的机器学习带隙预测模型。但是该方案中使用了皮尔逊相关系数来剔除高度相关的冗余特征。然而,仅依赖相关性系数剔除特征可能会导致丢失对预测有用的信息。如果特征选择方法不够全面或存在局限性,可能会排除实际对预测有贡献的特征,影响模型的表现。因此该方案的模型精度有待进一步提高。


技术实现思路

1、1.要解决的技术问题

2、针对现有技术中存在的铵盐材料筛选精度低的问题,本技术一种钙钛矿电池修饰层材料的筛选方法,通过构建铵盐样本数据库和机器学习等,提高了铵盐材料的筛选精度。

3、2.技术方案

4、本技术的目的通过以下技术方案实现。

5、本说明书实施例提供一种钙钛矿电池修饰层材料的筛选方法,包括:通过收集文献构建铵盐数据库。具体的,确定构建数据库的铵盐种类范围:包括烷基铵盐、芳基铵盐、杂环铵盐等;制定文献收集范围:web?of?science,ieee,pubmed等数据库,时间跨度2010-2022年;文献收集:在设定数据库中用“ammonium?salt”“perovskite?solar?cell”等关键词检索相关文献;下载收集涉及数据库构建范围内的铵盐种类的文献;数据提?。捍邮占奈南字?,提取文中报道的修饰层铵盐的化学名称、化学结构式、cas号等信息,以及采用该铵盐时测量得到的太阳能电池的开路电压、短路电流密度、填充因子、转换效率等j-v曲线参数。数据清洗:删除重复数据,检查数据正确性,获得清洗后的铵盐信息表格;数据库构建:将清洗后的铵盐信息及其对应的太阳能电池性能参数导入mysql数据库中,设计数据库表结构,完成数据库的建立。数据库更新:每3个月定期检索新文献,提取新报道的铵盐信息及性能参数,更新数据库。根据数据库中铵盐的电子供受性质和电荷密度特征,选择铵盐候选材料。

6、基于构建的铵盐数据库,分别提取铵盐分子结构特征、电荷分布特征和铵盐作为修饰层时钙钛矿电池的功能转换效率,构建铵盐样本特征集和功能转换效率标签,作为模型训练数据集;其中,分子结构特征提?。菏褂没杌嫒砑?,绘制数据库中各铵盐的分子结构二维图;应用基于图论的分子指纹算法,提取每个铵盐分子的拓扑结构特征,构成分子结构特征矩阵;电荷分布特征提?。菏褂昧孔踊砑?,对每个铵盐分子进行几何优化;进行密度泛函理论计算,得到各铵盐分子的电子密度分布;提取氮原子上的电荷密度特征,构成电荷分布特征矩阵;功能转换效率获?。捍游南字惺占黠а巫魑祁芽蟮绯匦奘尾闶钡墓δ茏恍适?;

7、构建样本特征集和标签:将上述得到的分子结构特征矩阵、电荷分布特征矩阵以及转换效率,整合成铵盐样本特征集合和铵盐功能转换效率标签,作为后续建模的训练集。安装rdkit化学工具包,导入铵盐分子结构文件到rdkit中;利用rdkit提供的分子描述符提取函数,对每个铵盐分子计算获得以下分子描述符:原子数量、氢键供体/受体原子数、分子量、拓扑极性表面积tpsa值、可旋转键数、拓扑复杂度指数、信息论复杂度指数、分子对接指标、原子数。将提取得到的铵盐分子描述符矩阵作为特征变量输入;将文献报道的铵盐修饰层对应钙钛矿电池的功能转换效率改进率作为目标变量响应值输入。

8、利用构建的模型训练数据集分别训练随机森林回归模型、梯度提升决策树回归模型、支持向量机回归模型、多层感知机回归模型和高斯过程回归模型;集成训练后的随机森林回归模型、梯度提升决策树回归模型、支持向量机回归模型、多层感知机回归模型和高斯过程回归模型,作为铵盐筛选预测模型;利用集成的铵盐筛选预测模型对候选铵盐材料进行筛选预测,获取功能转换效率最高的铵盐材料。

9、具体地,将构建得到的铵盐样本特征矩阵进行标准化;将功能转换效率标签进行归一化处理;将数据集分割成训练集、验证集和测试集。单模型训练:运用随机森林回归算法进行模型训练和参数调优,获得随机森林预测模型m1;运用gbdt回归算法进行模型训练和参数调优,获得gbdt预测模型m2;分别采用svm,mlp和gpr算法获得预测模型m3,m4和m5。模型集成:采用投票集成法,进行各单模型的预测结果融合,得到集成预测模型;对集成模型进行全面性能评估。铵盐筛选预测:输入候选铵盐样本特征,利用训练好的集成模型进行预测;根据预测结果确定功能转换效率最高的顶级铵盐材料。

10、进一步地,基于构建的铵盐数据库,分别提取铵盐分子结构特征、电荷分布特征和铵盐作为修饰层时钙钛矿电池的功能转换效率,构建铵盐样本特征集和功能转换效率标签,作为模型训练数据集,包括如下步骤:采用基于图论的拓扑指纹算法,计算数据库中铵盐的分子图,作为铵盐分子结构特征;其中,导入铵盐分子结构数据,去除非共价键,仅保留骨架原子;为每个分子自动派氢,优化分子构象。构建分子图:确定原子为顶点,共价键为边;通过深度优先搜索遍历分子图,编码原子和键的连接关系。指纹生成:应用路径图算法,提取分子图中所有原子对之间的最短路径;应用环图算法,提取所有环状结构;应用功能团图算法,标识功能团。指纹哈希编码:将上述得到的图特征,转换为固定长度的哈希编码作为指纹。分子描述:将编码后的指纹作为铵盐分子的图论拓扑结构描述符特征。

11、具体地,图论拓扑指纹算法:一种基于对分子图形结构提取特征的分子表示方法。它将分子视为由原子(顶点)和共价键(边)构成的图,通过分析图中的特定拓扑结构模式来生成分子的定长数字指纹,作为该分子的结构描述符。在本技术中,构建分子图-将铵盐分子的原子和共价键关系建模为一个连通图;指纹生成-通过路径图算法、环图算法等,提取分子图中的特定拓扑结构模式,并编码转换为指纹;分子描述-最终得到的图论拓扑指纹,成为表示铵盐分子结构特征的定长数字向量。这样,图论拓扑指纹算法为代表铵盐分子构型提供了一种定量编码的数学工具,可用于后续建模分析。

12、分子图:表示分子结构的一种图模型,将分子中的原子看作图的顶点,共价键看作边,描绘了分子拓扑结构。在本技术中,分子结构预处理:导入铵盐分子结构数据,构建初始的分子图。构建分子图:确定原子为图的顶点,共价键为图的边,编码分子图的连接关系。指纹生成:在分子图的基础上,应用路径图、环图等算法,提取图特征子结构作为指纹。分子描述:最终图论拓扑指纹反映了分子图的全局结构信息,成为表示铵盐分子结构特征的定量指标。综上,在本技术中,分子图为后续指纹提取和分子描述提供了图形学基础,充分反映了铵盐的结构拓扑信息。

13、通过密度泛函算法,计算数据库中铵盐中氮原子的最低未占分子轨道的电子密度分布,作为电荷分布特征;其中,密度泛函理论(dft):一种计算化学方法,用于研究多电子体系的电子结构。它以电子密度函数为基础,通过泛函将能量与电子密度关联,从而预测分子结构、能量等性质。在本技术中,使用dft方法对铵盐分子进行构象优化,得到能量最小的稳定构型?;谟呕蟮墓剐?,应用dft计算每个铵盐分子的电子密度分布。分析dft计算结果,提取氮原子上的电子密度分布作为铵盐的电荷分布特征。电荷分布特征反映了铵盐分子的电子供受性,用于建立修饰层效果预测模型。

14、具体地,选择适当的基组,如6至31g等,以描述铵盐分子的电子结构。通过分子力场方法或量子化学方法得到铵盐分子的稳定构型。使用密度泛函理论方法,对前面步骤的构型进行几何优化,以达到能量最小?;谟呕蟮墓剐?,计算铵盐分子所有占据的分子轨道的能量。继续计算下一高能的虚拟轨道,确定最低未占轨道(lumo)。分析lumo的波函数,提取氮原子上lumo的电子密度分布情况。按照电子密度大小,提取氮原子的电荷分布特征。电荷分布特征可用于表示铵盐分子的电子供受性,建立铵盐修饰层效果预测模型。

15、根据计算得到的铵盐分子结构特征、电荷分布特征和铵盐作为修饰层时钙钛矿电池的功能转换效率,构建样本特征矩阵和样本标签向量,作为模型训练数据集;其中,将基于图论指纹算法提取得到的铵盐分子结构特征,进行定量编码和矩阵转换。将dft计算得到的氮原子电荷分布描述子,进行定量编码和矩阵转换。从文献报道中收集铵盐材料的功能转换效率数据。将编码后的分子结构特征和电荷分布特征按样本顺序横向拼接,形成一个m×n阶矩阵,表示m个铵盐样本的n维特征向量。将收集的功能转换效率数据构建成一个m维向量,表示每个铵盐样本的标签值。以上述得到的样本特征矩阵和样本标签向量作为机器学习模型的训练数据集和标签集。对数据集进行归一化、标准化等预处理,提高模型训练效果?;诠菇ǖ难咎卣骶卣蠛捅昵?,进行铵盐功能效率预测模型的训练。

16、进一步地,构建的样本特征矩阵的行数为铵盐样本数量,列数为铵盐分子结构特征维度和电荷分布特征维度之和;样本标签向量的长度与样本特征矩阵的行数相同,对应各个铵盐样本的功能转换效率;通过随机抽样算法,从构建的模型训练数据集中进行均衡采样,构建模型的训练数据集、验证数据集和测试数据集。

17、具体地,确定样本特征矩阵:其行数为m个铵盐样本数量,列数为分子结构特征和电荷分布特征维度之和n。确定样本标签向量:长度为m,对应各铵盐样本的功能转换效率。构建初始数据集:将m×n的样本特征矩阵和m维标签向量构建成初始的模型训练数据集。

18、设定数据集比例,在本技术中优选的设置:训练集:验证集:测试集=80%:10%:10%;随机抽样:对数据集进行随机排列混淆。根据设定的比例,从混淆后的数据集随机抽取相应比例样本。分层采样:将抽取的样本按类别标签分层。在各层内部再随机抽取样本,使各类别样本数量符合总体类别分布。构建训练集:将分层采样结果的前80%样本作为模型的训练集。构建验证集:将分层采样结果的中间10%样本作为模型的验证集。构建测试集:将分层采样结果的后10%样本作为模型的测试集。返回:通过分层随机采样算法得到类别均衡的训练、验证、测试样本集。

19、进一步地,基于图论的拓扑指纹算法包括路径图算法、环图算法和功能团图算法;路径图算法,提取铵盐分子图中端点间的最短路径作为路径图特征;其中,将预处理后的铵盐分子图建模为无向图g。在图g中,选择具有特定化学意义的原子作为端点,例如含氮原子。针对图g任意两端点i和j,使用dijkstra算法搜索两点之间的最短路径pij。使用路径长度和经过的原子类型、键类型等信息,对每条最短路径pij进行唯一的哈希编码。对所有端点对最短路径集合{pij},整合编码得到端点对路径图特征描述符f_path。将路径图特征描述符f_path作为反映铵盐分子图拓扑结构信息的图特征之一。将提取的路径图特征f_path与其他图特征一起,作为样本输入建立预测模型。

20、环图算法,提取铵盐分子图中所有环路作为环图特征;其中,将预处理后的铵盐分子图建模为无向图g。通过深度优先搜索等算法,枚举无向图g中存在的所有环路。对每条环路,使用环路长度、经过的原子和键类型等信息,生成唯一的编码。对枚举得到的所有环路集合,整合其编码得到环图特征描述符f_ring。将环图特征描述符f_ring作为反映铵盐分子图环状拓扑结构的图特征。将提取的环图特征f_ring与其他图特征一起,作为样本输入建立预测模型。不同的环路会对分子的性质产生不同影响,环图特征能有效描述这些影响。

21、功能团图算法,提取铵盐分子图中功能团的连接关系作为功能团图特征。其中,将预处理后的铵盐分子图建模为无向图g。在图g中,根据预定义的模式识别各类功能团,如氨基、羧基等。将同一分子中不同的功能团作为节点,功能团之间的连接关系作为边,构造功能团连接图。使用功能团类型和连接方式等信息,对功能团图进行编码,得到功能团连接关系描述符f_func。将功能团连接关系描述符f_func作为反映铵盐分子功能团模式的图特征。将提取的功能团图特征f_func与其他图特征一起,作为样本输入建立预测模型。优点:描述了功能团的配位情况,有利于分析分子性质。

22、根据提取的路径图特征、环图特征和功能团图特征,构建铵盐分子的拓扑图矩阵,作为铵盐分子结构特征。其中,利用路径图算法,提取分子图中端点间最短路径的编码描述符f_path。利用环图算法,提取分子图中所有环路的编码描述符f_ring。利用功能团图算法,提取功能团间连接关系的编码描述符f_func。将上述三类图特征描述符,按照样本顺序整合为一个特征矩阵f。特征矩阵f的行表示样本数量,列表示特征维度,f即构成了铵盐分子的拓扑图矩阵。检查矩阵f不包含空值或重复特征??裳《跃卣骹进行0-1二值化或归一化编码处理。将拓扑图矩阵f作为反映铵盐分子拓扑结构的图特征,输入至预测模型中。

23、进一步地,利用构建的模型训练数据集训练随机森林回归模型,包括如下步骤:构建随机森林回归模型,将构建得到的样本特征矩阵和功能转换效率的样本标签向量作为输入,进行模型训练,设置决策树的数量为n1至n2;将样本特征矩阵输入训练后的随机森林回归模型,输出铵盐样本的功能转换效率的预测结果w1。

24、其中,使用sklearn库建立随机森林回归模型rf。在本技术中,优选的,设置决策树数量n=100至500。模型训练:输入:将构建的m行n列样本特征矩阵x和m维标签向量y作为训练数据。训练:调用rf的fit函数,以(x,y)对数据集训练随机森林模型。超参数优化:利用k折交叉验证,优化模型中的最大特征数、最小样本叶节点数等参数。模型预测:输入:将样本特征矩阵x输入训练好的rf模型。输出:调用rf的预测函数,输出预测的功能转换效率结果返回:获得针对输入样本的铵盐功能转换效率的随机森林回归模型预测结果

25、具体地,决策树数量n1和n2可以通过如下方式设置:经验值设定:根据过往经验,预先设置一个经验范围,如n1=100,n2=500。网格搜索:建立不同候选数量{n1,n2,......,}的网格,遍历网格中每个n值,选择交叉验证效果最佳的n作为最终数量。自适应优化:设置一个大范围n1至n2,利用earlystopping等技术,当模型效果不再提升时自动停止增长,获得最优数量。模型评估:设置多个候选数量,比较不同候选数量下模型的评价指标,选择指标最优的数量n。评价指标可以是mse、r2等。特征数量考量:根据样本特征的维数m,设置候选树数量范围为[m/2,2*m],保证模型复杂度适中。计算资源考量:预估不同数量的时间和空间复杂度,在计算边界范围内确定n的上下限。

26、进一步地,利用构建的模型训练数据集训练梯度提升决策树回归模型,包括如下步骤:构建梯度提升决策树回归模型,将构建得到的样本特征矩阵和功能转换效率的样本标签向量作为输入,进行模型训练,迭代次数设置为m1至m2次;在模型训练过程中,按设置的迭代次数,采用提升算法添加决策树作为弱学习器,以减小训练集的数据拟合损失;将样本特征矩阵输入训练后的梯度提升决策树回归模型,输出铵盐样本的功能转换效率的预测结果w2。

27、构建gbdt模型:使用xgboost库建立gbdt回归模型。在本技术中,优选的设置提升迭代次数m=100至200。模型训练:输入,构建的样本特征矩阵x和标签向量y。逐步添加弱学习器:循环m次,每次训练一个决策树,拟合当前负梯度,增量提升模型。损失函数:以平方损失、绝对损失等作为gbdt的损失函数。超参数优化:借助k折交叉验证,优化学习率、树深等超参数。模型预测:输入,未知样本的特征矩阵x。输出:经训练的gbdt模型输出预测的功能转换效率结果返回:获得针对输入样本的铵盐功能转换效率gbdt预测结果具体地,迭代次数设置为m1至m2,m1和m2的设置方式同n1和n2,在此不再赘述。

28、进一步地,利用构建的模型训练数据集训练支持向量机回归模型,包括如下步骤:构建支持向量机回归模型,将构建的样本特征矩阵作为输入,进行模型训练;设置构建的支持向量机回归模型的核函数为径向基核函数k(x,y)=exp(-γ||x-y||^2),其中,x和y表示样本特征矩阵中的样本特征,γ表示核参数,||x-y||表示x与y之间的欧式距离;通过网格搜索算法获取精度高于阈值时对应的径向基核函数中的核参数γ;利用计算得到的核参数γ后的支持向量机回归模型,基于样本特征矩阵拟合铵盐样本的功能转换效率,输出铵盐样本的功能转换效率的预测结果w3。

29、其中,构建svm模型:使用sklearn库建立支持向量机回归模型svm。设置核函数为径向基核k(x,y)。模型训练:输入,构建的样本特征矩阵x。训练:调用svm的fit函数,以x数据集训练svm回归模型。超参数优化:设置核函数的参数搜索范围γ∈[10^-3,10^3]。使用网格搜索法,通过交叉验证评价不同γ的值。选择验证得分大于设定阈值的γ。模型预测:输入,样本特征矩阵x。输出经优化的svm模型,输出预测的功能转换效率结果返回,获得针对输入样本的铵盐功能转换效率svm回归模型的预测结果

30、具体地,本技术采用径向基核函数作为svm回归模型的核函数,径向基核函数可以将非线性分布的样本映射到高维空间,使svc模型拟合复杂的非线性规律。径向基核函数只有一个核参数γ需要调优,简化了模型的复杂度。径向基核函数对各类问题具有通用适应性,可广泛应用于回归与分类任务。采用径向基核可将svm构建为一个凸二次规划问题,保证全局最优解的存在。径向基核不受原始样本规模的影响,对离群点不敏感,增强模型的稳定性。径向基核运算速度快,求解径向基核的支持向量机具有高效的smo算法。径向基核函数与svm结合理论成熟,性能可靠。

31、具体地,使用网格搜索确定svm中的核参数γ的技术方案:设置参数空间:预设径向基核参数的搜索范围,如γ∈[10^-3,10^3]。设置评价指标,指定回归评价指标,如mse、r2等。设置阈值,设定满足精度要求的评价指标阈值。网格搜索,遍历γ取值范围内的各候选参数值。通过交叉验证评估每个γ候选值对应的模型精度。记录第一个使得评价指标高于阈值的γ值。模型选择,选择网格搜索得到的使评价指标优于阈值的核参数γ,构建最终的svm模型。返回值,精度满足要求的svm回归模型对应的最佳核参数γ。

32、进一步地,利用构建的模型训练数据集训练多层感知机回归模型,包括如下步骤:构建多层感知机回归模型,将构建得到的样本特征矩阵和功能转换效率的样本标签向量作为输入,进行模型训练,其中设置l1至l2个隐藏层;通过误差反向传播算法训练构建的多层感知机回归模型;将样本特征矩阵输入训练后的多层感知机回归模型,输出铵盐样本的功能转换效率的预测结果w4。

33、其中,构建mlp回归模型:使用pytorch等库构建多层前馈神经网络。在本技术中,优选的设定l=3至5个隐藏层。模型训练,输入训练数据:样本特征矩阵x和标签向量y。前向传播计算网络输出。计算损失函数,如mse。反向传播更新参数,最小化损失。超参数优化:通过验证集调整层数l,层宽度,学习率等超参数。模型预测,输入测试样本特征矩阵x。前向传播得到预测的功能转换效率返回值,获得针对输入样本的铵盐功能转换效率的mlp预测结果

34、具体地,隐藏层数量l1和l2的设置可以通过以下技术手段:经验值设定,根据过往经验,预设一个隐藏层数量的范围,例如l1=3,l2=5。模型选择,训练几种不同隐藏层数量的mlp,比较验证集上的性能,选择最佳的隐藏层数量l。特征数量匹配,一般可先设置隐藏层节点数为输入特征数量的2至10倍,再迭代优化。逐步构建,从一个隐藏层开始,逐步增加隐藏层数量,直到性能收敛。网格搜索,设置隐藏层数量的候选列表,穷举遍历不同的l,找到验证集上效果最优的。启发式优化,使用遗传算法、贝叶斯优化等启发式算法探索最佳隐藏层数量l。计算资源匹配,评估不同l下的计算消耗,在计算资源边界范围内确定l的上下限。

35、具体地,利用误差反向传播算法训练多层感知机(mlp)回归模型的技术方案:前向传播:输入训练样本特征矩阵x和标签y。经过mlp模型前向计算,得到输出值loss函数:计算损失函数,例如采用均方误差mse(y,)。反向传播,计算损失函数关于网络参数的梯度。根据链式法则逐层反向传播,迭代更新权重参数。优化方法,采用sgd、momentum等优化算法,辅以学习率衰减。超参数设置,调节学习率、迭代轮数等超参数。返回值,经过反向传播算法优化的参数,构建好的mlp回归模型。

36、进一步地,利用构建的模型训练数据集训练高斯过程回归模型,包括如下步骤:构建高斯过程回归模型,设置模型核函数为马太效应核函数;输入构建得到的样本特征矩阵和功能转换效率的样本标签向量,导入设置了马太效应核函数的高斯过程回归模型中进行训练;训练过程中,通过最大化边缘似然函数优化高斯过程回归模型的超参数;将样本特征矩阵输入训练优化后的高斯过程回归模型,输出铵盐样本的功能转换效率的预测结果w5。

37、其中,构建gpr模型:使用gpy库构建高斯过程回归模型。设置核函数为马太效应核。模型训练:输入样本特征矩阵x和标签向量y。计算先验高斯过程分布。最大化边缘对数似然,获得后验分布。超参数优化,通过梯度上升算法最大化边缘对数似然。优化核函数的长度尺度和方差等超参数。模型预测,输入测试样本特征矩阵x。根据后验分布预测功能转换效率返回值,针对输入样本得到的gpr模型预测结果

38、具体地,马太效应核函数(matérnkernelfunction):一类广义的定标核函数,由贝塞尔函数与距离r的乘积构成,形式为:k(r)=σ2*f(r/l)*exp(-r/l);其中,σ2为信号variance,l为长度尺度参数,f(r/l)为下列贝塞尔函数之一:v=1/2时,f(r/l)=exp(-r/l);v=3/2时,f(r/l)=(1+r/l)*exp(-r/l);v=5/2时,f(r/l)=(1+r/l+r^2/3l^2)*exp(-r/l);在本技术中,设置高斯过程回归模型gpr的核函数为马太效应核,主要应用在最后一步“模型预测”中,根据优化后的后验高斯过程分布,基于马太效应核函数计算输入样本之间的协方差,并进而得出预测输出马太效应核的优点是更加灵活,可以表示不同平滑性的函数,适用于拟合更加复杂的样本分布,因此用于提升gpr模型的预测性能。

39、具体地,最大化边缘似然函数(maximummarginallikelihoodestimation):它是一种类型ii最大似然估计,通过最大化模型边缘似然来估计模型中的超参数。在高斯过程回归模型gpr中,最大化边缘似然函数应用在训练过程的第3步“超参数优化”:计算先验高斯过程的边缘似然,表达为目标函数l(θ)。通过梯度上升算法最大化l(θ),得到一组使先验分布最大的超参数θ。这组θ即为核函数参数(方差、长度尺度)和噪声变量的优化估计。带入优化的θ构建后验高斯过程,完成模型的训练。最大化边缘似然函数可以避免需要验证集,提供一种直接且有效的方法来学习模型的超参数,因此可有效提升gpr模型的预测性能。

40、进一步地,集成训练后的随机森林回归模型、梯度提升决策树回归模型、支持向量机回归模型、多层感知机回归模型和高斯过程回归模型,作为铵盐筛选预测模型;包括如下步骤:构建集成回归模型,采用投票法作为模型的组合方式;将训练完成的随机森林回归模型、梯度提升决策树回归模型、支持向量机回归模型、多层感知机回归模型和高斯过程回归模型,导入构建的集成回归模型中;输入同一组铵盐样本特征矩阵到集成模型中的各个单模型,得到每个铵盐样本的功能转换效率的预测结果;对每个铵盐样本,统计各个单模型的预测结果,将预测结果分类为高、中和低三个等级,按分类等级计算每个等级的模型投票数;选择高、中和低三个类别中得到模型投票数最多的类别,作为对应铵盐样本的最终的预测功能转换效率。

41、其中,构建集成模型:导入训练好的5个单模型:rf、gbdt、svm、mlp、gpr;设置集成方式为投票法;样本预测:输入同一组样本特征矩阵到5个单模型,分别预测得到5个结果。结果整合:设置3个等级区间,将每个模型的预测结果分为高中低3类。统计每个样本的每类结果的模型投票数。最多投票的类即为样本的最终预测结果。模型收益:集成不同原理的单模型,可以减小方差和偏差。投票法可以弥补个别模型的错误预测。返回值:每个铵盐样本功能转换效率的集成模型预测结果。

42、具体地,采用投票法进行模型集成:个体模型预测:将同一数据集分别输入到rf、gbdt、svm、mlp、gpr等个体模型中,得到每个样本的预测结果。预测整合:将个体模型对同一样本的预测结果收集对比。设置三个区间,将预测结果分为高、中、低三类。统计每个模型对该样本的分类结果,进行计数。比较每个类别的投票数,选择得到模型投票数最多的类别。若有2个以上类别得票相同,随机选择一个类别。得到该样本的结合预测结果,对应于得票最多的类别。重复上述步骤,得到所有样本数据集的集成预测结果。

43、3.有益效果

44、相比于现有技术,本技术的优点在于:

45、(1)通过构建大规模的铵盐材料数据集,并利用机器学习训练回归模型,本技术实现了对铵盐功能转换效率的定量预测;相比于仅依赖经验判断或小规模实验筛选的传统方法,这种定量预测使得对铵盐材料性能的科学预测与评估成为可能,为材料选择提高了预测精度;

46、(2)本技术集成了随机森林、gbdt、svm、mlp、gpr等各种机器学习模型。这些模型基于不同的原理和算法,具有不同的适应性;集成这些模型有助于提高回归任务的预测力和鲁棒性。每个模型对样本的适应性不同,通过集成可以更全面地利用各模型的知识,从而提高了对铵盐功能转换效率的预测准确度;

47、(3)在个体模型预测的基础上,本技术采用了类别型投票法进行决策融合。相较于传统的平均法,投票法考虑了各模型对不同样本的适应性异质性;这意味着投票法更全面、准确地考虑了各个模型的贡献,特别是在处理样本适应性差异较大的情况下,能够显著提高材料筛选的准确率。通过投票法的决策融合,能够更好地捕捉各个模型的优势,从而实现更为可靠和准确的铵盐材料功能转换效率预测。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im