Acta Veterinaria et Zootechnica Sinica ›› 2024, Vol. 55 ›› Issue (6): 2281-2292.doi: 10.11843/j.issn.0366-6964.2024.06.001
Jing LI1,2(), Yuanxu ZHANG1,2, Zezhao WANG2, Yan CHEN2, Lingyang XU2, Lupei ZHANG2, Xue GAO2, Huijiang GAO2, Junya LI2, Bo ZHU2,*(), Peng GUO1,*()
Jing LI, Yuanxu ZHANG, Zezhao WANG, Yan CHEN, Lingyang XU, Lupei ZHANG, Xue GAO, Huijiang GAO, Junya LI, Bo ZHU, Peng GUO. Research Progress in Machine Learning Genomic Selection[J]. Acta Veterinaria et Zootechnica Sinica, 2024, 55(6): 2281-2292.
Table 1
Application of other ML methods in GEBV"
机器学习模型 Machine Learning method | 技术特点 Technical feature | 物种 Species |
EN[ | 综合了RR和LASSO两种模型,通过参数调节RR和LASSO在EN中影响比重 | 华西牛 |
KcRR[ | 利用余弦核函数替换岭回归核函数 | 华西牛、火炬松 |
KNN[ | 使用欧几里得距离表示个体间SNP的距离,选取最近邻的K个个体估计育种值 | 奶牛 |
WhoGEM[ | 在GS中加入位置信息作为协变量帮助获取混合物成分的最优值用于GS的预测 | 截形苜蓿 |
KAML[ | 通过整合伪QTN作为协变量和优化的性状特异性随机效应扩展LMM;选择具有显著效应的SNP作为协变量构建亲缘关系矩阵,根据效应大小为SNP分配不同权重; 所有未知参数通过交叉验证、多元回归、网格搜索和二分算法等进行优化 | 牛、马、玉米 |
DVR[ | 利用GP预测相关性状基因组育种值,结合DVR模型、基因组数据、环境数据估计目标性状基因组育种值 | 日本粳稻 |
NB[ | 利用先验概率形构成简单贝叶斯网络; 利用简单贝叶斯网络估计育种值 | 荷斯坦牛 |
KBMF[ | 利用KBMF(核化贝叶斯分解)预测未来生长季节天气条件,实现目标性状的基因型-环境互作效应的育种值估计 | 大麦 |
Table 2
Comparison of performance of various convolution neural network models"
模型 Model | 数据集 Data set | 性状 Trait | 试验结果 Experimental results |
DeepGS[ | Wheat2000 | 粒长、千粒重等8种性状 | 准确度指标,粒长性状的DeepGS(0.745)高于FNN(0.378)。平均归一化贴现累积增益值指标,DeepGS在8个性状的结果范围58.98%~445.71%,比传统神经网络高27.70%~246.34;比RR-BLUP高1.44%~65.24% |
DNNGP[ | Wheat599 | 四种不同地点下的产量性状 | 准确度方面,在4种环境下的结果中,DNNGP值最高。在环境1-4中,比GBLUP高64.7%、65.9%、164.2%和61.5%;比LightGBM高36.3%、53.2%、37.2%和38.5%;比SVR高1.4%、14.7%、1.6%和1.5% |
Wheat2000 | 千粒重、试验重等7种性状 | 准确度分别比GBLUP、LightGBM、SVR、DeepGS和DLGWAS高234.2%、2.5%、48.9%、16.8%和8.2% | |
Maize1401 | 每穗粒数、每穗粒重、花药日期、PH值 | 平均准确度而言,SVR最优,DNNGP次优。DNNGP比LightGBM、DeepGS和DNNGP高48.6%、75.1%和167.0%。DNNGP和SVR在花药日期性状的准确性相同,在每穗粒数性状性状中比SVR高12.94% | |
DualCNN (DLGWAS)[ | Soybeans | 产量、油脂、高度、水分、蛋白质 | DualCNN比DeepGS、singleCNN、rrBLUP、BayesA、BL、BRR的准确度分别高2%、2.4%、2.4%、0.7%和1% |
ResGS[ | Wheat599 | 四种不同地点下的产量 | 就准确度而言,在1,2,4环境中比FNN、DeepGS和GBLUP高4.06%~101.59%、2.24%~130.83%和1.71%~107.21%;在环境3中比FNN和DeepGS高20.47%和1.76%,比GBLUP低1.3% |
ResGS[ | Rice413 | 蛋白质含量、种子长度等6种性状 | 平均准确度而言,ResGS结果最高(0.75);DNNGP(0.71)次之;RRBLUP、SVR、RF和GBR的结果范围0.61~0.65 |
Rice395 | 直链淀粉含量、种子长度 | 直链淀粉含量性状,ResGS(0.94)、DNNGP(0.83)、RF(0.89)和GBR(0.88);种子长度性状,ResGS(0.84)、DNNGP(0.85)、RF(0.89)和GBR(0.88) | |
Maize301 | 授粉天数、穗直径、穗高 | 平均预测准确度而言,ResGS和DNNGP比RRBLUP、SVR、RF、GBR高10%以上;单性状而言,ResGS的准确度分别为0.78、0.65和0.56;DNNGP分别为0.78、0.62和0.57 | |
SoyDNGP[ | Soybeans | 株高、含油量等7种性状 | 平均预测准确度而言,DNNGP与SoyDNGP相差约5%;均方误差而言,SoyDNGP比DNNGP高10% |
Cotton1039 | 铃重等5种性状 | SoyDNGP的准确度范围约为0.50~0.70;DNNGP约为0.49~0.69在Mazize、Tomato中DNNGP略高于SoyDNGP;在Cotton、Rice中SoyDNGP略高于DNNGP | |
Rice1765 | 茎长等5种性状 | ||
Mazize508 | 穗高等5种性状 | ||
Tomato214 | 茎长、抽穗天数等5种性状 |
Table 3
GS parameter optimization methods in machine learning"
模型 Model | KRR[ SVR[ | MLP[ CNN[ | QMTSVR[ | CNNGWP[ | MSXFGP[ |
优化方法 Hyper Parameter Optimization | 树结构-贝叶斯优化 TPE[ | 差分进化 DE[ | 遗传算法 GA[ | 贝叶斯优化 BO[ | 麻雀算法 SSA[ |
优化的超参数 Optimized Hyperparameter | SVR和KRR核函数 Gamma值 Alpha值 K值 | 激活函数 隐层数 神经元个数 批次 Epoch值 Dropout值 L2值 | ρ值 核宽带 C值 | 卷积核个数 核大小 L1值 | 学习率 树最大深度 子节点最小权重 样本子样本比例 列样本子样本比例 |
Table 4
Performance comparison of various regularized neural networks"
神经网络 Neural networks | 正则化 Regularized | 物种 Species | 性状 Trait | 试验结果 Experimental results |
BRANN[ | 贝叶斯 | 安格斯牛 | 大理石花纹评分 | BRANN的SSE约为传统的 SCGANN的40%至50% |
ABNN[ | Dropout、L1、贝叶斯 | 猪 | t3 (h2=0.38) | 不同权重衰竭下ABNN的MSE范围0.8653~0.8688、GBLUP(0.8759)、BLASSO(0.8741) |
RBFNN[ | BRF函数 | 玉米 | 雌雄性开花、粮食产量等21种性状 | 平均准确性而言,RNFNN(0.547)、RKHS(0.553)、BL(0.542) |
PNN[ | 竞争函数 | 玉米 | 在高产环境下、水源充足下的产量等16种性状 | AUC而言,上层和下层(15%和30%)和中层(40%和70%)类别中选择的性状,PNN结果优于浅层MLP |
小麦 | 在干旱下的产量、全灌床下的抽穗期天数等17种性状 |
