本文共 5480 字,大约阅读时间需要 18 分钟。
如分类算法等学习算法的性能 [1] 。特征选择旨在利 三类:过滤式方法、包裹式方法和嵌入式方法 [3] 。 依赖关系)来选择特征 [4] 。这种方法具有很高的计 [5] 。此外,包裹式方法在评价特征子集时会根据不 其中起重要作用 [6] 。但是对于嵌入式方法而言,建 立合适的函数优化模型往往是一项艰巨的任务 [7] 。 特征的数据集,可能的解决方案的总数是 2 n -1 [8] , 最优特征的时间复杂度是 O(2 n ) [9] ,这在大多数情况 选择方法,更换了启发式因子的计算方法,并提出 了一种新的信息素更新思路,将整体的信息素量子 特征选择算法( QPACO )。本文的其余部分如下 : 第一部分介绍相关工作,第二部分介绍基于 QPACO 广泛研究, Xue 等人在文献中指出,最近已经有超 过 500 篇的基于演化计算的特征选择算法发表 [1] 。 得了较为令人满意的结果。如 Rashedi 等人提出了 通过增强传递函数克服停滞问题的 IBGSA [10] , IBGSA 将二进制向量每个位与一个特征相关联,通 Chuang 等人在二元粒子群算法 BPSO 中引入鲶鱼效 应提出了 CatfishBPSO [11] , CatfishBPSO 将局部最优 使用种群中最差的适应值替换 10% 的原始粒子,最 终避免了局部最优,进一步获得了更好的解; Il-Seok BGA [12] ,他们在该算法中设计局部搜索操作并将其 蚁群优化( ACO )是 Dorigo 等人提出的一种演化算 法 [13] 。蚂蚁之间的通信会产生正反馈行为,引导蚁 径的转移概率。 Chen 等人使用这种类型的 ACO 进 行特征选择,提出了 ACOFS [15] , ACOFS 中使用了 F-score 标准作为启发式值,但采用了不同的信息素 更新策略; Kashef 等人提出了一种优化的二进制蚁 群算法 ABACO [16] ,该算法的不同之处在于每个特 QPACO 算法,采用了新的启发式因子的计算方法, 每只蚂蚁已经访问过的节点,每条边的信息素 i , j τ 初 始值为 0 ,蚂蚁依据边上的信息素计算在 t 次迭代 时,蚂蚁 k 从特征 i 移动到特征 j 的概率(公式 1 ): 其中, S 是蚂蚁 k 的禁忌列表; α 是信息启发 和信息素浓度的权重; η i , j 是启发式信息,通常计 ( ix , jy )上的信息素; η i x, j y 反映了边 缘( ix , jy )可取性的启发式信息; α 和 ( 7 ) q 为信息素模拟消失常量, old τ 为原来的 ( 8 ) dead τ 为在该次迭代中生命周期结束的信 迭代( k 次迭代)时的更新量, k - cnt ∆ τ 为 c 是类别的数目, N 是特征的数目; k N i 是 k ( k=1 , 2 , … , C )类中的特征 i ( i=1 , 征 i 的 j ( j=1,2 , … , k N i )次训练样本; i x 是所有类的特征 i 的平均值; ki x 是 k n 是特征的总数,变量 ξ 是 (0,1) 的常数。 Table 2 Pseudo code of QPACO Algorithm QPACO(dataset, dataclass, t_per, 比、迭代次数( dataset, dataclass, t_per, iteration ) 输出:拥有最高适应度的最优特征子集 1. Procedure QPACO 3. 初始化 alpha, beta, T0=0, MinT, MaxT (信息素 5. for i=1 to iteration do 7. 运用公式 6 计算每只蚂蚁在每条路上的选择概 较,其中包括 Catfish BPSO [11] 、二元遗传算法( BGA ) [12] 、改进二元引力搜索( IBGSA ) [10] 、基于蚁群的 特征选择算法 ACOFS [15] 和 ABACO H [18] 、较新颖高 效的改进的森林优化特征选择算法 IFSFOA [19] 和二 元蝴蝶优化特征选择算法 S-bBOA [20] 等。 实验中,我们使用了 python 3.6 实现了我们的 算法,同时使用了公开的工具包 scikit-learn 。所有 实验均在一台配置为 Intel Core i5-4210H ( CPU )、 在本实验中,我们使用分类精度 (accuracy) 、精 确率( precision ),召回率 (recall) 和维度缩减率 (feature-reduction, fr) 来评估我们所提出的算法性 分类精度 (accuracy) ,即正确分类的样本数和测 试集的总样本数的百分比,其定义如下(公式 12 ): 精确率( precision )和召回率 (recall) 如下(公式 其中, TP i 是第 i 类下正确分类的测试样本数; FP i 第 i 类下错误分类的测试样本数; TN i 是在其 他类别下正确分类的测试样本数; FN i 是在其他类 定义维度缩减率 (feature-reduction, fr) 如下(公 其中, n 是总特征数, p 是算法所选择的特征数。 60 %的样本随机选择进行训练,剩下 40 %的样本用 超过 20 次,最后统计平均值;蒸发系数 ρ 为 0.049 ; 0.1 和 6 ;每个边缘的初始信息素强度设定为 0.1 ; α 参数,我们设 α=1 , β=0.5 ;在分类器的选择上, 我 们使用了 K 近邻( KNN )分类器作为基分类器。 进行对比实验来验证特征选择算法的性能。最近 提出的许多特征选择,也都只使用了 KNN 作为 唯一的基分类器 [21-23] 。在实验中我们将参数 K 设 部分数据结果采用了文献 [18] 中公开发表的实验结 果,表 4 是 QPACO 与其对比算法在不同数据集上 据集上每种算法性能的排名。表 5 是 QPACO 与其 的时间复杂的都是 O(1) 的,因此时间上的开销差距 来衡量算法性能 [18-24] ,但计算了其它常用的评估指 对比分类精度,在表 4 中我们不难看出, QPACO 在 Glass , Iris , Letter , Shuttle , Spambase , Waveform , Wisconsin 这些数据集上均位居第一,在 Tae , Wine 和 Yeast 上位居第二,只在 Vehicle 上稍显逊色。因 此 QPACO 在分类精度上有了很明显的提升。通过 们发现 QPACO 算法在大多数情况下精确率和召回 表 4 QPACO 及其对比算法的平均分类精度对比 算法的量子化蚁群特征选择算法 QPACO 。 QPACO 法的搜索能力。经过 11 个数据集和 12 个特征选择 算法的对比实验,验证了 QPACO 良好的性能。如 何在高维数据集中应用 QPACO 进行特征选择问题 转载地址:http://tzxen.baihongyu.com/