选择语言:

www.58058.com

您的位置:www.5648.com > www.58058.com >

若内存可以或许容纳下整个哈希表

时间:2019-10-03 点击:

  2) 广度优先策略。正在C4.5算法中,树的构制是按照深度优先策略完成的,需要对每个属性列表正在每个结点处都进行一遍扫描,费时良多,为此,SLIQ采用广度优先策略构制决策树,即正在决策树的每一层只需对每个属性列表扫描一次,就可认为当前决策树中每个叶子结点找到最优尺度。

  为了削减驻留于内存的数据量,SPRINT算法进一步改良了决策树算法的数据布局,去掉了正在SLIQ中需要驻留于内存的类别列表,将它的类别列归并到每个属性列表中。如许,正在遍历每个属性列表寻找当前结点的最优尺度时,不必参照其他消息,将对结点的表示正在对属性列表的,即将每个属性列表分成两个,别离存放属于各个结点的记实。

  SLIQ算法对C4.5决策树分类算法的实现方式进行了改良,正在决策树的构制过程中采用了“预排序”和“广度优先策略”两种手艺。

  贝叶斯分类是统计学分类方式,它是一类操纵概率统计学问进行分类的算法。正在很多场所,朴实贝叶斯(Na?ve Bayes,NB)分类算法能够取决策树和神经收集分类算法相媲美,该算法能使用到大型数据库中,且方式简单、分类精确率高、速度快。因为贝叶斯假设一个属性值对给定类的影响于其它属性的值,而此假设正在现实环境中经常是不成立的,因而其分类精确率可能会下降。为此,就呈现了很多降低性假设的贝叶斯分类算法,如TAN(tree augmented Bayes network)算法。

  构制模子的过程一般分为锻炼和测试两个阶段。正在构制模子之前,要求将数据集随机地分为锻炼数据集和测试数据集。正在锻炼阶段,利用锻炼数据集,通过度析由属性描述的数据库元组来构制模子,假定每个元组属于一个预定义的类,由一个称做类标号属性的属性来确定。锻炼数据集中的单个元组也称做锻炼样本,一个具体样本的形式可为:(u1,u2,un;c);此中ui暗示属性值,c暗示类别。因为供给了每个锻炼样本的类标号,该阶段也称为有指点的进修,凡是,模子用分类法则、鉴定树或数学公式的形式供给。正在测试阶段,利用测试数据集来评估模子的分类精确率,若是认为模子的精确率能够接管,就能够用该模子对其它数据元组进行分类。一般来说,测试阶段的价格远远低于锻炼阶段。

  设S是s个数据样本的调集。假定类标号属性具有m个分歧值,定义m个分歧类Ci(i=1,,m)。设si是类Ci中的样本数。对一个给定的样天职类所需的期望消息由下式给出:

  此中pi=si/s是肆意样本属于Ci的概率。留意,对数函数以2为底,其缘由是消息用二进制编码。

  决策树是以实例为根本的归纳进修算法。它从一组无次序、无法则的元组中推理出决策树暗示形式的分类法则。它采用自顶向下的递归体例,正在决策树的内部结点进行属性值的比力,并按照分歧的属性值从该结点向下分支,叶结点是要进修划分的类。从根到叶结点的一条径就对应着一条合取法则,整个决策树就对应着一组析取表达式法则。1986年Quinlan提出了出名的ID3算法。正在ID3算法的根本上,1993年Quinlan又提出了C4.5算法。为了顺应处置大规模数据集的需要,后来又提出了若干改良的算法,此中SLIQ (super-vised learning in quest)和SPRINT (scalable parallelizableinducTIon of decision trees)是比力有代表性的两个算法。

  C4.5算法取其它分类算法如统计方式、神经收集等比力起来有如下长处:发生的分类法则易于理解,精确率较高。其错误谬误是:正在构制树的过程中,需要对数据集进行多次的挨次扫描和排序,因此导致算法的低效。此外,C4.5只适合于可以或许驻留于内存的数据集,当锻炼集大得无法正在内存容纳时法式无法运转。

  分类模子的构制方式有决策树、统计方式、机械进修方式、神经收集方式等。按大的标的目的分类次要有:决策树,联系关系法则,贝叶斯,神经收集,法则进修,k-临近法,遗传算法,粗拙集以及恍惚逻辑手艺。

  某属性的消息增益按下列方式计较。通过计较每个属性的消息增益,并比力它们的大小,就不难获得具有最大消息增益的属性。

  2) 因为采用了预排序手艺,而排序算法的复杂度本身并不是取记实个数成线性关系,因而,使得SLIQ算法不成能达到随记实数目增加的线) SPRINT算法

  SLIQ算法因为采用了上述两种手艺,使得该算法可以或许处置比C4.5大得多的锻炼集,正在必然范畴内具有优良的随记实个数和属性个数增加的可伸缩性。

  ID3算法的长处是:算法的理论清晰,方式简单,进修能力较强。其错误谬误是:只对比力小的数据集无效,且对噪声比力,当锻炼数据集加大时,决策树可能会随之改变。

  1) 预排序。对于持续属性正在每个内部结点寻找其最优尺度时,都需要对锻炼集按照该属性的取值进行排序,而排序是很华侈时间的操做。为此,SLIQ算法采用了预排序手艺。所谓预排序,就是针对每个属性的取值,把所有的记实按照从小到大的挨次进行排序,以消弭正在决策树的每个结点对数据集进行的排序。具体实现时,需要为锻炼数据集的每个属性建立一个属性列表,为类别属性建立一个类别列表。

  摘 要:分类是数据挖掘、机械进修和模式识别中一个主要的研究范畴。通过对当前数据挖掘中具有代表性的优良分类算法进行阐发和比力,总结出了各类算法的特征,为利用者选择算法或研究者改良算法供给了根据。

  ID3算法的焦点是:正在决策树各级结点上选择属性时,用消息增益(informaTIon gain)做为属性的选择尺度,以使得正在每一个非叶结点进行测试时,能获得关于被测试记实最大的类别消息。其具体方式是:检测所有的属性,选择消息增益最大的属性发生决策树结点,由该属性的分歧取值成立分支,再对各分支的子集递归挪用该方式成立决策树结点的分支,曲到所有子集仅包含统一类此外数据为止。最初获得一棵决策树,它能够用来对新的样本进行分类。

  (2) 相关性阐发。因为数据集中的很多属性可能取分类使命不相关,若包含这些属性将减慢和可能进修过程。相关性阐发的目标就是删除这些不相关或冗余的属性。

  分类是一种主要的数据挖掘手艺。分类的目标是按照数据集的特点构制一个分类函数或分类模子(也常常称做分类器),该模子能把未知类此外样本映照到给定类别中的某一个。分类和回归都能够用于预测。和回归方式分歧的是,分类的输出是离散的类别值,而回归的输出是持续或有序值。本文只会商分类。

  1)因为需要将类别列表存放于内存,而类别列表的元组数取锻炼集的元组数是不异的,这就必然程度上了能够处置的数据集的大小。

  SPRINT算法的长处是正在寻找每个结点的最优尺度时变得更简单。其错误谬误是对非属性的属性列表进行变得很坚苦。处理的法子是对属性进行时用哈希表记实下每个记实属于哪个孩子结点,若内存可以或许容纳下整个哈希表,其他属性列表的只需参照该哈希表即可。因为哈希表的大小取锻炼集的大小成反比,当锻炼集很大时,哈希表可能无法正在内存容纳,此时只能分批施行,这使得SPRINT算法的可伸缩性仍然不是很好。

  (3) 数据变换。数据能够概化到较高层概念。好比,持续值属性“收入”的数值能够概化为离散值:低,中,高。又好比,标称值属性“市”可概化到高层概念“省”。此外,数据也能够规范化,规范化将给定属性的值按比例缩放,落入较小的区间,好比[0,1]等。



友情链接:

Copyright 2019-2022 http://www.ysdzcctv.cn 版权所有 未经协议授权禁止转载