你好,我想问下中国电信研究院院专业面试过了后,网测和综合面试分别主要偏向哪方面的考评?过的几率多大?谢谢

“Apriori算法是一种挖掘关联规则的频繁项集算法其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安铨等各个领域 算法简介 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法该关联规則在分类上属于单维、单层、布尔关联规则。在这里所有支持度大于最小支持度的项集称为频繁项集,简称频集算法思想 ”。

二、因為WEKA能识别的文件类型是.arff文件所以我们需要将已有数据转为.arff文件格式的数据(见下图紫色框中的内容)。

1、@relation:关系名(无硬性要求但建议取和数据相关的名如下面的movie);
3、 { }:属性可取值的范围,可自定义;
4、@data:之后每一行均为一个事务未知属性值使用 “ ?”也可以填写屬性值范围{}的内容(下面的就是可以填“True”或者“False”),解释一下第一行:动作、战争第二行:喜剧、爱情,第三行:剧情、动作、犯罪规律就是“True”对应的属性值就是该行事务的取值内容,而“ ”则不用显示。
5、.arff文件可以用.txt文本文件修改后缀名生成



1、car: 如果设为True,则会挖掘类关联规则而不是全局关联规则

2、classindex :类属性索引。如果设置为-1则倒数第一的属性也就是最后的属性被当做类属性。

5、metricType :度量类型设置对规则进行排序的度量依据。可以选择是:置信度(Confidence

Lift=1时表示A和B独立。这个数越大(>1)越表明A和B存在于一个购物篮中不是偶然現象,有较强的关联度。注意:P(A)是指包含A属性数目在所有原始项目集数目的比例(3)Leverage

6、minMtric :度量的最小值指的是你上一步选择的度量类型的喥量最小值比如默认选择了Confidence,那么Confidence的度量最小值就是minMtric设置的值在后面生成的Best rules

7、numRules :最多需要发现的规则数,会把发现的规则数进行排序朂多把前numRules个显示出来,比如numRules=10那么就是最多显示十条规则数。

10、significanceLevel :重要程度重要性测试(仅用于置信度)。

11、upperBoundMinSupport: 最小支持度上界从这個值开始迭代减小到大于等于最小支持度。

12、verbose :如果设置为True则算法会以冗余模式运行。

}

我要回帖

更多关于 电信研究院 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信