您现在的位置:首页 > >

支持个性化推荐的Web面关联规则挖掘算法_图文

发布时间:

维普资讯 http://www.cqvip.com

第3 卷  第1 1 期 
yo .   1 3l № l  









程 

20年 1   05 月
J n a y2 0   a u r  0 5

Co p t rEn i e ig m u e   gne r n  

?

软件技术 与数 据库 ?  

文 号:l o 32 2 5 l _ 7 _  章编 o _ 48 0 ) —0 9 0 0 (00 0 — 3

文 标识码:   献 A

中 分 图 类号: P 1  T3 ? 94

支持 个性化 推荐 的We 页面关联规 则挖 掘 算法  b
闫 莺‘ ,王大玲  ,于 戈 
(. 旦大 学计 算机科 学系 ,上海 20 3 ; 2 东 北大 学信 息科学 与 工程 学 院 ,沈 阳 100 ) I复 04 3 .   04 1   摘 要 :分析 _ r 应用于 个性 化推 荐 NWe 页 面关联规 则 的特 点 ,提 出了 “  ̄ b j 壹支持 数 下  关联 规 则” 的 思想 ,根据 这一 思想 设 计、实现 _一种 应  r 用于 个性 化推 荐的 We页面 关联规 则挖 掘算法一 P R (aei   s cao  u   n g 及频繁 项 集的 Fc.c  c b A M Pgv wA s i i R lMii ) e o tn e n r S t’ 存储 结构 ,在 产生 频  q 一。 I   m 繁项 的 吲时挖掘 关联 规 则 ,因 而能提 高效 率 。实验证 明在 个性 化推 荐系统 中P R A M算 法的效 率 明显 高于 F . r h 法  PGo 算 wt 关健 词 :数 据挖掘 ;We挖 掘 ;个性 化: b 关联 规则 ;Fe—e Te  r St r q — e

As o i to   lsM i i gAl o ihm  fW e   g v e   s ca i n Ru e   n n   g rt 0   b Pa e iws
f rPe s n l e   c m m e da i n o   r o ai d Re o z n to  
YAN Yi g . W ANG Da i g n ‘ ln z. YU Ge  

( C mp t  ce c  p r n o u a  iest, h n h i 0 4 3; i o ue S in eDeat t fF d nUnvri S a g a  0 3   r me   y 2

2 S h o o’f n t nS in c n   n ier g NotesmnUnvri S e y n   10 4  . c o l l o nai  ce c  dE gn ei , r a t  tesw, h n a g I0 0 )   h o a n h     I sr c】 T eie  f“  so i in1lso  n—u p l cu t i po oe a c ntea a sso c aa t it s【  e  ae w ascain Abtat h d aO ka sca o  te  no es p ot o n” s rp sdbsdO h n l i f h rce si  W bp g re  soit   t . i     y   r c r J o
Ii sIlp ro aie  e o me dain .l  '‘ es n l dlc m te o z ’ n to .Anag lt o   niga s cito  .ls frp ro aie  e m m e d to — — }ARM ( a e, w s o it n r l    lo‘hm  fmi n   so a infi  o  es n l drco i te z n ai n ) p g 'e a s ca i  uc i o

mi ig a d F e ? e- i es ‘ t r  r tI g fe u n tms t fcd sg e   n   mpe mne   c od n  ot e ie  T eag l h   s so ese  o   n n ) n   1 q S tF e  h e ue t   O i   ' e t e es l   e in d a d i ln t a c r ig t    a ‘ "’ u b S   iq n i  l ’ d h d h   lo i m u e  n  t p lr ’ t
i n  rqu n t f dig fe e ti ms t  n  tt es m et em i n   s o ito  ulst m pov   'cc c .Ex e i n ss o ta  n e esa d a h  a  i   niga s cain r e o i r eet in y m i f p rme t  h w h tPARM  lo h i m o eef cie ag ttm s i   r  fe tv  
i  es n l e  e o np ro ai d rc mm e d t  h   P— o hag rt m. z n ai tanF Grwt  lo ih   on

【 ywo d l aamiig We   nn ; esn lain Asoit nrl;Fe .e. re Ke  r s D t  nn ; bmiig P ro ai t ; s c i  ue rqS t e  z o ao T

*年来 ,随 着It t ne 的迅速 发展 ,各 We站 点为 吸 引更  me b 多 的用户 ,纷纷推 出 丰富且 具 有个性 化特色 的服 务 ,于是 ,   We 个性化技 术便 成 为一 个 研 究热点 。关联 规则 作 为We挖  b b 掘 的技 术手段 之 一 ,在 个性 化推 荐系 统 中为获取 用 户 的访 问 
模式起 到 了重要作 用 。  

F —r 结构和相应 的F . r t算法,该算法无须生成候选  PTe e PG o h w 项集 ,挖掘效率 明显提  。但 F— r t算法是通过逐 步  PG o h w 生成条件模式基和条件频繁模式树来挖掘频繁项集 ,因而 影 

响了频繁项集的挖掘效率 。于是Wag n 等于20 年又提出 r 02  
不 需 要 生成 条 件 模 式 基 的 自上 而 下 挖 捌 F —r 的 T .P  PTe e DF . Go t算  。 rwh   针对 最小支 持度 难 以恰 当 确定 以及 挖掘频繁 模式 和关 联 

现在大多数关联规则挖掘算法仍基于支持度——置信度 
模式 ,即根据 最小支 持 度 阎值 获 得频 繁项集 ,再根据 最小 置 

信度阈值在频繁项集 中获取关联规则 。由于这些阈值 的设定 
问题 尚未很好 地解 决 ,从 而导致 挖掘 出过 多 或过少 的规则 ,   也给其 应用带 来 了不利 影 响。   考虑到应 用 于个性 化推 荐 的关 联规 则具 有这样 的 形式 :  
,  

规则过多等 问题 ,H n a 等又提出  ̄ F 算法 ,该算法没有 最   ' P T 小支持度的约束 ,运 用了闭合模式挖掘 长度大 于ri / a n 、支  一
持 数最 大 的前七 个频 繁模 式 ,得 到 了很好 的结果   ’ 。 在 关联 规则 挖掘 算 法 方面 ,还 有许多 研究人 员提 出 了改  进 和 扩 展 的各 种 方   ,这 些 算 法 在 我们 的研究 中都 起 到  了一 定启 发作 用 。我们 采 用 F — r t算 法 中F —r 结 构 来  PG o h w PTe e 存 储 l i 频 繁 项 集 ,借 鉴 T P 法 中 没 有 最小 支 持 度 约  —z se F算

尸 一     _ . :   ( , , , 。该 规则 可 以解 释为 用户 的 访  > 卢12… , 7 )

问 *惯通 常 是 访问 了 

,…, ,   , 问 。根据 这一 规  后访 尸 … ,尸, ‘   l   页面后 ,  

则 ,当一个 We站点 的用户 访 问 了 b  

该站点 的推 荐 引擎应 该为 其 摊 荐 页 面 。从 中可 以 归纳出应 

束、取支持数最大的前七 个频繁模式的思想,来设计个性化 
推 荐系 统 的关联 规则 挖掘 算 法 。  

用于个性化推荐的关联规则的特点:() 1 规则后项代表用户  访问过的一个页面 ,其长度为 1 ,即1 i ;( 规则前项代  一z 2 se ) 表用户在访问后项之前所浏览过的页面序列 ,其长度是该用  户浏览过的页『数 目。 酉 『   综 上 所 述 , 我 们 提 出 “ 支 持 数 下k 壹 关联 规 则 ” 的 思 
想 ,根据这 一思 想设 计 、实现 了 种应 用于 个性 化推 荐 的关  一 联规 则挖掘 算法— — P R A M,并对 其进 行 了性能  价 。  

2P R   A M算法 
21 .壹支持数下  关联规则  壹支持数下七 关联规则 ,即寻找频繁项集U设定的支 持  寸
数 阈值 为 1 ,而对 于 所有 前项 相 同 的规则 ,只选 择 其 中 个 支    持 数最 大者 。  

这里的支持数并 非大多数文章巾定义的支持度。支持度 
是 一个 相对值 ,与数 据集 中的记 录总 数棚 关 ,而支持数 足 ‘  

1相关工 作 
Ar a g w l 19年首次提出布尔型关联规则问题,并  a 等于 93 给出了挖掘关联规则的A s I算法…,】9 年又提出了效率更  94 高的A r r pi i o 算  ,A r r pi i o 算法以及 以此为基础的一些算法  的缺点足要多遍扫描数据库并产生大量的候选项集。  
针对 A r r pi i 框 架 的缺 陷 ,H r o 算法 a 等人 于20 年提 出 了  t 00

基本项 目:国家 自然科学基金资助项目 (O  0 1 6 l3 5) 7  

作者倚介 :闰 莺 ( 8一),女 , I IO 9 硕_生,主研方向: = 软件技术  
与数据挖掘 ;王大玲,教授;于 戈,教授、 导     定稿 日期 :20 一22  03 l—3 E ma :d、 ̄f a e d F — i I' 4m ii cu i l ~g l U C  F


7—   9

维普资讯 http://www.cqvip.com

个 绝对 值 ,与数据集 的记 录总 数 无关 。壹 支持 数 的设定 意 味  着 ,一个项集 只要 在任 : 卷记录 中 出现 过一 次 ,即可 成 为频 繁 
项集。  

( 她 立 le .e T e 中 I i   点: 2 )   qSt r I ‘ . e .z se  
() O ( 3 F l 卢2;/=NI   ) ? < I- ;i+  r (  4 ) f o’ahi m nIsz   F l c  e i -ie e t

2 存储结构  . 2
采 用 “ 支 持数 ”思 想寻 找频 繁 项集 ,得 到 的火 量频繁  壹 项集 将 可能 导致 算法 的 时 问和空 间开销 过 大 。于 是 ,P R   A M 算法 在 F — r t算 法 的 F —re 构 的基 础 上采 用 r qSt PG o h w PTe结 r —e  e — Te结 构存 储 频繁 项集 ,在 其 上 生成 前项 为/i ,后 项 为 I r e -z se —  
se i 的关联规 则    z 。

(  5 )

{P s&l et ; / 成i i 和【 1 s e 0 ‘ .e I : as n f ) / s ( 生 . z , ) i f he S t  s c 一 一z 1 q —i : w  

(  6 )
() 8  
En : d 

Gtu ( , e l1 / R e :_ 生成 关 联规 则:  
从ne .e Fe 中释 放 断柯( ) i   点, q t re S .  1 s e -z :  

(   将规 则存 入R ; 7 ) S  

(  从  e.eTe中释 放 F ̄I+ )i 节点 : 9 ) qSt re . i f , .z ' T 1se  

其 中 ,建 立 初  ̄ V -r 需 要将 数据 』 { 事 务 的项 按  f PTe e   | 各 支 持数 降序 排 列 后 ,再 将 其 映射 到 炎义 : ( S I 5 母 g C L  )

F qSt w 是 一 树 型存 储 结构 ,用于 存 储『 i  ̄(   r —e— ‘ e Te e 种 _z t+ se l i 1 s e ( l -, 壹 支持 数 的频 繁 项 集 ,树 r …  为 4 )i /  .) -z = 2 , 7 { tl  ti分 -l -   个 域 :其 中i l 为存 储 的项 集 的名 字 ; up l 项集 的 支  nn ae sp o, ’ 为 持 数 ; e,, h是 两个指 针 ,/ q 向 比本节 点 的icl 度  l ni t t g f   e  ̄ f lie l i长 i 增1 的一个 超集对 应 的节 点 ,r h} 向与 本节 点 fia e it g  ̄ l ,l 有相  gln
同长度 的另一 个项集 对 应 的节点 。  

问 ,以便 以后的 操作 可 以存有 序 的条件 F 进行 。   根 据 建立 的/i 项 集 4 1 —I I 查找 其后 缀并 生 成(   -z se F PTe : .   ‘ [ e1 f + 1 s e 集 , 插 入 到 Fe —e Te中 。 该 算 法 Ps ne 描  )i 项 一z r St r q — e as sr &I t
述如 下 :  
A loltm  s & I s t(Iiq Se- e  Ip-tci : g ’h Pa s i n er :c - t 1’e ’ _Ic ,) ’ i   ’  
Be n gi 

表 1 出 r一 个 事 务 数 据 库 的 例 子 以 及 生 成 的频 繁 序  给 列 ,图 1 由该频 繁序 列 牛成 的Fe—e Te存储 结 构 。 为 r St r q — e  
表I事务数据库及其频I序列  I
事 务数 据库  TD I 
10 0 
2 0 0  3 0 0 

( F l Is e 1 o aii 节点 nd ∈Fe—e r e ) 。l z . oe i St F   q —e (  2 ) (  3 ) (  4 )
() 5 

取该 nd  a,f第一 个 项i: oen , l i ,I e. j l   - F . e 的头表 巾得 到 名字 为i的项 对应的 记录   ̄ P  c E D l 根 据该 记录 的n d.n找 到树 【对应 的节点, o e1k i I l , :  
R p a  e et

频 繁序 列  长度 
1   A , B, C , D , E  
AB


项 
BCA  
BDA   A【E ] 

项 

(  6 ) (  7 ) (  8 )

{设 置ii 节 点的前 缀 为/im; .z se )e   . t 用P hh ̄ 找到 其 所有 I i 项 后继 的㈨  的cil —z se 以这 些Ⅲ 构 成所 有 以Pim为前缀 的( ) i 项集 :  c  e t 一Is e .z  
用 n d / 和 n d , h 针 将  1 s e 集 节点 按 序  oee t f o el t i 指 g )i 项 -z

AC , A D , A E, B , BD , D E C  

4 0 0 

ABD  

3  

A B , AB D, AD E C  

(  sp o伪 构 成( ) i 项集 的各 I i 项 巾最小 的.  ̄ t 9 ) up t ? 一1-z se —z se v p  t o q
插 入 FeI e. e ; rcS t e _ Tr  

Q  D

㈣ l  
En ; d 

相 同的项 的.p o, I V pJ l ? I t 累  :  
, P i to: 】 .? h ?: = ho  

a) Uni = 3   t尸 NUL : I L 

对 于 多 个/i 项 集 ,若 它 们均 包含 某个 ( Is e 集 中 -z se   )i 项 — -z   的各项 ,则仅 选 择 其 中 支 持 数最 人 的k 个项 集 来 牛成 前 项 长   为 ( ) i 的 关联规 则 用于 推荐 。该 算法G tu 描 述如 F: 川 一z se e l R e  
Alo ih G e ru e(Fe Se- e 只S) g rt m  t l rq- tTre, :  

图IF e—e—re   r S t e存储结构  q T

Be i  gn

2 . 3算法描述  根据个性化推荐系统关联规则 的性质——后项 长度 为 
1 ,在 挖掘 时仅 考 虑  i 和 ( ) i  ̄可 。所 以 ,P R 的 —z 件1 s e l se 一z l A M   挖 捌过 程 分 为建 立 初 始 F —I ( 支持 数 排 序 后 映射 到字  PT’ 按 e e 母 空 间) 、 生成/i 和 ( 1 s e r —e Te及 生成 关 联  - z   ) i 的Fe St r se 一z q — e 规则 并输 m3 个部分 。   其 中 ,F — r 的结 构 为 一 个 头 表 (edt l PTe e   ha  b )和 一棵  ae 树 ,头表 中的两 个域 分别 为 :i m 储 I i 频 繁项集 ,nd  t 存 e —z se oe


( - 1  m? ;/Ft e )p e / s? 足he一e Te笫一 个节点 , e t c q, t I S .  e  
()Re et 2 p a 

( f用P1t 3 ) .f e 找到前 缀 为Ii(l  tl 的第 一 t,O  7l 1C ‘ 'f ; 个 i, q
(  w i ( !NU上 ) 4 ) hl Q = I   e ( {     a e Q i t   i n记录Q w   ,  5 i P nm   ) f i c    U7 Pe l 7 l l d  Ⅳ ’ , :

( g Qr 6 )     (  找 出最大 的  7 ) 个节 点  、   l. _  : (  生 成前项 为/i 的规 则 : fI Ⅲ 8 ) -z se , 『t .  w. 7 ¨ , . ’ 7I  IC I [     I . Ⅲ  『 ,   …,
V1. l: U.,     ,O , I

( 改变 , 以Pi n 为 前缀 的最 后 一 9 ) J 及 .aw n 个节点 f/ i , 指针: l d* , ' ,  , , J   Q | h L i Oe  。 F Pf h  / i g 。 li g
r2 ilf etc er th)e =lv‘c/ , t i t f  O   , J ih;{  ,r t    g 0)Uni = 3 tP NUL  l  : 1 
En   d;

lk 一 个 指 针 , 指 向 对 应 的 im在 树 中 的 第 1 对 应 节  i是 n t e 个

点 。树 中每 个节 点 的结 构 为 :nm 是 1 i 项 集名 称 ,ci   a e 一z se hl d 是 ? 针 ,指 向其后继 节 点 ,bo e 是一 指针 ,指 向与其  指 lt l ’h 也 具 有相 同nme 另一个 节点    a 的 0 。

没S  ̄We o经过预处理后的一个会话文件 ,R #f  F bLg s i 嚣
挖 掘 结果 的规 则集 ,, 给 定 的关 联 规 则前 项 的最 大 长 度 , 7 为   则挖掘 算法Mi n u   —   n g lN i R e F: T  ̄
Alo i m  i i g RueS ,  ) g r h M n n   l(F  S : t  
Bc i  gn

3性能评价  
我们采 用 美 国D pu大学 的 “ eal 在线 资源” 网站 的处理 数  据” 分 别对 页面 关 联 规 则 算法 和 r —Iw h 法在 运行 时 问    PG’ t算 o 上 进行 测 试 和 比较 。该 数 槲 集 有6 3 U L l 7 5 8 个 R ,   4 个会 活  3   记录 。选 择其 中前4 0 U L 0 个 R 的访 问 记录 ,剔除 访 问 次数 小 

( 建立初 始F — r ; 1 ) PT e   e


8一   0

维普资讯 http://www.cqvip.com

f . O3 %或大 于8%f U L 长度 小 于4 5 l R 、  ̄ J 的会 活 汜录 ,处  后  对这 些数据进 行 关联规 则挖 捌 测试 。  
本 文 所有 实 验 _是  主 频 为 1 G z 主 存 为 26 的  苫 I 5 . H、 6 5 MB P 上进行 的 ,程序 运行 往 Mioo  no s T ,所 柑 的  C c sfWi w   下 r t d N 程序 均采 JMioo   i aC + 写 。 } c sfV s l + 编   { r t u 

对  i  ̄ ( 1s e rqSt r 进 行 处川 。iF — r, l : s eti ) i 的Fe—e Te z l+ 一 z — e i f PGo ' ̄  i a l f

法在没 有最 小支 持 度约 束  ,每 次 存 要 , f  成很 大的 F — 5 P 
- 一 、 O   O .   0  

Te ,并且  生成 一 条规 9 la  re 1i l q] l ,

扪频 繁项集 ,因此 效 率 
一  

墨  较低 。 页而数 量 的变 化对 规则 数最 的 影l见 表! I   。  

为 _使比较 卡 旧的标准下进行,在具体操作  遵循以  r H
下儿条原 则 :  
( 支持 数 阈值 保持 一致 ( 为壹 支持 数 ) ; 1 ) 均   ( 数据 结构 基 本 一 ; 2 ) 致   (  同的功能 用 『样 的函数 实现 ; 3 )     ( 挖 掘 规 则 的数 量一 致 (1 小置 信 度 约束 产 生规 则 ) :我  4 ) f最 j 们 的算 法是 无 须 没置 最小 置 信 度 闽值 的 ,但 这 里 为 了与 卜 . i t PG‘ h o   w 算法进 行执 行时 问的 比较 ,故采 用 了最小 俺信 度来 约束规 则 数 日  
赫 一 ◆  一—精 .   …   ~ 一 .   ◆ 
廷  

群 

  一

州   州 
一  

s  
~  

一  

∽  ◆ —



 
30 0 

测 试从 殳下西 方 面进 行 : I 1   ( 页而 数量 保 持 不变 ,考 察 最 小 置信 度 变化 对 两 个 算  1 ) 法 运行 时问产 _  影 响  *r -r I, zj 测试 中 取, 3 即前 项 长度为 l3 以前3 0 U L 7 , : ~。 0 个 R 的 

0  0

l0     5

20 0 

1(  )  

贝  数  (l|l ̄ t   I 1 lbr   R  tl o L

图3 不同页面数量两算法时间比较 

4 结论 
本文提出 了一个有效挖掘频繁模式的算法一一 F T 算  sR 法 。该算法 的特 点是运用 “ 壹支持数 下  哭联规则” 的思 
想 ,采 用 Fe—e Te存 储 结 构 ,在 产 生频 繁项 的 同时挖 掘  r St r q — e 关联规 则 。实验 表 明 ,在个 性化 摊荐 系统 中 ,应 用这种新 算  法可 以大 大地提 高效 率 。   但 是 ,由表 2 以看 出规 !的数 量 很人 , 因而增力  推  可 J { J l I, l J

访问记录作为输入数据 。图2 给出了不 同最小置信度下两算 
法 时 间 比较 ,可 以看 出 P R A M算 法 的 效 率 要 H 高 于 F — J J   P  

Go t r h w 算法。随着最小置信度的变化 ,两个算法运行时间的 
变化 很小 ,这是 因为 算法 的大 部分 时 间花在 产生频 繁集 上 ,  

而不是 生成 规 则 一 。对 F — rvh 法 ,在 花 费 大量 时 间找  k PGoe 算 t

到频繁项集研I I 任ML的非空f集s 的支持数后 ,才刚最小置  信度来判断该规则的取舍 。X P R , A M算法,在生成ii  ̄(   j - z l+ s el i 1 s e r —eT e后才 用最小置信度判断是否生成 该条  ) i 的Fe St re 一z q —
规 则。 因此最小 置信 度对运 行 时 间影响 不大 。但是 它对 规则  数 量有很 大的影 响 ,见表2  。
+ FT S R钟: 浊 


∞ 如 ∞  

∞  

如 0  

荐的难度。我们可以采用一 些措施来提高  则质量,‘天联  一   规则”就是针对这一 问题提出的。另外 ,还可以采取 其它一  些优化方法,如可以对有相同前项的关联规则进行删减、合 
并、 加入 页面 访 问时 间或者 页 面问路径 长度 作为挖 掘 的约 束  条件 等 。这些都 有待 于 进一 步 的研究 。  

一  菇
行   删   1 H ]  
一  

‘  

I…  P I F

Grw l 0  ot 1 』  

参考文献 
l lwa R 1l I s i 、 w mi M ii   ‘ l . I i i k T S a ^. 1I Ag a   lc n   11  AS O i i1 R lsI l .e   S Ca 01 ue 3 ,C l t   ed l

S to { lSi L reDaa ael1{:iCCl l  l es ft l 1 ag  tb ssJ IPO C ̄I s 、   Cl 1   1 j e ACM  j l S(MO1 J )  
CO1e n eo   a a e n  fDaa   3: 7 2l  1 i c  n M n g me to   t、l f e 99 20 . 6  
5  O

S  
一  

2 Ag a lR.Srk n    r wa  ia tR.F s  g rtm s IrM iig Aso it n a tAlo i h  b  nn   s cai  Rue  o ls

… .i Po edl s lnen t n l n"e C iVe   ag   1: ice ig  ’ tlai a Co lr ̄ C l l L re 1 ’ 1 ol ’ o   e l O  w
0  

Daa a e 、1 4: 7 4 9 tb s s   99 48 . 9  
61   ( % 7 %  O 8 %  O 8 %  5 9 %  O 9%  5

域 ,-1 发 ( no f  j'f ,4  /   micn )

3 Ha  . i 、Yi  M ii gFIq n  tm‘   jh t m l t    nJ Pe  J n Y. n n   ‘ ue tPat nsW tou  e Ca i e da Ge c ain.n: o . fACM . G M OD  ni‘i   20 0 .1  nFt o 1 Pr c o Sl Co ll l :C c 0 :1 1 4 W an     g K,Ta g L n   ,HalJ e   F p D 、iFP g‘、t o‘ scit n t、t   al o   L、1 - f1 hI iAso ai   1   【、 o lIcM i ig n: o e dn     AK 【D2 0 2 2 3 4 3 { {l   1n  l Prc e igsof  l 1 l ) 0 2. 00 : 3 . 4)  
5 la  、 in n ,LuY、P、 ta M ii   o — F’qln  o e      nJ Ja Yo g f   e  l nng F p K  i t t e c Cls d I te‘sW i ou  i 1Ln  t or 1:C【M 20 2 2l . 8   ti   t a n h tM ni1l1Sl 1 pp t 1 l )  l 0 :  121    6 P i , nJ  l   c  Ha   ,   J H,e  1H- ie ta. m n :Hyp lsiltl  iigof e ue t e… tt U’ M nn     q n   C c Fr 【 t r si  a g   tb s s 1:C1M . 2 {l 4  .48   t n  n L r eDaa a e .1 【 ) ae 1 0) : 414   7Zh uZ. ef  【A  ow.c n le’l na  s cainRue   o   Ez icC . L s a  l l nc tl l e As o ito   l  M ane a e   eh   s d o  h   lo’ P’p l  l : ’n {al itn n eM todBa e   n teAp‘ l i ct I Ca al l i i o     y 1 i  

图2不同最小置信度两算法时间比较  表2 不 同最小置信度、不同页面数量挖掘规则数量 
最 小置信 度  规 则数缝 ( ) 条  
6 %  0 7 %  0 8 %  0 8 %  5 9 %  0 2  0   5l 0 2  7   l8 8 2  3   O4 9 I  5   96 3 l  3   92 7

页 而数缴  规 则数量 ( ) 条  
l0 0  l0     5 20 0  2O 5  3 0 0  64 7  0   65 8  2   6  2 66   70 9  5   l 9   89 4

9 %  5

I  9    94 8

4 0 0 

l O42  7  l

Co c ele01 【 20 : 6 35 nrrl   1A . C   0l 2 .  
8 L nW , la e      i  A v rz S A,Rui  Efi in  a t  - u p i Aso a in zC. fce t Ad p Kcs p o’ t s cito    

( 最小  信度不变 ,页而数量变化对两算法运行 时问 2 )  
的 影响 

RuI M i ig f rRe o 1 e de’ se s i e   n n  b   c m 1 n lSy tm  I :Daa M iig a { KI V. 1 / t  nn   nI 1 ,    O 1d e Dic eT, 2 026 【:8 - 5 e g   s ov l 0 、( ) 3 l   O 9W a gD,Ba     n  o Y,YuG, ta. sn   a eChs l c t   l   s i—   e  1U ig P g   isl ai al Asoca  i on d
to   l  ii  f rPes n l e   C l nc d t  n Ditn e in Rue M n n o  r o ai d Re Of l n a i i  sa c   z l on Le r n .f:f a nig n CW L, 2 02 36 - 6 0 : 3 37   1  p n  0De a l CTIW e   a eM i n   t. tp/n ac  e a l d /    bUs g   nig Daa h t:/m}  sd p u  n~ c ca s sec 8 he OU’eht   ls e/ t5 4 ’S l . ml c

在测 试L 取n 3 } = ,即前项 长度 为 I3 I  ̄ 。最小 置信度取 
9%。从 图3 呵以看 出 随 着 页 面数 量 的增 加 ,P R 5 巾 A M的 优  越 性 更 加 明显 。当输 入 前4 0 U L 访 问 记录 时 , P R   0个 R 的 A M
月I941s j'   lj7 8,而F - rwh! B PG o t ̄ 需要 5 8 . 。产生这 样 结果 的  U   00 4 s

原 旧足 P R A M算 法  生频 繁项 集 的 同时 挖掘 规则 ,它 每次 仅 



8l     —



热文推荐
猜你喜欢
友情链接: