怎样看网站首页urlurl架构层数

当前位置: >>
基于提取网站层次结构的网页分类方法
第26卷第5期 2006年5月文章编号:1001―908l(2006)05―1134一03计算机应用Computer ApplicationsV01.26 No.5 May 2006基于提取网站层次结构的网页分类方法邓健爽,郑启伦,彭宏(华南理工大学计算机科学与工程学院,广东广州510641)(deemen@126.com)摘要:网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容 的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所 在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的 层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到 电子商务智能搜索和挖掘系统中。关键词:网页分类;网站层次结构;URL聚类 中图分类号:TP393.02 文献标识码:AonWebpage classification basedextracting hierarchy frOmWebsiteDENG Jian-shuang,ZHENG Qi-1un,PENG Hong(co阮酽矿cD唧船rAbstract:WebScfe,lce&船f鹏酬,lg,&眦IIl劬f加‰如们妙矿死c^加妇y,C∞,峥b“G∞,lg如粥510“l,吼打m)pagecl幽8ification w∞one of the hot 8tudy problem8 in the domain 0f IntemetonSe眦hI地wcurrently.Nowtlle地were the cl聃8i6e玛b鹪edte】【t船d the hypedinks.But all th鹪e methods of cl∞8ific“on ordy used the infb玎nati∞ofwa8tl地p89es witIlout tI璩iIIfbH“ati∞thatpra“ded f而m the whole web 8ite.In the anicle,tlle聆w聃adthmetic thatto8impli6髓the topology 8tmctum 0f the Web 8ite 8nd extr8cted the connot“ve lIiemI℃hy 0f the cl酗sification cl聃8墒ed tree,th∞u小whichwebuild thecoIlld achieve the mulIi.1evel cl船sification.Thi8 method h聃been appliedtothe 8y8tem ofintenigent searching蚰d mining 0f electronic business 8ucce88fuUy.Key啪rds:Web0p89ecl鹪8ification;Hiemrchy 0f Web site;URL clustering引言当前的搜索引擎或者按照一定的相关度对搜索的结果进HumaL0dhi和JollIlsha们-№山r等人的字符串核函数方法哺J,Nellocristi朋irIi等人的语义核函数方法一J。这些方法都是基行排序(例如go091e¨‘21),或者通过人手对互联网上海量的信 息进行分类(例如yaIl00【31)。这都在一定程度上限制了搜索引擎的发展。网页自动分类技术能够自动把互联网上的无序于文本和其他一些信息的结合对随机的网页集进行自动分 类。它们对网页问超链接结构的利用只是局限于所给定的网 页集内部的超链接关系,然而实际上网页是处于某个网站当 中,网站的整体布局和结构也对网页的分类提供了重要的信 息。网站设计者一般把网站设计成具有很好的层次分类结 构,所以充分利用网站的分类结构对网页进行分类可以大大 提高网页分类的精度。当前的网页分类技术都没有利用到这 方面的信息,以致分类的效果未能十分准确并且与网站内部 的分类差别较大。的信息自动进行分类,通过分类可以提高搜索引擎搜索的准 确性和自动返回分门别类的信息给用户,让用户更加方便的 得到想要的信息。因此,网页分类技术已经成为了当前网络 搜索引擎领域的研究热点。1相关研究由于网页的样式多样化,而且包含了丰富的信息(如图片、表格、超链接等),一般的文本分类技术难以很好地应用到网页分类上。当前流行的一些网页分类技术主要有:概率模型方法、关系学习方法、支持向量机方法。这些方法都不仅仅利用网页上的文本信息,而且利用了网页问超链接关系等 重要信息使得分类效果比起一般的文本分类方法有了很大的提高。概率模型方法有利用Bayes网络分类的方法【4 J, Chakrabarti基于Markov随机场理论的迭代算法”J。关系学 图l网站拓扑结构 通过以上分析,我们提出了基于提取网站层次结构的网习方法有Cohen的FuPPER系统,P啪on使用PROGOL算法 结合woIdNet中的语义信息进行网页分类,cMu大学slattely 将FoIL归纳算法用于网页分类№.7】。支持向量机方法有收稿日期:2005一ll一02:修订日期:2006一Ol―07页分类方法。该方法对网站的拓扑结构进行分析,通过提取 关键节点和关键连接,把网站内部的拓扑结构图简约成一棵 具有层次结构的分类树,从而实现一般网页分类技术难以实基金项目:广东省科技攻关项目(2005BlOl01033;A10202001);广州市科技攻关项目(2004恐一嗍1)作者简介:邓健爽(1980),男,广东广州人.博士研究生。主耍研究方向:人工智能、网络智能搜索、数据挖掘;郑启伦,教授,博士生导师。主要研究方向:人工智能、海量数据处理、智能计算技术;彭宏,教授,博士生导师,主要研究方向:数据挖掘.万   方数据 第5期邓健爽等:基于提取网站层次结构的网页分类方法繁公共候选父节点为A,构造树节点A,如图2(a)。1135现的对网页进行多层次分类。由于每个网站对应一棵分类 树,不同网站的网页分类可以通过对分类树合并的方法实现。 下面我们介绍对网站的拓扑结构进行简化生成网站层次结构树的算法的具体步骤以及通过对20个电子商务网站内部网页进行分类的实验说明该算法的可行性和优点。该方法 已经成功应用到我们的电子商务智能搜索及挖掘系统中。 2算法步骤首先为网站构造一个连接矩阵,其中行f和列.『表示网站2.1初始化网站拓扑矩阵2?5主蓑辇熟选父节点K有连接指向的所有网页,图2构造层次结构树过程(a)(b)(c)矩阵中假设K为pj,即网页集为U竹,其中~=1。根据uRL查找与种子节点同类的网页节点,即对网页的uRL进行聚类 分析,选择包含种子节点的类,并且对该类别中的所有网页构 造树节点,这些树节点的父节点为K节点。例中,以A为父节中的各个网页。矩阵中数据口。=1表示网页i中有到网页_『的连接,%=o则表示网页f没有连接指向网页_『。在这里我们不对两个网页间具体的连接数目做记录,只记录是否存在直接连接,有助于简化计算和得到更精确的结果。同时为了删除网 页中自身连接的影响,把矩阵中对角线上的元素全部设为o。 下面以图l为例子说明,初始矩阵如下:O l 1 1 l O 1 0 1 O O 1 1 0 O 01 ll 0 0000 1 O勺0 O 011 00 00 1 0 O 00 Ol Ol 000 Ol 000 0 0 0 01 O O Ol O 0 O 0 0 O Ol 00 00 0 0 00点的网页集为{曰,C,D,E,,,£},假设他们的uRL分别为:B:http://phom.yo吼et.com/file8/HsLl.htⅡll; C:http://phom.yourIet.com/6le8/list-2.htIIll; D:http://phone.yo岫et.c鲫∥file8/list_3.htIlll;E:http://phone.yo吼et.col栅les/14/1491 1.htIIll;I:http://phone.younet.con∥6les/4/4441.html; L:http://phone.younet.coIn/files/9/9668.htIlll其中的种子节点有{曰,C},通过URL聚类分析,分别查找曰,C0000 l O0 01 00 000000l 000 l 00000000 000 0 0 0 0 0 0000 000 O O Ol 00000 00 0 O 0 0000000的同类节点,得出{日,c,Dl为同一类,构造丑,c,D树节点,父 节点为A(如图2(b))。当多个种子节点不属于同一类时,分别对各个种子节点类别包含的网页建立树节点,父节点同为K。2.6查找孩子节点行f和列_『代表网页节点A,B,c,D,E,F,c,H,,,.,,K,L,表示为A和毋(fJ=l,2,…,12)。 2.2选择种子节点对包含种子节点的类中每个网页节点,选择其对应的孩 子集。矩阵中,类似第5步,对每个网页节点A,其孩子集为选择最大出度的前后个网页节点P={pI.,p叫…,凡},这l|}个网页节点称为种子节点。U马,其中口口=1。并且把这些孩子集中公共的孩子节点从孩子集中删除,因为通过分析,这些公共的孩子节点绝大部分为一些广告或其他无用的连接,妨碍网站的架构分析。为剩下P=Ⅳ0如(№^{∑口#})={A,曰,G}或者{A,曰,D},这里任意取P={A,B,C}。2.3(1)的每个孩子建立树节点。例中选择类lB,c,D},对类中每个网页。选择其对应的孩子集,勋%:{层,F,G},S0,l。:{C,驯, sDn。:{G,,},G为公共孩子,从各自的孩子集中删除G。建立 树节点后如图2(c)。 2.7删除相关连接 删除以上所有步骤用过的所有连接关系对。在删除连接其中f=l…n,n为网站中网页数目,肘础。{l代表取前矗个最 大值,ⅣDde()表示取所对应的网页节点。例中取.|}=3,则尸 选择候选父节点集 对P中每个网页节点p1.(f=l…后),查找具有连接指向pI.的所有网页节点,这些网页节点组成pI.的候选父节点集 P口rJ;={耶I,砟2,…,pJ,。},其中n;(f=1…m)为有连接指向n.的网页节点。m为有连接指向pJ.的网页节点总数。从矩阵时,连相反方向的连接也一同删除,即同时删除相应的连接关 系对,这样可以避免在最后的生成树中出现环状图。但这样 可能把某些敏感的层次结构忽略掉或者搞错。另一种做法是 只删除用到的连接,保留相反方向关系,待最后生成的结果带有环状结构,再采取相应的方法简化成一棵树。这里为了简 化我们采用第一种方法。 例中第一轮过后的网络拓扑结构如图3。计算,对于马的候选父节点集P口0=UC:{A,驯。 2.4确定父节点pf,其中口口=1。例中A曰C的候选父节点集分别为A:{曰,C,D},丑:{A,E,F},从该.|}个候选父节点集中统计出现次数最多的最频繁公 共候选父节点,假设该节点为K,创建树节点。矩阵计算公式 为K=pl,其中:pt=Ⅳ0如(№{每唧}),万   方数据p^∈u凡。(2)图3删除连接后的网站拓扑结构 2.8检查结束条件 如果还剩下没用过的连接关系,跳回步骤1,否则结束。式(2)中讹并{}表示取最大值,Ⅳode()表示取所对应的网页节点。例中候选父节点集分别为A:{四,c,D},曰:{A,E, F},C:{A,驯,在三个候选父节点集中出现次数最多的最频 1136计算机应用2006年例子中最后生成的层次结构树如图4。的结构上可以反映。同时,为了网站浏览的多元化和突出一些网页间联系,网站设计者往往在网页里加插很多与分类无关的连接,例如广告信息等,整个网站形成了一个复杂的有向 图。我们提出了一种新的基于提取网站层次分类结构的网页分类算法,该算法通过对网站有向图中有用节点和有用连接的提取,形成基于设计者分类思想的网站分类结构树。该分 类结构树能够实现一般分类算法难以实现的多层次分类,满 足不同的分类需要。我们把该方法应用到电子商务智能搜索图4最终层次结构树及挖掘系统中,搜索引擎对搜索下来的网页进行自动分类,取 得良好的效果。 由于该方法是对来自同一个网站的网页进行分类,对于从图4可以看出,存在一个节点有多个父节点的情况,如 .,节点,我们允许这样的结构。实际上在一个网站里,某一个 网页可能同时属于多个独立的分类。我们的方法把这种情况不同网站的网页,我们可以通过对不同结构树的节点文本信息进行聚类,从而合并成一棵包含多个网站的综合结构树的 方法进行分类。同时,研究本方法结合其他的分类方法,如基通过多个父节点反映出来,但是我们不允许在层次结构树中出现有向环,即两个网页之间要么存在明确的祖先和后代关 系,要么没关系,不可能出现网页A既是网页曰的祖先又是网 页丑的后代的情况。 在构建层次结构树的过程中应用下面的规则:于文本的网页分类,进一步提高分类精度。表l 20个电子商务网站的网页分类结果?在创建节点时,如果节点所对应的网页已经在之前的步骤创建了节点,则只要把相关连接直接指向该节点即可。?节点已经创建,并且有相应的父节点,现要重新定位父节点时,如果新的父节点是旧父节点的孩子,则把节点的父 连接指向新的父节点,相反,如果旧的父节点是新父节点的孩 子,则节点的父连接不变。否则,如果暂时不能确定两个父节 点的连接关系,则添加父连接指向新父节点,即同时指向两个 或以上父节点,待以后再简化。 3实验通过该算法对20个电子商务网站进行拓扑结构分析,生成简单层次结构树。如图5,算法对My8848网站拓扑结构简化后生成的层次结构树,树中每一个节点代表一个网页,节点 中文本内容是指向该网页的超链接文本,可以作为网页类别 的描述。要了解某一网页的类别,只需要在结构树上找到该网页节点,然后往上查找其父节点或祖先节点即可得到不同 层次的分类。通过这种对网站分类结构的重现算法对网页进 行分类,可以得到基于网站设计者分类思想的分类效果。同 时比一般的分类算法具有更加出色的多层次分类结构。 参考文献:【l】 【2】 Hnp://www.g∞西e.com【EB/OL】.BRIN S。PAGE L.The An8tomy ofaI丑rge-Sc8le HypertextIlal WebSe眦h Engine【EB/OL】.http://www.8ite.uon耳啪.c∥_stan/c8i5389/r朗ding∥嗍le.p战sing very MorgBn【3】 【4】Http://www.yah∞.com【EB/OL】.KOLLER D,sAHAMI M.Hier丑l℃hicallyclas8ifying document8u-f却啪lds【A】.FisherD,lCML 97【C】.SanFra眦i∞o:cale.Kaufm蹦n.1997.170一178.MH,T1wARY【5】CHAKRABAfUl S.DOM B。INDYK P.Enhanced hyperte)【t鲥翻瞳帆u8ing hy刚ink8【州.LfWRA图5A.h∞My8848网站层次结构树【6】 【7】ACM SIGMOD Int ConfonM蹦a铲ment of D砒a【CJ.NewYorl【:4结语ACM P阳BB.1998.307―318. SLA.I’rERYS.Hyperce砒Cla88incation【D】.Pittsburgh:C唧egieRelation丑ll for随着网页搜索技术的发展,网页分类方法成为了研究的 热点。当前的网页分类方法根据利用不同的网页信息分成基于文本的网页分类,基于网页间拓扑结构的网页分类和一些 综合这些信息的网页分类。但是这些分类方法都是对独立的 网页集进行分类,没有考虑到网页所在网站的整体结构和网 页在网站里的位置。由于网站设计者在设计网站时,为了方 便用户浏览,会对网站的内容作很好的人手分类,并且从网站Mell∞Univ.2001.CRAVEN M。SLAlTrERY S.e唧ingwith 8tatigtical M髓hinepredic8te inVention:Better modelshypenext【J】.Leamin昏2001。43(1/2):97―119. 【8】 【9】LODHI H.TAYLOR S,CRJSllANINI N。“口L using8tringText clas8i壬ica60nkemel8【A】.NIPS【C】。2000.563―569. CRI跚ANINI N,TAYLoR S.LoDHI H.L毗ent sem明tic 【A】.PlDc 18th Int Confon Machine Mo磁;an K蛐fm∞n.2001.66―73.k锄e18 k唧ing【C】.S蛐Franci8co:万   方数据 基于提取网站层次结构的网页分类方法作者: 作者单位: 刊名: 英文刊名: 年,卷(期): 引用次数: 邓健爽, 郑启伦, 彭宏, DENG Jian-shuang, ZHENG Qi-lun, PENG Hong 华南理工大学,计算机科学与工程学院,广东,广州,510641 计算机应用 JOURNAL OF COMPUTER APPLICATIONS ) 1次参考文献(9条) 1.查看详情 2.BRIN S.PAGE L The Anatomy of a Large-Scale Hypertextual Web Search Engine 3.查看详情 4.KOLLER D.SAHAMI M Hierarchically classifying documents using very few words 1997 5.CHAKRABARTI S.DOM B.INDYK P Enhanced hypertext categorization using hyperlinks 1998 6.SLATTERY S Hypertext Classification 2001 7.CRAVEN M.SLATTERY S Relation all earning with statistical predicate invention:Better models for hypertext ) 8.LODHI H.TAYLOR S.CRISTIANINI N Text classification using string kernels 2000 9.CRISTIANINI N.TAYLOR S.LODHI H Latent semantic kernels 2001相似文献(1条) 1.学位论文 邓健爽 知识搜索引擎的研究及应用 2007随着网络技术的发展,互联网上的信息呈指数快速增长。人们利用搜索引擎,例如baidu,google从海量的信息中查找所需。然而,当前的搜索引擎 只是把互联网上的网页收集到本地数据库,并且建立索引,根据用户的需求返回相关的网页,没有能力去提供更进一步的信息和知识。随着数据挖掘 ,人工智能等技术的发展,人们开始利用这些技术结合搜索引擎提供更加智能化的服务。例如:通过数据挖掘的分类算法对网页进行自动分类,通过对 用户日志的关联挖掘提供个性化服务,以及通过预测方法对搜索引擎提供人性化的导航检索服务。然而,这些应用并没有改变搜索引擎的本质,只是为 搜索引擎提供更加丰富和人性化的功能。当前的搜索引擎都只是提供一种信息检索服务,返回的结果网页都存在于互联网的某个具体的地方。 本文提出了一个新的概念:知识搜索引擎。知识搜索引擎为用户提供的不是一种简单的信息查找服务,而是根据互联网中的信息为用户提供一种规 律查找和知识发现服务。这种服务返回的信息不是互联网中直接获取的具体的网页或网页中的相关内容,而是通过综合互联网相关内容,对隐含的规律 或知识进行挖掘提取的结果。本文介绍了知识搜索引擎的原理,相关算法和体系结构。知识搜索引擎结合数据挖掘技术可在信息检索的基础上挖掘知识 和规律,并且向用户提供更人性化,更智能化和更知识化的服务。 本文的创新主要体现在: (1)提出了基于关键词聚类和节点距离的网页信息抽取方法。大部分的网页信息抽取方法都针对特定的网站,在某一个网站上可以很好的应用,但当 遇到新的网站时,必须人工地增加规则提取或者提供新的训练网页集。当网站的模版改变时,也要重新设计规则或输入新的训练网页集。基于关键词聚 类和节点距离的网页信息抽取方法,通过自动分析网页中的关键信息块,并对关键信息块中的有用信息进行无监督抽取,能够不加区分地对不同网站的 页面信息自动抽取,为更智能的知识搜索引擎提供结实的基础。 (2)提出了基于提取网站层次结构的网页分类方法。目前基于网页文本内容的分类和基于网页问超链接结构的分类都只利用了网页的信息,没有考虑 到网页所在网站提供的信息。由于设计者在设计网站时,为了方便用户浏览,会把网站中的网页很好的分门别类。知识搜索引擎的知识获取要高效准确 ,网页分类不但要基于网页信息,还要分析网站的层次结构。本文提出的网页分类方法对网站内部拓扑结构进行简约,提取网站隐含的层次结构,生成 层次结构树,从而达到对网站内部网页实现多层次分类的目的。本方法已经成功应用到电子商务智能搜索和挖掘系统中。 (3)提出了基于连通图动态分裂的聚类算法。针对当前大部分的聚类算法都难以处理任意形状和大小、存在孤立点和噪音以及密度多变的簇,提出了 一种基于连通图动态分裂的聚类算法。该算法首先构造数据集的,连通图,并且采用动态分裂的策略对厶连通图进行分割,把数据集分成多个互不相连 的连通图子集,每个连通图子集为一类。该算法能够有效地解决任意形状和大小、存在孤立点和噪音以及密度多变的簇的聚类问题,具有广泛的适用性 。此外,该算法更加适合应用在具有拓扑结构、大量无用信息以及复杂多变的互联网上,对网页进行聚类分析,发现网上社区。 (4)提出了基于网页-关键词拓扑结构的web信息检索主题精选以及聚类算法。针对一般搜索引擎返回的结果过于简单,用户要经过进一步的分析才能 找到合适自己的信息,本知识搜索引擎提出了基于网页.关键词拓扑结构的web信息检索主题精选以及聚类算法,对搜索引擎返回的结果进行进一步的处 理,包括主题提取以及结果聚类,使得搜索结果更加清楚明了,方便用户进行查找。 (5)提出了基于搜索引擎的关键词自动聚类法。通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识挖掘――对一组词进行智能聚类。 基于搜索引擎的关键词自动聚类方法分析搜索引擎返回的关键词相关网页的链接结构以及文本信息,发现关键词间隐含的联系从而对关键词实现智能自 动分组。该方法能够为其它计算机程序提供智能的预处理过程以及为用户提供更丰富和更有趣的知识。该方法使得用户可以更进一步利用互联网信息 ,是一个全新的研究。 (6) 提出了面向电子商务的知识搜索引擎的体系结构。结合智能商品搜索引擎(Ego),提出一个应用于电子商务领域的知识搜索引擎原型系统。系统 结合了搜索引擎,信息抽取,数据挖掘等方法,提供了商品信息智能检索,高级知识检索以及个性化等服务,大大提高了用户利用搜索引擎进行电子商 务活动和信息检索的效率。该系统自动检索互联网隐藏的知识和规律,为全新的搜索引擎的发展提供一种很有前景的方案。目前,国内外类似这样的较 为完整地将搜索引擎和智能分析决策技术有机地结合的商业化产品尚未出现。引证文献(1条) 1.高波 网页元素结构化模型的研究[期刊论文]-常州工学院学报 2008(03)本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjyy.aspx 下载时间:日
赞助商链接
本文针对网页文本自身的特点和网页重复的特征 ,提出了一 种基于网页文本结构的网页去重方法 ,该方法实现了一种动态的特征提取算法和层次指纹的相似度计 算算法。...基于主题的关键词提取方法对比研究(上)_数学_自然科学...和分类系统中受到了越来越 多的应用,关键词的提取...然而, 当前互联网上的众多新闻 网页没有提供关键词...web页面文本信息的抽取与挖掘方法研究_互联网_IT/...对基于正 则表达式和包装器的抽取以及分类、聚类挖掘...提取用户感兴趣的信息,获得更高 层次的知识和规律,...只要抓取了一个页面,就可以 顺着这个页面抓取更多...C、锚文本包含关键词 导航系统中的链接通常是分类...最后,网站层次结构都很利于蜘蛛爬行,首先得有一个...在此基础上提出了基于解析 DOM 树 结构的网页正文信息提取方法, 本文使用的方法在此基础上又做了一些改变,即 使用逆序解析 DOM 树的方法来获取网页正文信息, 在...从而分类出网页结构相似度较高的网页簇,并考虑非...主要过程是选 取一个网页作为初始模板, 然后根据...从三个网站的信息抽取结果可知,本文基于网页聚类的...基于视觉网页块分析 (3) 网页库内容分类 -5- (4) 潜在相关性 (5) 网页...所以,本次设计的主要目标是建立一个 由新闻信息结构化提取和检索为主要服务内容...关键词 关键词: HTML; 网页正文; web 服务 中图法分类号: 中图法分类号:...想要实现网页的正文提取,必须先要对HTML的语 法结构有个清楚的认识。 HTML的...该方法能够通过解析网页文件的结构,从中提取出网页...文档自动摘要的形成以及文档分类等诸多领域的应用都是...由于它是基 于信息层次的,因而 DOM 被认为是基于...的基于 Dom-Tree 和启发式规则的网页信息提取算法的...互联网的高速发展,改变了我们的生活方式, 打破了...这 篇论文提出简化块与块之间的层次结构,直接提取...
All rights reserved Powered by
www.tceic.com
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。}

我要回帖

更多关于 w.url.cn s是什么网站 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信