怎样看网站首页urlurl架构层数

点击联系发帖人 时间：2018-03-09 23:12

w.url.cn s是什么网站

当前位置： >>
基于提取网站层次结构的网页分类方法
第２６卷第５期２００６年５月文章编号：１００１―９０８ｌ（２００６）０５―１１３４一０３计算机应用ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓＶ０１．２６Ｎｏ．５Ｍａｙ２００６基于提取网站层次结构的网页分类方法邓健爽，郑启伦，彭宏（华南理工大学计算机科学与工程学院，广东广州５１０６４１）（ｄｅｅｍｅｎ＠１２６．ｃｏｍ）摘要：网页自动分类是当前互联网搜索领域一个热点研究课题，目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息，没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法，提取网站隐含的层次结构，生成层次结构树，从而达到对网站内部网页实现多层次分类的目的，并且已经成功应用到电子商务智能搜索和挖掘系统中。关键词：网页分类；网站层次结构；ＵＲＬ聚类中图分类号：ＴＰ３９３．０２文献标识码：ＡｏｎＷｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｅｘｔｒａｃｔｉｎｇｈｉｅｒａｒｃｈｙｆｒＯｍＷｅｂｓｉｔｅＤＥＮＧＪｉａｎ－ｓｈｕａｎｇ，ＺＨＥＮＧＱｉ－１ｕｎ，ＰＥＮＧＨｏｎｇ（ｃｏ阮酽矿ｃＤ唧船ｒＡｂｓｔｒａｃｔ：ＷｅｂＳｃｆｅ，ｌｃｅ＆船ｆ鹏酬，ｌｇ，＆眦ＩＩｌ劬ｆ加‰如们妙矿死ｃ＾加妇ｙ，Ｃ∞，峥ｂ“Ｇ∞，ｌｇ如粥５１０“ｌ，吼打ｍ）ｐａｇｅｃｌ幽８ｉｆｉｃａｔｉｏｎｗ∞ｏｎｅｏｆｔｈｅｈｏｔ８ｔｕｄｙｐｒｏｂｌｅｍ８ｉｎｔｈｅｄｏｍａｉｎ０ｆＩｎｔｅｍｅｔｏｎＳｅ眦ｈＩ地ｗｃｕｒｒｅｎｔｌｙ．Ｎｏｗｔｌｌｅ地ｗｅｒｅｔｈｅｃｌ聃８ｉ６ｅ玛ｂ鹪ｅｄｔｅ】【ｔ船ｄｔｈｅｈｙｐｅｄｉｎｋｓ．Ｂｕｔａｌｌｔｈ鹪ｅｍｅｔｈｏｄｓｏｆｃｌ∞８ｉｆｉｃ“ｏｎｏｒｄｙｕｓｅｄｔｈｅｉｎｆｂ玎ｎａｔｉ∞ｏｆｗａ８ｔｌ地ｐ８９ｅｓｗｉｔＩｌｏｕｔｔＩ璩ｉＩＩｆｂＨ“ａｔｉ∞ｔｈａｔｐｒａ“ｄｅｄｆ而ｍｔｈｅｗｈｏｌｅｗｅｂ８ｉｔｅ．Ｉｎｔｈｅａｎｉｃｌｅ，ｔｌｌｅ聆ｗ聃ａｄｔｈｍｅｔｉｃｔｈａｔｔｏ８ｉｍｐｌｉ６髓ｔｈｅｔｏｐｏｌｏｇｙ８ｔｍｃｔｕｍ０ｆｔｈｅＷｅｂ８ｉｔｅ８ｎｄｅｘｔｒ８ｃｔｅｄｔｈｅｃｏｎｎｏｔ“ｖｅｌＩｉｅｍＩ℃ｈｙ０ｆｔｈｅｃｌ酗ｓｉｆｉｃａｔｉｏｎｃｌ聃８墒ｅｄｔｒｅｅ，ｔｈ∞ｕ小ｗｈｉｃｈｗｅｂｕｉｌｄｔｈｅｃｏＩｌｌｄａｃｈｉｅｖｅｔｈｅｍｕｌＩｉ．１ｅｖｅｌｃｌ船ｓｉｆｉｃａｔｉｏｎ．Ｔｈｉ８ｍｅｔｈｏｄｈ聃ｂｅｅｎａｐｐｌｉｅｄｔｏｔｈｅ８ｙ８ｔｅｍｏｆｉｎｔｅｎｉｇｅｎｔｓｅａｒｃｈｉｎｇ蚰ｄｍｉｎｉｎｇ０ｆｅｌｅｃｔｒｏｎｉｃｂｕｓｉｎｅｓｓ８ｕｃｃｅ８８ｆｕＵｙ．Ｋｅｙ啪ｒｄｓ：Ｗｅｂ０ｐ８９ｅｃｌ鹪８ｉｆｉｃａｔｉｏｎ；Ｈｉｅｍｒｃｈｙ０ｆＷｅｂｓｉｔｅ；ＵＲＬｃｌｕｓｔｅｒｉｎｇ引言当前的搜索引擎或者按照一定的相关度对搜索的结果进ＨｕｍａＬ０ｄｈｉ和ＪｏｌｌＩｌｓｈａ们－№山ｒ等人的字符串核函数方法哺Ｊ，Ｎｅｌｌｏｃｒｉｓｔｉ朋ｉｒＩｉ等人的语义核函数方法一Ｊ。这些方法都是基行排序（例如ｇｏ０９１ｅ¨‘２１），或者通过人手对互联网上海量的信息进行分类（例如ｙａＩｌ００【３１）。这都在一定程度上限制了搜索引擎的发展。网页自动分类技术能够自动把互联网上的无序于文本和其他一些信息的结合对随机的网页集进行自动分类。它们对网页问超链接结构的利用只是局限于所给定的网页集内部的超链接关系，然而实际上网页是处于某个网站当中，网站的整体布局和结构也对网页的分类提供了重要的信息。网站设计者一般把网站设计成具有很好的层次分类结构，所以充分利用网站的分类结构对网页进行分类可以大大提高网页分类的精度。当前的网页分类技术都没有利用到这方面的信息，以致分类的效果未能十分准确并且与网站内部的分类差别较大。的信息自动进行分类，通过分类可以提高搜索引擎搜索的准确性和自动返回分门别类的信息给用户，让用户更加方便的得到想要的信息。因此，网页分类技术已经成为了当前网络搜索引擎领域的研究热点。１相关研究由于网页的样式多样化，而且包含了丰富的信息（如图片、表格、超链接等），一般的文本分类技术难以很好地应用到网页分类上。当前流行的一些网页分类技术主要有：概率模型方法、关系学习方法、支持向量机方法。这些方法都不仅仅利用网页上的文本信息，而且利用了网页问超链接关系等重要信息使得分类效果比起一般的文本分类方法有了很大的提高。概率模型方法有利用Ｂａｙｅｓ网络分类的方法【４Ｊ，Ｃｈａｋｒａｂａｒｔｉ基于Ｍａｒｋｏｖ随机场理论的迭代算法”Ｊ。关系学图ｌ网站拓扑结构通过以上分析，我们提出了基于提取网站层次结构的网习方法有Ｃｏｈｅｎ的ＦｕＰＰＥＲ系统，Ｐ啪ｏｎ使用ＰＲＯＧＯＬ算法结合ｗｏＩｄＮｅｔ中的语义信息进行网页分类，ｃＭｕ大学ｓｌａｔｔｅｌｙ将ＦｏＩＬ归纳算法用于网页分类№．７】。支持向量机方法有收稿日期：２００５一ｌｌ一０２：修订日期：２００６一Ｏｌ―０７页分类方法。该方法对网站的拓扑结构进行分析，通过提取关键节点和关键连接，把网站内部的拓扑结构图简约成一棵具有层次结构的分类树，从而实现一般网页分类技术难以实基金项目：广东省科技攻关项目（２００５ＢｌＯｌ０１０３３；Ａ１０２０２００１）；广州市科技攻关项目（２００４恐一嗍１）作者简介：邓健爽（１９８０），男，广东广州人．博士研究生。主耍研究方向：人工智能、网络智能搜索、数据挖掘；郑启伦，教授，博士生导师。主要研究方向：人工智能、海量数据处理、智能计算技术；彭宏，教授，博士生导师，主要研究方向：数据挖掘．万　方数据第５期邓健爽等：基于提取网站层次结构的网页分类方法繁公共候选父节点为Ａ，构造树节点Ａ，如图２（ａ）。１１３５现的对网页进行多层次分类。由于每个网站对应一棵分类树，不同网站的网页分类可以通过对分类树合并的方法实现。下面我们介绍对网站的拓扑结构进行简化生成网站层次结构树的算法的具体步骤以及通过对２０个电子商务网站内部网页进行分类的实验说明该算法的可行性和优点。该方法已经成功应用到我们的电子商务智能搜索及挖掘系统中。２算法步骤首先为网站构造一个连接矩阵，其中行ｆ和列．『表示网站２．１初始化网站拓扑矩阵２?５主蓑辇熟选父节点Ｋ有连接指向的所有网页，图２构造层次结构树过程（ａ）（ｂ）（ｃ）矩阵中假设Ｋ为ｐｊ，即网页集为Ｕ竹，其中～＝１。根据ｕＲＬ查找与种子节点同类的网页节点，即对网页的ｕＲＬ进行聚类分析，选择包含种子节点的类，并且对该类别中的所有网页构造树节点，这些树节点的父节点为Ｋ节点。例中，以Ａ为父节中的各个网页。矩阵中数据口。＝１表示网页ｉ中有到网页＿『的连接，％＝ｏ则表示网页ｆ没有连接指向网页＿『。在这里我们不对两个网页间具体的连接数目做记录，只记录是否存在直接连接，有助于简化计算和得到更精确的结果。同时为了删除网页中自身连接的影响，把矩阵中对角线上的元素全部设为ｏ。下面以图ｌ为例子说明，初始矩阵如下：Ｏｌ１１ｌＯ１０１ＯＯ１１０Ｏ０１ｌｌ０００００１Ｏ勺０Ｏ０１１００００１０Ｏ００ＯｌＯｌ０００Ｏｌ０００００００１ＯＯＯｌＯ０Ｏ００ＯＯｌ００００００００点的网页集为｛曰，Ｃ，Ｄ，Ｅ，，，￡｝，假设他们的ｕＲＬ分别为：Ｂ：ｈｔｔｐ：／／ｐｈｏｍ．ｙｏ吼ｅｔ．ｃｏｍ／ｆｉｌｅ８／ＨｓＬｌ．ｈｔⅡｌｌ；Ｃ：ｈｔｔｐ：／／ｐｈｏｍ．ｙｏｕｒＩｅｔ．ｃｏｍ／６ｌｅ８／ｌｉｓｔ－２．ｈｔＩＩｌｌ；Ｄ：ｈｔｔｐ：／／ｐｈｏｎｅ．ｙｏ岫ｅｔ．ｃ鲫∥ｆｉｌｅ８／ｌｉｓｔ＿３．ｈｔＩｌｌｌ；Ｅ：ｈｔｔｐ：／／ｐｈｏｎｅ．ｙｏ吼ｅｔ．ｃｏｌ栅ｌｅｓ／１４／１４９１１．ｈｔＩＩｌｌ；Ｉ：ｈｔｔｐ：／／ｐｈｏｎｅ．ｙｏｕｎｅｔ．ｃｏｎ∥６ｌｅｓ／４／４４４１．ｈｔｍｌ；Ｌ：ｈｔｔｐ：／／ｐｈｏｎｅ．ｙｏｕｎｅｔ．ｃｏＩｎ／ｆｉｌｅｓ／９／９６６８．ｈｔＩｌｌｌ其中的种子节点有｛曰，Ｃ｝，通过ＵＲＬ聚类分析，分别查找曰，Ｃ００００ｌＯ００１００００００００ｌ０００ｌ０００００００００００００００００００００００ＯＯＯｌ００００００００Ｏ００００００００的同类节点，得出｛日，ｃ，Ｄｌ为同一类，构造丑，ｃ，Ｄ树节点，父节点为Ａ（如图２（ｂ））。当多个种子节点不属于同一类时，分别对各个种子节点类别包含的网页建立树节点，父节点同为Ｋ。２．６查找孩子节点行ｆ和列＿『代表网页节点Ａ，Ｂ，ｃ，Ｄ，Ｅ，Ｆ，ｃ，Ｈ，，，．，，Ｋ，Ｌ，表示为Ａ和毋（ｆＪ＝ｌ，２，…，１２）。２．２选择种子节点对包含种子节点的类中每个网页节点，选择其对应的孩子集。矩阵中，类似第５步，对每个网页节点Ａ，其孩子集为选择最大出度的前后个网页节点Ｐ＝｛ｐＩ．，ｐ叫…，凡｝，这ｌ｜｝个网页节点称为种子节点。Ｕ马，其中口口＝１。并且把这些孩子集中公共的孩子节点从孩子集中删除，因为通过分析，这些公共的孩子节点绝大部分为一些广告或其他无用的连接，妨碍网站的架构分析。为剩下Ｐ＝Ⅳ０如（№＾｛∑口＃｝）＝｛Ａ，曰，Ｇ｝或者｛Ａ，曰，Ｄ｝，这里任意取Ｐ＝｛Ａ，Ｂ，Ｃ｝。２．３（１）的每个孩子建立树节点。例中选择类ｌＢ，ｃ，Ｄ｝，对类中每个网页。选择其对应的孩子集，勋％：｛层，Ｆ，Ｇ｝，Ｓ０，ｌ。：｛Ｃ，驯，ｓＤｎ。：｛Ｇ，，｝，Ｇ为公共孩子，从各自的孩子集中删除Ｇ。建立树节点后如图２（ｃ）。２．７删除相关连接删除以上所有步骤用过的所有连接关系对。在删除连接其中ｆ＝ｌ…ｎ，ｎ为网站中网页数目，肘础。｛ｌ代表取前矗个最大值，ⅣＤｄｅ（）表示取所对应的网页节点。例中取．｜｝＝３，则尸选择候选父节点集对Ｐ中每个网页节点ｐ１．（ｆ＝ｌ…后），查找具有连接指向ｐＩ．的所有网页节点，这些网页节点组成ｐＩ．的候选父节点集Ｐ口ｒＪ；＝｛耶Ｉ，砟２，…，ｐＪ，。｝，其中ｎ；（ｆ＝１…ｍ）为有连接指向ｎ．的网页节点。ｍ为有连接指向ｐＪ．的网页节点总数。从矩阵时，连相反方向的连接也一同删除，即同时删除相应的连接关系对，这样可以避免在最后的生成树中出现环状图。但这样可能把某些敏感的层次结构忽略掉或者搞错。另一种做法是只删除用到的连接，保留相反方向关系，待最后生成的结果带有环状结构，再采取相应的方法简化成一棵树。这里为了简化我们采用第一种方法。例中第一轮过后的网络拓扑结构如图３。计算，对于马的候选父节点集Ｐ口０＝ＵＣ：｛Ａ，驯。２．４确定父节点ｐｆ，其中口口＝１。例中Ａ曰Ｃ的候选父节点集分别为Ａ：｛曰，Ｃ，Ｄ｝，丑：｛Ａ，Ｅ，Ｆ｝，从该．｜｝个候选父节点集中统计出现次数最多的最频繁公共候选父节点，假设该节点为Ｋ，创建树节点。矩阵计算公式为Ｋ＝ｐｌ，其中：ｐｔ＝Ⅳ０如（№｛每唧｝），万　方数据ｐ＾∈ｕ凡。（２）图３删除连接后的网站拓扑结构２．８检查结束条件如果还剩下没用过的连接关系，跳回步骤１，否则结束。式（２）中讹并｛｝表示取最大值，Ⅳｏｄｅ（）表示取所对应的网页节点。例中候选父节点集分别为Ａ：｛四，ｃ，Ｄ｝，曰：｛Ａ，Ｅ，Ｆ｝，Ｃ：｛Ａ，驯，在三个候选父节点集中出现次数最多的最频１１３６计算机应用２００６年例子中最后生成的层次结构树如图４。的结构上可以反映。同时，为了网站浏览的多元化和突出一些网页间联系，网站设计者往往在网页里加插很多与分类无关的连接，例如广告信息等，整个网站形成了一个复杂的有向图。我们提出了一种新的基于提取网站层次分类结构的网页分类算法，该算法通过对网站有向图中有用节点和有用连接的提取，形成基于设计者分类思想的网站分类结构树。该分类结构树能够实现一般分类算法难以实现的多层次分类，满足不同的分类需要。我们把该方法应用到电子商务智能搜索图４最终层次结构树及挖掘系统中，搜索引擎对搜索下来的网页进行自动分类，取得良好的效果。由于该方法是对来自同一个网站的网页进行分类，对于从图４可以看出，存在一个节点有多个父节点的情况，如．，节点，我们允许这样的结构。实际上在一个网站里，某一个网页可能同时属于多个独立的分类。我们的方法把这种情况不同网站的网页，我们可以通过对不同结构树的节点文本信息进行聚类，从而合并成一棵包含多个网站的综合结构树的方法进行分类。同时，研究本方法结合其他的分类方法，如基通过多个父节点反映出来，但是我们不允许在层次结构树中出现有向环，即两个网页之间要么存在明确的祖先和后代关系，要么没关系，不可能出现网页Ａ既是网页曰的祖先又是网页丑的后代的情况。在构建层次结构树的过程中应用下面的规则：于文本的网页分类，进一步提高分类精度。表ｌ２０个电子商务网站的网页分类结果?在创建节点时，如果节点所对应的网页已经在之前的步骤创建了节点，则只要把相关连接直接指向该节点即可。?节点已经创建，并且有相应的父节点，现要重新定位父节点时，如果新的父节点是旧父节点的孩子，则把节点的父连接指向新的父节点，相反，如果旧的父节点是新父节点的孩子，则节点的父连接不变。否则，如果暂时不能确定两个父节点的连接关系，则添加父连接指向新父节点，即同时指向两个或以上父节点，待以后再简化。３实验通过该算法对２０个电子商务网站进行拓扑结构分析，生成简单层次结构树。如图５，算法对Ｍｙ８８４８网站拓扑结构简化后生成的层次结构树，树中每一个节点代表一个网页，节点中文本内容是指向该网页的超链接文本，可以作为网页类别的描述。要了解某一网页的类别，只需要在结构树上找到该网页节点，然后往上查找其父节点或祖先节点即可得到不同层次的分类。通过这种对网站分类结构的重现算法对网页进行分类，可以得到基于网站设计者分类思想的分类效果。同时比一般的分类算法具有更加出色的多层次分类结构。参考文献：【ｌ】【２】Ｈｎｐ：／／ｗｗｗ．ｇ∞西ｅ．ｃｏｍ【ＥＢ／ＯＬ】．ＢＲＩＮＳ。ＰＡＧＥＬ．ＴｈｅＡｎ８ｔｏｍｙｏｆａＩ丑ｒｇｅ－Ｓｃ８ｌｅＨｙｐｅｒｔｅｘｔＩｌａｌＷｅｂＳｅ眦ｈＥｎｇｉｎｅ【ＥＢ／ＯＬ】．ｈｔｔｐ：／／ｗｗｗ．８ｉｔｅ．ｕｏｎ耳啪．ｃ∥＿ｓｔａｎ／ｃ８ｉ５３８９／ｒ朗ｄｉｎｇ∥嗍ｌｅ．ｐ战ｓｉｎｇｖｅｒｙＭｏｒｇＢｎ【３】【４】Ｈｔｔｐ：／／ｗｗｗ．ｙａｈ∞．ｃｏｍ【ＥＢ／ＯＬ】．ＫＯＬＬＥＲＤ，ｓＡＨＡＭＩＭ．Ｈｉｅｒ丑ｌ℃ｈｉｃａｌｌｙｃｌａｓ８ｉｆｙｉｎｇｄｏｃｕｍｅｎｔ８ｕ－ｆ却啪ｌｄｓ【Ａ】．ＦｉｓｈｅｒＤ，ｌＣＭＬ９７【Ｃ】．ＳａｎＦｒａ眦ｉ∞ｏ：ｃａｌｅ．Ｋａｕｆｍ蹦ｎ．１９９７．１７０一１７８．ＭＨ，Ｔ１ｗＡＲＹ【５】ＣＨＡＫＲＡＢＡｆＵｌＳ．ＤＯＭＢ。ＩＮＤＹＫＰ．Ｅｎｈａｎｃｅｄｈｙｐｅｒｔｅ）【ｔ鲥翻瞳帆ｕ８ｉｎｇｈｙ刚ｉｎｋ８【州．ＬｆＷＲＡ图５Ａ．ｈ∞Ｍｙ８８４８网站层次结构树【６】【７】ＡＣＭＳＩＧＭＯＤＩｎｔＣｏｎｆｏｎＭ蹦ａ铲ｍｅｎｔｏｆＤ砒ａ【ＣＪ．ＮｅｗＹｏｒｌ【：４结语ＡＣＭＰ阳ＢＢ．１９９８．３０７―３１８．ＳＬＡ．Ｉ’ｒＥＲＹＳ．Ｈｙｐｅｒｃｅ砒Ｃｌａ８８ｉｎｃａｔｉｏｎ【Ｄ】．Ｐｉｔｔｓｂｕｒｇｈ：Ｃ唧ｅｇｉｅＲｅｌａｔｉｏｎ丑ｌｌｆｏｒ随着网页搜索技术的发展，网页分类方法成为了研究的热点。当前的网页分类方法根据利用不同的网页信息分成基于文本的网页分类，基于网页间拓扑结构的网页分类和一些综合这些信息的网页分类。但是这些分类方法都是对独立的网页集进行分类，没有考虑到网页所在网站的整体结构和网页在网站里的位置。由于网站设计者在设计网站时，为了方便用户浏览，会对网站的内容作很好的人手分类，并且从网站Ｍｅｌｌ∞Ｕｎｉｖ．２００１．ＣＲＡＶＥＮＭ。ＳＬＡｌＴｒＥＲＹＳ．ｅ唧ｉｎｇｗｉｔｈ８ｔａｔｉｇｔｉｃａｌＭ髓ｈｉｎｅｐｒｅｄｉｃ８ｔｅｉｎＶｅｎｔｉｏｎ：Ｂｅｔｔｅｒｍｏｄｅｌｓｈｙｐｅｎｅｘｔ【Ｊ】．Ｌｅａｍｉｎ昏２００１。４３（１／２）：９７―１１９．【８】【９】ＬＯＤＨＩＨ．ＴＡＹＬＯＲＳ，ＣＲＪＳｌｌＡＮＩＮＩＮ。“口Ｌｕｓｉｎｇ８ｔｒｉｎｇＴｅｘｔｃｌａｓ８ｉ壬ｉｃａ６０ｎｋｅｍｅｌ８【Ａ】．ＮＩＰＳ【Ｃ】。２０００．５６３―５６９．ＣＲＩ跚ＡＮＩＮＩＮ，ＴＡＹＬｏＲＳ．ＬｏＤＨＩＨ．Ｌ毗ｅｎｔｓｅｍ明ｔｉｃ【Ａ】．ＰｌＤｃ１８ｔｈＩｎｔＣｏｎｆｏｎＭａｃｈｉｎｅＭｏ磁；ａｎＫ蛐ｆｍ∞ｎ．２００１．６６―７３．ｋ锄ｅ１８ｋ唧ｉｎｇ【Ｃ】．Ｓ蛐Ｆｒａｎｃｉ８ｃｏ：万　方数据基于提取网站层次结构的网页分类方法作者：作者单位：刊名：英文刊名：年，卷(期)：引用次数：邓健爽，郑启伦，彭宏， DENG Jian-shuang， ZHENG Qi-lun， PENG Hong 华南理工大学,计算机科学与工程学院,广东,广州,510641 计算机应用 JOURNAL OF COMPUTER APPLICATIONS ) 1次参考文献(9条) 1.查看详情 2.BRIN S.PAGE L The Anatomy of a Large-Scale Hypertextual Web Search Engine 3.查看详情 4.KOLLER D.SAHAMI M Hierarchically classifying documents using very few words 1997 5.CHAKRABARTI S.DOM B.INDYK P Enhanced hypertext categorization using hyperlinks 1998 6.SLATTERY S Hypertext Classification 2001 7.CRAVEN M.SLATTERY S Relation all earning with statistical predicate invention:Better models for hypertext ) 8.LODHI H.TAYLOR S.CRISTIANINI N Text classification using string kernels 2000 9.CRISTIANINI N.TAYLOR S.LODHI H Latent semantic kernels 2001相似文献(1条) 1.学位论文邓健爽知识搜索引擎的研究及应用 2007随着网络技术的发展，互联网上的信息呈指数快速增长。人们利用搜索引擎，例如baidu，google从海量的信息中查找所需。然而，当前的搜索引擎只是把互联网上的网页收集到本地数据库，并且建立索引，根据用户的需求返回相关的网页，没有能力去提供更进一步的信息和知识。随着数据挖掘，人工智能等技术的发展，人们开始利用这些技术结合搜索引擎提供更加智能化的服务。例如：通过数据挖掘的分类算法对网页进行自动分类，通过对用户日志的关联挖掘提供个性化服务，以及通过预测方法对搜索引擎提供人性化的导航检索服务。然而，这些应用并没有改变搜索引擎的本质，只是为搜索引擎提供更加丰富和人性化的功能。当前的搜索引擎都只是提供一种信息检索服务，返回的结果网页都存在于互联网的某个具体的地方。本文提出了一个新的概念：知识搜索引擎。知识搜索引擎为用户提供的不是一种简单的信息查找服务，而是根据互联网中的信息为用户提供一种规律查找和知识发现服务。这种服务返回的信息不是互联网中直接获取的具体的网页或网页中的相关内容，而是通过综合互联网相关内容，对隐含的规律或知识进行挖掘提取的结果。本文介绍了知识搜索引擎的原理，相关算法和体系结构。知识搜索引擎结合数据挖掘技术可在信息检索的基础上挖掘知识和规律，并且向用户提供更人性化，更智能化和更知识化的服务。本文的创新主要体现在： (1)提出了基于关键词聚类和节点距离的网页信息抽取方法。大部分的网页信息抽取方法都针对特定的网站，在某一个网站上可以很好的应用，但当遇到新的网站时，必须人工地增加规则提取或者提供新的训练网页集。当网站的模版改变时，也要重新设计规则或输入新的训练网页集。基于关键词聚类和节点距离的网页信息抽取方法，通过自动分析网页中的关键信息块，并对关键信息块中的有用信息进行无监督抽取，能够不加区分地对不同网站的页面信息自动抽取，为更智能的知识搜索引擎提供结实的基础。 (2)提出了基于提取网站层次结构的网页分类方法。目前基于网页文本内容的分类和基于网页问超链接结构的分类都只利用了网页的信息，没有考虑到网页所在网站提供的信息。由于设计者在设计网站时，为了方便用户浏览，会把网站中的网页很好的分门别类。知识搜索引擎的知识获取要高效准确，网页分类不但要基于网页信息，还要分析网站的层次结构。本文提出的网页分类方法对网站内部拓扑结构进行简约，提取网站隐含的层次结构，生成层次结构树，从而达到对网站内部网页实现多层次分类的目的。本方法已经成功应用到电子商务智能搜索和挖掘系统中。 (3)提出了基于连通图动态分裂的聚类算法。针对当前大部分的聚类算法都难以处理任意形状和大小、存在孤立点和噪音以及密度多变的簇，提出了一种基于连通图动态分裂的聚类算法。该算法首先构造数据集的，连通图，并且采用动态分裂的策略对厶连通图进行分割，把数据集分成多个互不相连的连通图子集，每个连通图子集为一类。该算法能够有效地解决任意形状和大小、存在孤立点和噪音以及密度多变的簇的聚类问题，具有广泛的适用性。此外，该算法更加适合应用在具有拓扑结构、大量无用信息以及复杂多变的互联网上，对网页进行聚类分析，发现网上社区。 (4)提出了基于网页-关键词拓扑结构的web信息检索主题精选以及聚类算法。针对一般搜索引擎返回的结果过于简单，用户要经过进一步的分析才能找到合适自己的信息，本知识搜索引擎提出了基于网页．关键词拓扑结构的web信息检索主题精选以及聚类算法，对搜索引擎返回的结果进行进一步的处理，包括主题提取以及结果聚类，使得搜索结果更加清楚明了，方便用户进行查找。 (5)提出了基于搜索引擎的关键词自动聚类法。通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识挖掘――对一组词进行智能聚类。基于搜索引擎的关键词自动聚类方法分析搜索引擎返回的关键词相关网页的链接结构以及文本信息，发现关键词间隐含的联系从而对关键词实现智能自动分组。该方法能够为其它计算机程序提供智能的预处理过程以及为用户提供更丰富和更有趣的知识。该方法使得用户可以更进一步利用互联网信息，是一个全新的研究。 (6) 提出了面向电子商务的知识搜索引擎的体系结构。结合智能商品搜索引擎(Ego)，提出一个应用于电子商务领域的知识搜索引擎原型系统。系统结合了搜索引擎，信息抽取，数据挖掘等方法，提供了商品信息智能检索，高级知识检索以及个性化等服务，大大提高了用户利用搜索引擎进行电子商务活动和信息检索的效率。该系统自动检索互联网隐藏的知识和规律，为全新的搜索引擎的发展提供一种很有前景的方案。目前，国内外类似这样的较为完整地将搜索引擎和智能分析决策技术有机地结合的商业化产品尚未出现。引证文献(1条)1.高波网页元素结构化模型的研究[期刊论文]-常州工学院学报 2008(03)本文链接：http://d.g.wanfangdata.com.cn/Periodical_jsjyy.aspx 下载时间：日
赞助商链接
本文针对网页文本自身的特点和网页重复的特征 ,提出了一种基于网页文本结构的网页去重方法 ,该方法实现了一种动态的特征提取算法和层次指纹的相似度计算算法。...基于主题的关键词提取方法对比研究(上)_数学_自然科学...和分类系统中受到了越来越多的应用,关键词的提取...然而, 当前互联网上的众多新闻网页没有提供关键词...web页面文本信息的抽取与挖掘方法研究_互联网_IT/...对基于正则表达式和包装器的抽取以及分类、聚类挖掘...提取用户感兴趣的信息,获得更高层次的知识和规律,...只要抓取了一个页面,就可以顺着这个页面抓取更多...C、锚文本包含关键词导航系统中的链接通常是分类...最后,网站层次结构都很利于蜘蛛爬行,首先得有一个...在此基础上提出了基于解析 DOM 树结构的网页正文信息提取方法, 本文使用的方法在此基础上又做了一些改变,即使用逆序解析 DOM 树的方法来获取网页正文信息, 在...从而分类出网页结构相似度较高的网页簇,并考虑非...主要过程是选取一个网页作为初始模板, 然后根据...从三个网站的信息抽取结果可知,本文基于网页聚类的...基于视觉网页块分析 (3) 网页库内容分类 -5- (4) 潜在相关性 (5) 网页...所以,本次设计的主要目标是建立一个由新闻信息结构化提取和检索为主要服务内容...关键词关键词: HTML; 网页正文; web 服务中图法分类号: 中图法分类号:...想要实现网页的正文提取,必须先要对HTML的语法结构有个清楚的认识。 HTML的...该方法能够通过解析网页文件的结构,从中提取出网页...文档自动摘要的形成以及文档分类等诸多领域的应用都是...由于它是基于信息层次的,因而 DOM 被认为是基于...的基于 Dom-Tree 和启发式规则的网页信息提取算法的...互联网的高速发展,改变了我们的生活方式, 打破了...这篇论文提出简化块与块之间的层次结构,直接提取...
All rights reserved Powered by
www.tceic.com
copyright &copyright 。文档资料库内容来自网络，如有侵犯请联系客服。}

天天发财游戏网