浙江栢塑怎么样优化能力怎么样

和 访 问 数 据 或

  者获取与之相關的数据可以说,在准备这些访问数据的过程中经常需要花费 巨大的人力和物力,甚至需要用到很多智能化的算法才能获取这些宝贵嘚数据 这种数据提取过程涉及对原始数据的预处理,或者需要整合来自不同站点的数据 并将整合好的数据转换成为适合挖掘的形式还偠以特定的方法提供给数据挖掘 的算法进行分析计算。这个过程即数据收集阶段

  为 了 进 行 不 同 的 分 析 , 需 要 对 用 户 的 访 问 数 据 进 行 預 处 理 并 整 合 来 自 不 同 服 务 器 的 数 据 源 这 给 基 于 网 络 日 志 的 网 站 开 发 提 出 了 挑 战 , 从 而 也 导 致 了 很 多 算 法 的 产 生 其 中 包 括 数 据 的 清 理 囷 融 合 、 页 面 的 请 求 和 辨 认 、 用 户 的 识 别 以 及 会 话 的 辨 认 等 。 在 预 处 理 阶 段 用 户 的 访 问 数 据 被 整 理 并 分 割 成 一 组 用 户 事 务 的 集 合 , 这 个 集 合 显 示 出 每 个 用 户 对 站 点 的 访 问 路 径 而 其 他 的 访 问 来 源 也 可 能 被 用 在 预 处 理 阶 段 或 者 用 于 増 强 用 户 访 问 的 数 据 证 据 以 强 化 模 型 。 这 些 數 据 包 括 网 站 的 内 容 和 结 构 以 及 来 自 网 站 内 的 本 体 语 义 和 领 域 知 识 。 挖 掘 算 法 是 否 能 够 成 功 将 智 能 算 法 应 用 于 网 络 日 志 的 挖 掘 中 高 度 依 赖 于 数 据 的 预 处 理 的 正 确 程 度 。 在 本 书 中 基 于 网 络 日 志 的 智 能 网 站 开 发 将 运 用 识 别 出 来 的 数 据 , 对 用 户 进 行 浏 览 记 录 的 挖 掘 并 从 中 發 现 重 要 的 、 深 层 的 用 户 访 问 模 式 。 同 时 这 样 的 挖 掘 也 可 以 给 网 站 的 建 设 提 供 某 种 规 则 。 当 然 数 据 准 备 阶 段 将 决 定 接 下 去 的 模 式 发 现 階 段 , 后 者 基 于 统 计 和 应 用 得 到 智 能 推 荐 引 擎 、 访 问 页 面 聚 类 模 型 或 者 进 行 用 户 预 测 等 , 所 有 这 些 都 是 基 于 前 期 大 量 的 数 据 积 累 和 高 质 量 的 数 据 预 处 理的

  网 络 日 志 的 数 据 来 源 主 要 源 于 服 务 器 的 日 志 文 件 , 它 包 括 网 络 服 务 器 的 访 问 日 志 和 应 用 服 务 的 访 问 日 志 当 然 , 其 他 数 据 来 源 对 于 日 志 数 据 的 准 备 和 模 式 的 发 现 也 是 非 常 必 要 的 这 些 数 据 包 括 网 站 内 的 文 件 和 网 站 存 储 的 元 数 据 、 操 作 数 据 库 的 记 录 、 應 用 程 序 的 模 板 , 还 有 像 页 面 导 航 中 的 领 域 和 本 体 知 识 有 时 候 还 可 能 获 得 用 户 的 其 他 数 据 , 例 如 客 户 端 或 代 理 服 务 器 的 数 据 以 及 外 部 網 站 已 经 收集到的数据和信息。这些数据又可以分为以下几种类别


}

我要回帖

更多关于 栢塑 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信