- 浏览: 1578882 次
- 性别:
- 来自: 厦门
文章分类
- 全部博客 (603)
- T_java (145)
- T_script&ASP (51)
- T_C/C++ (25)
- T_PowerBuilder (11)
- T_Database (53)
- T_odoo (7)
- T_应用服务器 (50)
- T_专_条形码 (6)
- T_专_负载均衡器 (4)
- T_操作系统 (94)
- T_信息安全 (41)
- T_专_搜索引擎 (14)
- T_L_PHP (58)
- T_L_Delphi (18)
- T_L_.NET、C#、VisualStudio (25)
- T_L_Objective-C (6)
- T_移动开发 (53)
- T_网络 (109)
- T_大数据 (2)
- T_嵌入式 (2)
- T_小众技术 (24)
- T_未分类 (58)
- L_旅游印记 (1)
- L_生活随笔 (48)
- L_中国文化 (18)
- L_户外与生存 (0)
最新评论
-
csbean4004:
不知道哪传来得恶习,发帖子不好好发,故意弄错一些东西,很讨厌
让HTML5支持后置摄像头 -
withthewind:
终于找到一个可以用的了。。。
如何用VBA取得Word文档中的标题前面的序号 -
busbby:
兄弟,无法下载,说文件不完整
一个好用的Outlook ost格式文件转pst文件的工具 -
yijavakevin:
密码啊~解压密码多少?
一个二维条形码组件 -
vipbooks:
你给的那个链接根本无法下载,跳到官网看了下最新版12M,但点下 ...
十步以内完成精细web打印
今天读了一篇长E文Web Content Mining , 从题目看好像没有什么特别,也许是普通的商业软文,但是,看了第一段后发现是关于Dr. Bing Liu of the University of Illinois Chicago的,所以打足精神一句一句把它读完。第一次遇到Bing Liu这个名字是在一年前,华中科技大学一博士朋友推荐给我《Sentiment Analysis and Subjectivity》这篇综述,就是Bing Liu写的,然后又阅读了《Opinion Spam and Analysis》。都是翻来覆去精读,因为几年前就想着手开发一个web数据挖掘软件,主要用于企业竞争情报分析,酝酿了很多年都不敢下手,理论性太 强,担心吃不透或吃不准。直到2009年底开始陆续接触了几个网络舆情监测项目,也承接了好几个行业的类似项目,才下定决心投入SliceProfile 的 开发,这个项目投入巨大,资源投入十分集中,但开发周期很短(5个月),因为整个框架早就在头脑中酝酿成型了,尤其阅读《Sentiment Analysis and Subjectivity》获得的灵感更多,还阅读了大量引文,再三权衡学术和商业的分界线的位置。所以今天看这篇文章的动力决不是因为有中国名字的人写 了一篇E文而已。 这篇文章好像是对刘博士新书《Web Data Mining》的介绍和读后感,没有读过这本书,所以这篇文章的部分内容没有理解,而且有些观点不知道是刘博士的还是文章作者的。一些重要结论和一些本人的疑惑一并记录下来,作成一篇读书笔记。 刘博士将Web Data Mining分成三类: 根据这篇文章,要达到Web内容挖掘的目的,需要做: 读到这一段,首先感慨刘博士写书不是凑的,还真有些实践体验,例如,关于从亚马逊(amazon.com)上提取商品列表和商品详细信息这类活动,应该是我们这些信息劳工常做的事 。引出了一个概念:entity,但是没有搞懂对实体(entity)的界定与数据挖掘是什么关系,为什么要讲这个概念。 然后讲到结构化数据挖掘和非结构化数据挖掘,更是一头雾水。 wrapper induction这个词感觉是给MetaSeeker 的协同式网页信息提取提供了理论支持,因为在信息提取领域HTML Wrapper一般是指将网页内容进行结构化提取的软件。但是,文章的解释: 确实没有领会guess是指什么。根据刘博士的胶片(slides) ,wrapper induction采用监督学习方法(supervised),看来真的是“guess”,需要读一下他的书去仔细领会下。 关于非结构化数据挖掘比较容易理解,automatic extraction正是GooSeeker现在的研发方向,我认为很有价值且能指导我们研发规划的一句话: 文章用机票搜索服务为例说明信息集成需要解决的问题,GooSeeker网站上的比价系统案例 也需要解决信息集成问题。从不同网站上提取到的信息进行比对,识别出同义内容,例如,京东 和卓越 上的同一个商品用不同标题和不同的产品描述,需要识别出来。文章提到了多种方法: 根据刘博士的slides,信息集成被清晰地分成两类: 本文开篇提到的刘博士的那两篇文章都是有关观点挖掘的,根据我使用SliceProfile部署奇瑞汽车和中信信用卡危机监测和舆情分析系统的感 受,主观倾向性分析的准确度很难提高,而且客户的理解和要求也各不相同。普通的文本分类算法效果比较差,不得不增加大量的规则进行修正。 也许Web Content Mining 的作者有其独特的经历和视角,所以文中有些观点一时难以理解,看来还是有必要直接阅读刘博士的新书《Web Data Mining》。
Web数据挖掘的种类
Web内容挖掘要做哪些工作
什么是结构化数据提取
The word inductive means guessed
, and therefore wrapper induction implies
guessing the text
which frames a structured data object.
Algorithms exist for this purpose, but I believe this area could be more customized
when someone has a specific scientific goal in mind.
什么是信息集成
什么是观点挖掘
结论
发表评论
-
SpringBoot Fat Jar解压运行
2018-06-28 21:40 2185SpringBoot已经成为当前最流行的微服务 ... -
TeamViewer13+Patch
2018-05-13 22:19 3134下载地址: https://www.datafilehos ... -
Linux挂载阿里云对象存储OSS作为本地磁盘扩充空间备份网站
2017-09-25 08:54 1845p.s.挂载oss之后,使用rsync可以同步图片数据,非 ... -
Chrome核心的自定义浏览器
2017-07-04 17:19 791以Chrome为核心的自定义浏览器源代码,有时候可能用得到,保 ... -
让ie6 7 8 9支持html5 websocket
2016-12-23 20:52 2197结果: 从github上的 web ... -
网站获取用户手机号码的方法、系统、客户端及服务器(坑爹的玩意儿)
2016-11-22 14:22 2190网站获取用户 ... -
Ubuntu16.04上安装MT7601网卡驱动(TL-W725N/W725N)
2016-09-15 23:01 0I suggest you get a temporary ... -
如何在palcedoler中放置图标
2016-09-10 09:52 602如何在H5的palceholder中设置一个图标? ... -
一个下载youtube视频的Linux工具
2016-07-01 08:50 861我们要介绍工具是youtube-dl。这是一个跨平台的工具, ... -
另一个穿透内网的工具(类似ngrok)
2016-06-20 20:26 4740前段时间介绍过两种把内网端口映射到公网的工具:ngrok ... -
Docker无法拉取镜像的一个解决办法
2016-06-16 12:47 13912在阿里云ECS上安装了docker,安装完成后,运行hell ... -
基于 HTTP/2 的 WEB 内网穿透实现(转)
2016-04-22 15:50 1435基于 HTTP/2 的 WEB 内网穿透实现 HTTP ... -
搭建自己的ngrok服务(转)
2016-04-22 15:42 823搭建自己的ngrok服务 在国内开发、企业号 ... -
一个把内网端口映射到外网的工具ngrok(类似与花生壳)
2016-04-22 14:35 1407Secure tunnels to localhost ... -
通过 HTTP 头进行 SQL 注入(转)
2015-12-11 10:10 3190在漏洞评估和渗透测试中,确定目标应用程序的输入向量是 ... -
Node.js下载地址
2015-11-19 14:16 682http://nodejs.org/dist/ -
采用ajp代理模式配置Apache+tomcat实现负载均衡(转)
2015-11-13 10:22 814这一种方法,配置简单,性能也高。附AJP介绍: AJP ... -
apache对于某个子目录不使用反向代理设置
2015-09-06 14:19 858当使用了apache的反向代理后,如果其中部分目录不想使用反 ... -
如何给你的Android 安装文件(APK)瘦身
2015-08-18 13:18 925文章目录 APK 文件 ... -
移动前端头部标签(HTML5 head meta)
2015-08-18 13:07 809移动前端开发中添加一些webkit专属的HTML5头部标签 ...
相关推荐
Web数据挖掘
web数据挖掘web数据挖掘web数据挖掘web数据挖掘web数据挖掘web数据挖掘
《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息...
web数据挖掘web数据挖掘web数据挖掘web数据挖掘web数据挖掘web数据挖掘
Web数据挖掘原理及实现Web数据挖掘原理及实现Web数据挖掘原理及实现Web数据挖掘原理及实现Web数据挖掘原理及实现Web数据挖掘原理及实现Web数据挖掘原理及实现Web数据挖掘原理及实现Web数据挖掘原理及实现
python 作为数据挖掘领域中较为热门的程序语言,其丰富的技术库和强大的科学计算能 力成为数据挖掘过程中不可或缺的工具。本次研究主要是基于python语言对智联 招聘网的数据进行数据挖掘分析和建模,进而得出招聘...
很好的基于web的数据挖掘的...本文对此作了一个比较全面的综述 概括了基于 WEB 的数据挖掘的主要概念和特点 说明各类 WEB 挖掘尤其是基于 WEB 使用的挖掘所常用的技术 最后简单介绍了 XML 在基于 WEB 数据挖掘中的应用
web数据挖掘相关论文,以及他在社交网络中的社交研究
基于数据仓库的web数据挖掘实例,对于那些初学者是一个很好的学习资料。
Web数据挖掘已经成为当前广泛研究的课题。目前许多网站都是用HTML构建的,给Web数据挖掘带来了诸多 困难,XML的出现为Web数据挖掘带来了便利。本文介绍了Web数据挖掘的概念和遇到的困难,分析了XML在Web数据挖掘 中...
利用web挖掘对网站进行优化。
随着网络信息的增长,Web数据挖掘变得越来越重要,尤其是在电子商务领域。本文首先阐述了Web数据挖掘的基本知识,然后主要讨论了Web数据在电子商务中的应用。
数据挖掘是一门新兴的边缘学科,它是从海量的数据中提取出先前未知但又...本文采取理论和实践相结合的方法,有重点的从Web 数据挖掘的重要性、Web 数据挖掘方法等方面入手,简单介绍一下数据挖掘技术在Web 中的应用。
web数据挖掘论文,学习的好材料,web爬虫,兴趣吧?
《Web 数据挖掘:将客户数据转化为客户价值》 当今少有的介绍web数据挖掘的好书之一(超星阅读器格式)
包括几篇几年介绍web数据挖掘技术的文章,对web数据挖掘的相关概念和发展趋势做了介绍,对想从事这方面研究的朋友有参考价值
Web数据挖掘研究初探.pdf
WEB数据挖掘相关术语整理,详细整理和介绍了Web数据挖掘相关的名词以及原理。
基于XML的Web数据挖掘及关联算法的研究
Web数据挖掘综述3篇 分类数据挖掘综述及应用 关联规则数据挖掘综述 基于Web数据挖掘的综述 离群数据挖掘综述 流数据挖掘综述 流数据挖掘综述 时间序列数据挖掘综述 数据挖掘综述6篇 物流管理数据挖掘综述 医学数据...