<?xml version="1.0" encoding="gb2312"?>

<!-- RSS generated by oioj.net on 4/16/2004 ; 感谢LeXRus提供 RSS 2.0 文档; 此文件可自由使用，但请保留此行信息 --> 
<!-- Source download URL: http://blogger.org.cn/blog/rss2.asp       -->
<rss version="2.0">

<channel>
<title>FullerHua的博客</title>
<link>http://blogger.org.cn/blog/blog.asp?name=FullerHua</link>
<description>FullerHua的博客</description>
<copyright>blogger.org.cn</copyright>
<generator>W3CHINA Blog</generator>
<webMaster>webmaster@blogger.org.cn</webMaster>
<item>
<title><![CDATA[当当天梭表之争看电商渠道价格监控的必要性]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=51675</link>
<author>FullerHua</author>
<pubDate>2011/7/12 22:12:38</pubDate>
<description><![CDATA[<div class="content">
    <p>前面多篇文章观察了现代连锁零售渠道相关的一些现象，比如，<a href="http://www.gooseeker.com/cn/node/Fuller/2011060401">通路费用盈利模式</a>和<a href="http://www.gooseeker.com/cn/node/Fuller/2011060402">家电连锁零售业的类金融模式</a>等
都是大家关注和研究的焦点。在基于多级分销体系的传统渠道向以连锁零售为特点的现代渠道转移的过程中，竞争优势发生了急剧的变化，供应商在整个供应链中的
地位逐渐丧失，供零关系日趋紧张，在这场持续的博弈中，供应商日渐被连锁零售的货架所包围，供应商逐渐失去了产品组合和品牌经营的支配权。以网上商城为代
表的新兴电商渠道对供应商来说既是挑战也是机会。维持有序的价格体系和多渠道利益平衡是最大挑战，同时可以看到，电商渠道是供应商冲破现代渠道货架包围的
绝佳机会，把握好这个机会，供应商会再次获得产品组合的支配权，品牌经营策略才能得以实施，再次冲破屏障，获得与消费者沟通的机会。<a href="http://www.gooseeker.com/">GooSeeker</a>凭借领先的精确网页内容抓取和数据挖掘技术，打造的电商渠道价格监控平台<a href="http://app.metaseeker.cn:8080/pricecis_view/" target="_blank">PriceCIS</a>一经推出，迅速被众多知名企业所采纳。父亲节促销引起的当当与天梭表之争再次给我们提供了观察供零关系和渠道竞争的机会。
</p>

<p>
搜狐新闻<a href="http://it.sohu.com/20110622/n311193208.shtml" target="_blank">《当当和天梭表品牌纠纷：商业模式带来利益转移》</a>从商业模式和渠道利益纷争角度分析了这次事件。引述如下分析：
</p>
<pre>   <i>天梭中国排斥当当在网上销售其商品，根本原因是触犯了其商业利益，传统厂家一般都实行
   分区域分渠道的销售价格控制策略，不同的渠道商所拿到的商品出厂价格是不同的；不同区
   域的价格也有所差异，这样做的目的是为了保证利润和传统渠道商的利益。但网上销售的出
   现，特别是第三方电子商务企业的出现，打破了这种商业模式的正常运营，扰乱了其渠道价
   格。</i>
</pre>
<p>关于网购规模，该文指出：

</p>
<pre>   <i>2010年中国网络购物交易规模达到4980亿元，约占中国社会消费品零售总额的3.2%。</i>
</pre>
<p>该文还举例说明了传统供应商采用电子商务的趋势：
</p>
<pre>   <i>格兰仕、TCL、长虹、海尔等传统家电品牌商均开设了自己的B2C官方网站；蒙牛、中粮这类
   食品类企业也推出了自己的B2C网站；百丽集团、李宁等服装类品牌企业铺设了B2C官方网站、
   淘宝商城官方旗舰店、网上授权加盟店和折扣店等全网络渠道</i>
</pre>
<p>
凤凰网新闻<a href="http://finance.ifeng.com/money/roll/20110622/4178665.shtml" target="_blank">《当当网“天梭表事件”引出冰山一角》</a>从售后服务角度观察电商渠道和传统和现代渠道，网购必须在消费者心中树立与传统渠道一样的售后服务形象。
</p>
<p>
凤凰网另一则消息<a href="http://news.ifeng.com/mainland/detail_2011_06/20/7122215_0.shtml" target="_blank">《天梭当当授权之争不断升级 专家：本质是商业利益之争》</a>从渠道管理角度观察这次事件，天梭表渠道管理似乎有些漏洞，以牺牲消费者利益来解决这个问题既不合理也不合法。此事件之前，卡西欧（CASIO）涉入另次完全类似的事件，文章道出了事件本质：

</p>
<pre>   <i>本质是一种利益之争，或者讲的更明白一点，现在互联网经济对传统渠道冲击非常大，厂家
   对于互联网又爱又恨，如果说不做互联网会丧失很大一块市场，如果做互联网，开展网络销
   售了，就可能对传统渠道造成一些冲击</i>
</pre>
<p>该文还给出了解决网络渠道和传统渠道之争的建议，值得品读：
</p>
<ul><li>网上可以上架一些差异化产品
</li><li>在网上做一个副品牌，称之为“副品牌策略”
</li><li>采取一种尾货的策略，比如说传统渠道已经不销售了，那么可以把这样的一些产品专门集中到网上来销售
</li></ul>
<p>
新闻<a href="http://www.cnbeta.com/articles/146011.htm" target="_blank">《当当天梭微博开掐 或因实体经销商不满》</a>也分析了该事件，最后的分析值得细读：
</p>
<pre>   <i>“事实上，京东当当等卖水货是不可能的，肯定是从其他官方经销商或代理商处直接拿的货。
   天梭等厂商也不可能不知道这一点，之所以出面放话，可能是出于实体经销商们的压力。 ”
   某B2C商城的采购人士向记者表示，这已是业内常见现象。通常知名厂商对于上述行为不会过
   多干涉，除非是网上折扣太低，让实体经销商感到威胁、进而向官方反向施压，迫其出面调停。</i>

</pre>
  </div>]]></description>
</item><item>
<title><![CDATA[什么是网上商城价格离散度]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=51673</link>
<author>FullerHua</author>
<pubDate>2011/7/12 21:15:28</pubDate>
<description><![CDATA[<div class="content">
    <p>价格离散度是指在市场上同类商品价格分布相对于某一中心价格分布的偏离程度。价格离散度同样也是衡量市场效率水平的一项重要指标。如果一个
市场的效率水平较高，那么消费者和零售商之间的信息不对称程度就会大为降低，市场上某种商品的均衡点的价格水平一般也应位于价格水平等于零售商边际成本
（P＝MC）的价格水平，即实现了资源要素配置的“帕累托最优”的价格水平，这样，同类商品价格分布的离散程度也就较小。如果市场的效率水平较低，市场中
存在较强的市场分割，市场垄断，新的零售商进入的成本相当大，消费者和零售商之间的信息不对称程度也就很强，那么市场中同类商品价格水平的离散程度也就较
大，这样的市场其效率水平也就相当低。
</p>

<p>
互联网对提高市场效率方面有巨大贡献，尤其是大大降低了市场不对称程度。那么网上商城的价格离散度是否最低？众多研究发现，实际情况并不是这样，而且不同商品领域的价格离散度不一样，很多领域的价格离散度都高于传统市场。比如，<a href="http://product.dangdang.com/product.aspx?product_id=20275039&amp;ref=search-1-pub" target="_blank">《网络零售——定价策略与渠道选择》</a>一书列举了几例：
</p>
<ul><li>Lee在《What Makes Internet Users Visit Cyber Stores Again? Key 
Design Factors for Customer 
Loyalty》一文指出：根据对网上和网下的旧车拍卖市场进行对比研究，发现网上的价格水平较高
</li><li>Bailey在《Intermediation and Electronic Markets: Aggregation and 
Pricing in Internet 
Commerce》一文指出：通过对网络市场和传统市场的图书、音像、CD和软件的价格进行比较研究，发现网上价格较高，价格离散度较小
</li><li>Clemons在《Price Dispersion and Differentiation in  Online Travel: An Empirical Investigation》一文指出：网上机票的价格离散度大于传统市场
</li><li>Brynjolfsson和Smith在《Frictionless Commerce? A Comparison of Internet and Conventional Retailer》一文指出：网上图书和CD的价格离散度也大于传统市场。
</li></ul>
<p>
<a href="http://www.cma.zju.edu.cn/nml/Achievement/UploadFiles_4177/200707/20070722194531832.pdf" target="_blank">《网络市场效率与价格离散研究》</a>一文列举了更多价格离散度或高或低的例子，并且试图解释价格离散度的原因，比如：
</p>
<ul><li>购物便利性

</li><li>网上商家履约的可信度，包括
<ul><li>发货时间,即货物是否按照合同时间准时发出;
</li><li>发送的货物是否符合所承诺的数量、质量;
</li><li>对客户承诺的各种服务是否兑现。
</li></ul>
</li><li>产品信息：网上产品信息的深度可以降低网上的价格敏感性，<a href="http://www.gooseeker.com/cn/node/knowledgebase/whatissocialmedia">社会性媒体</a>以快速建立网上社交网络和大量发布UGC（User Generated Content）内容著称，从而催生<a href="http://www.yixieshi.com/b2b/6320.html" target="_blank">社会化电子商务（Social Shopping）</a>。
</li><li>网络零售商的物流能力
</li><li>进入网络市场的时间
</li><li>网络零售商的信誉与品牌
</li><li>消费者认知
</li><li>转换成本
</li><li>消费者分布状况
</li><li>价格歧视

</li><li>市场中的竞争者数量。但是在市场中,竞争者的数量和价格离散之间存在非线性的关系，Cohen 的最近研究指出:一个市场中替代者的出现是一把双刃剑,一方面竞争者的增多带来大量的替代产品,价格离散降低;另一方面,信息失真增多,消费者易被误导,反而导致价格离散增大
</li><li>消费者参与和
</li><li>产品普及率等13 个因素
</li></ul>
<p>
采用实证的方法，对不同地域和不同时间的市场进行不同的观察和研究，结论可能不一样，但是，网上商城价格离散度并不总是很低是肯定的。
</p>
<p>
利用<a href="http://app.metaseeker.cn:8080/pricecis_view/" target="_blank">网上商城价格监测和竞争分析系统PriceCIS</a>可以观测各种价格离散度情形。PriceCIS可以对所有网上商城价格进行监测，而且监测频度极高，通过比价、统计分析、数据挖掘等技术手段，对网上商城商品定价和价格竞争进行分析研究。PriceCIS是<a href="http://www.gooseeker.com/">GooSeeker研发中心</a>发布的一款竞争情报分析系统，与网络口碑和竞品分析系统SliceProfile同属于SliceSearch产品线。PriceCIS的技术基础是MetaSeeker云计算架构下的网络信息抽取和结构化，以及基于自然语言处理技术的同品和竞品分析引擎。
</p>
<p><img src="http://www.gooseeker.com/files/images/pricedispersion.png"></p>
<p>
MetaSeeker被众多网上商城用来跟踪竞争对手的价格波动，似乎应该看到所有网上商城紧密跟进最低价格的情势，恰恰相反，除了个别网上商城以外，根
据PriceCIS监测的结果，并不是所有商城都采用跟进最低价格的策略。下图是PriceCIS的价格监测观察窗口，利用一些统计工具和数据挖掘工具，
该系统对苏泊尔品牌的厨具和厨用电器进行持续观察，可以发现很多定价规律。网上商城商品价格定价策略将在专门文章中讨论。
</p>
  </div>]]></description>
</item><item>
<title><![CDATA[企业竞争情报分析工具--Mozenda研究]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=51125</link>
<author>FullerHua</author>
<pubDate>2011/3/15 20:43:44</pubDate>
<description><![CDATA[<div class="content">
    <p>企业竞争情报分析和报告系统是一个复杂的企业IT系统，而且根据不同企业的部署和使用目标，企业竞争情报系统需要数量可观的定制开发功能部件。但是，离不开两大基石：<a href="http://www.gooseeker.com/cn/node/Fuller/2010122002">数据采集和数据挖掘</a>。此前，大量博文针对不同项目需求讲解了怎样组合使用网络信息采集工具MetaSeeker和企业竞争情报分析工具SliceProfile，本文将讲述一个竞争产品Mozenda，下面的内容主要来自Mozenda的一篇<a href="http://www.bradenton.com/2011/02/11/2949234/web-scraping-analysis-is-a-business.html" target="_blank">商业软文</a>，
该商业软文主要用作推广网络信息采集工具Mozenda，所以，文章透漏的有价值的信息不多；另外，至今没有看到Mozenda展示成型的数据挖掘和企业
竞争情报分析解决方案，所以，数据分析方面的叙述略显空洞。无论如何，仍然能够从中看到Mozenda的宣传重点，具有一定借鉴价值。</p>
<p>Mozenda软文首先说明<a href="http://www.gooseeker.com/cn/node/knowledgebase/iwom">网络口碑（IWOM）</a>的
重要性，例如，对旅馆的评论信息可以左右顾客是否选择某个旅店。因此，作为产品生产商或者服务提供商，需要密切监控博客（blog）、论坛（bbs）、聊
天室（chat room）和社交网络网站（social networking 
sites，比如，微博，SNS，问答），即时搜索到网民对自己的和竞争者的产品和服务的评价，并自动分类出正面或者负面评价，还可以进一步采取措施防止
事态发展。举例来说，采取的措施可以是<a href="http://www.gooseeker.com/cn/node/Fuller/2010080401">舆论疏导</a>、想办法删帖、制造正面消息淹没负面信息等等。关于网络危机公关的详细讲解参看<a href="http://www.gooseeker.com/cn/node/Fuller/2010090901">《SliceProfile舆情监测平台是网络危机公关的必备工具》</a>。
比如，今天各大门户网站发布了标题为《中石化被曝组织人员在网上宣传涨价合理》的新闻文章，曝光大公司内部网络宣传员的工作内容和职责，可以看到“水军”
从游击队已经发展成御林军了，说明企业对网络舆论控制的欲望。没过几个小时，大门户几乎都将这篇文章删除了，可见网络舆论争夺战的激烈程度。</p>
<p>Mozenda软文也提到网络信息过多问题（overabundance），但是并没有进一步说明应对方法。网络信息的使用者都有各自不同的角度和
价值取向，例如，产品生产者或者服务提供者、产品或者服务购买者、行业观察者、市场研究者、水军等等，信息的价值对这些不同的角色来说是不同的，有些信息
甚至被某些角色看来是垃圾信息。比如，某某企业为淹没负面消息大量制造的正面消息对该企业和其御用水军来说是武器和子弹，对普通消费者来说是垃圾甚至误
导，对市场研究者来说也是掩盖市场真相的垃圾信息。因此，企业竞争情报系统需要灵活且有效的垃圾信息识别和处理能力。</p>
  </div>]]></description>
</item><item>
<title><![CDATA[社会化BI(Social BI)和Tibbr观察]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=51124</link>
<author>FullerHua</author>
<pubDate>2011/3/15 20:25:44</pubDate>
<description><![CDATA[<div class="content">
    <p>观察基于<a href="http://www.gooseeker.com/cn/node/knowledgebase/whatissocialmedia">社会化媒体技术</a>的<a href="http://www.gooseeker.com/cn/node/Fuller/2011011901">Enterprise2.0</a>也有时日了，看到Tibco进入这个领域，感觉是个大事件，毕竟Tibco在企业市场有很坚实的根基，这将对Enterprise2.0创业企业造成一定影响。</p>

<hr>
<br>
<h3>什么是社会化BI</h3>
<p><a href="http://spotfire.tibco.com/silverspotfire/social-bi.aspx" target="_blank">Tibco的定义</a>
</p>

<pre>   Social Business Intelligence, or Social BI, has evolved as a collaborative effort<br>   among end users of Cloud technologies to create, publish and share custom, <br>   post user-generated reports. <br></pre>
<p>
<a href="http://smartdatacollective.com/brett-stupakevich/31873/next-big-thing-social-bi-tibbr" target="_blank">[1]</a>是TIBCO的一篇软文，但是，没有看出来TIBCO的社会化BI解决方案到底有多出色，倒是提出了几个问题，也可以说是几个追求的目标：
</p>
<ul><li>社会化企业（social enterprise）在用户和技术之间建立了一个互惠互动关系：用户能够方便地访问需要的数据；同时数据能够及时地送达合适角色的人。（难道传统的BI系统没有实现这个目标？）
</li><li>建立Facebook私有社区、私有的twitter 
feed或者封闭的LinkedIn组都可以为企业创建一个私有工作环境，但是，这种方式不直接、不及时，所以，应该建立企业社交平台，围绕系统、流程、
企业应用、话题等将企业员工聚拢在一起，社会化BI是其中一个部件。
</li></ul>

<hr>
<br>
<h3>观察Tibbr</h3>

<p>TIBCO的社会化BI产品应该是指Silver 
SpotFire，Silver是云计算平台，而Tibbr是企业微博或者更确切地说是企业内消息转发平台（这也许与TIBCO著名的企业消息总线产品有
很大渊源），这些产品集成在一起建立Enterprise2.0解决方案。<a href="http://www.pcworld.com/businesscenter/article/183888/tibcos_tibbr_aims_to_be_enterprise_twitter.html" target="_blank">Tibco's 'Tibbr' Aims to Be Enterprise Twitter</a>提到的两点值得注意：
</p>
<ul><li>与Twitter不同，Tibbr不光关注（follow）人，还关注话题。但是这一点似乎是所有Enterprise2.0平台的共性，例如，<a href="http://www.gooseeker.com/cn/node/Fuller/2011011901">SocialText</a>能够关注wiki（维基）空间、表格、文档、论坛话题等等，几乎所有工作文件都可以被关注。
</li><li>现在正值软件开发商抢占（put their flag in the sand）协同化和社交化产品市场的时节，甚至吸引了原不属于协同化软件开发商的加入，导致协同计算领域十分热，例如，Salesforce.com刚发布了企业微博产品Chatter
</li></ul>
<hr>
<br>
<h3>什么是社会化商业（social business）</h3>
<p><a href="http://www.cmswire.com/cms/web-engagement/achieving-the-social-business-inside-and-out-009386.php" target="_blank">Achieving the Social Business, Inside and Out</a>的作者认为当今太多的新技术或者产品与社会化（social）有关，因此有必要用另一个词总括当前的商业环境：social business（社会化商业）。作者还写了另一篇文章<a href="http://www.cmswire.com/cms/web-engagement/achieving-the-social-business-inside-and-out-part-2-009394.php" target="_blank">Achieving the Social Business, Inside and Out, Part 2</a>，两篇文章分别从企业内和企业外两个角度说明社会化的重要性。企业内主要是提高工作效率，就是说Enterprise2.0是一种生产力工具，另外，企业内的核心活动是决策，基于事实的<a href="http://www.gooseeker.com/cn/node/Fuller/2011010901">协同决策</a>将更加有效。同时作者观察到还有一些空白需要填补，例如BI与Enterprise2.0的集成，尤其是社会化BI无缝接入到协同决策过程，是否Silver SpotFire这类产品能够填补这个空白需要拭目以待。</p>
<p>
外部应用主要围绕社会化客户关系管理（Social CRM）进行论述，同企业内部的生产力工具不同，社会化技术应用到企业外部应该定位成企业营销工具，在网络舆论快速制造和传播的年代，<a href="http://www.gooseeker.com/">SliceProfile网络口碑（IWOM）管理工具</a>也是不可或缺的组成部分。
</p>

<hr>
<br>
<h3>关于Spotfire的更多阅读材料</h3>
<ul><li><a href="http://tech.sina.com.cn/it/2010-12-30/00005042981.shtml" target="_blank">TIBCO Spotfire探索商业智能分析新时代</a></li><li><a href="http://www.cn.tibco.com/multimedia/ds-cn-spotfire-enterprise-analytics_tcm58-10714.pdf" target="_blank">Tibco Sportfire Enterprise Analytics介绍</a></li></ul>  </div>]]></description>
</item><item>
<title><![CDATA[什么是游戏化(gamification)推广模式]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=50956</link>
<author>FullerHua</author>
<pubDate>2011/1/30 11:08:23</pubDate>
<description><![CDATA[<div class="content">
    <p>过去的一年是社交网络（Social Networking）和社会化游戏（Social Gaming）大红大紫的一年，甚至渗透到非消费者用户市场，例如，近期正在跟踪研究的<a href="http://www.gooseeker.com/cn/node/Fuller/2011012001">基于社交网络技术的Enterprise2.0</a>企业用户市场，根据<a href="http://news.ycombinator.com/item?id=1612503" target="_blank">MindQuilt</a>自己的介绍：
</p>
<pre>   We’ve incorporated some gaming dynamics to try to increase engagement<br>   but we’re unsure if it’s just a distraction or if it offers a real<br>   intrinsic motivation to keep interacting with the app.<br></pre>
<p>看来，他们对gamification营销传播模式的效果并不确定，当时读到这并没有特别的感受。这两天应客户的要求使用<a href="http://www.gooseeker.com/">MetaSeeker和SliceProfile</a>对
开心网、人人网、主流微博等进行舆情监测和企业竞争情报挖掘，在开心网和人人网上注册开户，发现本人的email地址已经被使用了，这两个网站的推广手段
用得很到位。也好，免得我自己动手了，只是帐号名称不太合我口味。上到开心网，让我感受到似乎被关进了笼子，似乎找不到拓展我的社交网络的手段，难道只能
通过社交游戏拓展社交网？这样是否能够找到同好？是否能够达到我的商业目标？越来越多的商业企业入住<a href="http://www.linkedin.com/" target="_blank">LinkedIn</a>，游戏化是否太单一了？
</p><p>所以，我们有必要专门研究一下什么是游戏化。根据维基百科的词条<a href="http://en.wikipedia.org/wiki/Gamification" target="_blank">Gamification</a>：

</p>
<pre>   Gamification is the use of game play mechanics for non-game applications<br>   (also known as "funware"), particularly <b>consumer-oriented web</b> and <b>mobile</b><br>    <b>sites</b>, in order to encourage people to adopt the applications.<br>   It also strives to encourage users to engage in desired behaviors<br>   in connection with the applications. ...<br>   The technique can encourage people to perform chores that they ordinarily<br>   consider boring, such as  <b>completing surveys</b>, <b>shopping</b>, or <b>reading web sites</b>.<br><br></pre>
<p>
<a href="http://www.readwriteweb.com/enterprise/2010/11/buzzword-watch-the-gamificatio.php" target="_blank">Buzzword Watch: The Gamification of Work</a>一文既肯定了游戏化在某些应用场合的作用，也举例说明不恰当的应用可能会带来适得其反的效果，尤其在工作环境，所以建议：
</p>
<pre>   If the aim of game mechanics is to make work more engaging, <br>   then the mechanics need to be applied to <b>actual business processes</b>. <br>   It shouldn't be time-wasting games tacked on to something else.<br></pre>
<p>在工作环境中，游戏机制应该被设计得直接融入实际商业过程中，而不是一个附加的东西。
</p>
<hr>
<br>
<h3>怎样善用游戏化机制</h3>

<p><a href="http://gigaom.com/2010/11/26/gamification-needs-to-level-up-heres-how/" target="_blank">Gamification Needs to Level Up — Here’s How</a>一文总结了几种没有善用游戏化机制的情形：
</p>
<ul><li>将游戏化附加在不相关的事物上
</li><li>游戏化机制的拥护者认为加分（例如，points and badges）等鼓励机制（即所谓的pointsification）总是很好玩。
</li><li>游戏化机制被采用的目的仅仅是为了活跃网站运营，并没有给用户带来价值，用户就像一个棋子而已
</li><li>游戏化机制设计不合理，用户可能会很快失去兴趣
</li></ul>
<p><a href="http://www.gauravonomics.com/blog/why-you-should-not-integrate-game-mechanics-into-your-service/" target="_blank">Why You Should NOT Integrate Game Mechanics Into Your Service</a>一文汇集了很多人的意见，是进一步研究怎样善用游戏机制的线索。
</p>

<hr>
<br>
<h3>游戏化机制怎样设计</h3>

<p><a href="http://www.vcdave.com/2010/09/14/top-10-ways-to-apply-game-mechanics-to-non-game-services/" target="_blank">Top 10 Ways to Apply Game Mechanics To Non-Game Services</a>罗列了10点最重要的：
</p>
<ul><li>如果要为自己的网站服务设计游戏机制，首先将自己的服务看成游戏，这样就容易确定哪些游戏机制最适合。自己的网站服务能够看成游戏吗？作者提醒要注意消费者应用和企业应用环境的不同。当然，fun at work甚至fun as work一直是企业主追求的目标。
</li><li>代表地位和荣誉（Status &amp; Reputation）的机制，例如，徽章（Badge），既应该让用户自己看到，也应该很容易被其他人看到。作者用开法拉利跑车者的感受和目的作比喻。
</li><li>礼品赠送和互换（Gifting &amp; reciprocation）
</li><li>游戏币多样化（Hybrid monetization）
</li><li>排行榜和得分（Leaderboards &amp; points）
</li><li>免费赠送物（Free stuff），例如，登录即可获得150游戏币
</li><li>尽量将虚拟世界的东西做得逼真，例如，金币的形状和声音
</li><li>社会化证明（Social proof）：让用户知道自己的好友也喜欢某物

</li><li>增加紧缺感和时效性（Create scarcity）
</li><li>细致地做A/B测试（A/B test）并分析测试结果。
</li></ul>
<p>引用<a href="http://ucdchina.com/topic/332" target="_blank">《什么是A/B测试》</a>一文的解释：
</p>
<pre>   A/B测试是可用性测试的一个方法，A/B测试的核心就是：确定两个元素或版本（A和B）<br>   哪个版本更好，你需要同时实验两个版本。最后，选择最好的版本使用。<br></pre>
  </div>]]></description>
</item><item>
<title><![CDATA[什么是Web数据挖掘]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=50955</link>
<author>FullerHua</author>
<pubDate>2011/1/30 11:05:54</pubDate>
<description><![CDATA[今天读了一篇长E文<a href="http://www.marktab.net/datamining/index.php/2011/01/12/web-content-mining/" target="_blank">Web Content Mining</a>，
从题目看好像没有什么特别，也许是普通的商业软文，但是，看了第一段后发现是关于Dr. Bing Liu of the University of 
Illinois Chicago的，所以打足精神一句一句把它读完。第一次遇到Bing 
Liu这个名字是在一年前，华中科技大学一博士朋友推荐给我《Sentiment Analysis and 
Subjectivity》这篇综述，就是Bing Liu写的，然后又阅读了《Opinion Spam and 
Analysis》。都是翻来覆去精读，因为几年前就想着手开发一个web数据挖掘软件，主要用于企业竞争情报分析，酝酿了很多年都不敢下手，理论性太
强，担心吃不透或吃不准。直到2009年底开始陆续接触了几个网络舆情监测项目，也承接了好几个行业的类似项目，才下定决心投入<a href="http://www.gooseeker.com/cn/node/1036">SliceProfile</a>的
开发，这个项目投入巨大，资源投入十分集中，但开发周期很短（5个月），因为整个框架早就在头脑中酝酿成型了，尤其阅读《Sentiment 
Analysis and 
Subjectivity》获得的灵感更多，还阅读了大量引文，再三权衡学术和商业的分界线的位置。所以今天看这篇文章的动力决不是因为有中国名字的人写
了一篇E文而已。
<div class="content">

<p>
这篇文章好像是对刘博士新书《Web Data Mining》的介绍和读后感，没有读过这本书，所以这篇文章的部分内容没有理解，而且有些观点不知道是刘博士的还是文章作者的。一些重要结论和一些本人的疑惑一并记录下来，作成一篇读书笔记。
</p>

<hr>
<br>
<h3>Web数据挖掘的种类</h3>
<p>刘博士将Web Data Mining分成三类：
</p>

<ul><li>Web Usage Mining：挖掘用户访问网站的行为模式，例如，挖掘clickstreams，可能会用到用户TCP/IP地址和用户帐号信息，以便做关联分析
</li><li>Web Structure Mining：挖掘超链接背后的知识，例如，分析web信息是怎样聚类的
</li><li>Web Content Mining：从网页内容挖掘知识
</li></ul>
<hr>
<br>
<h3>Web内容挖掘要做哪些工作</h3>
<p>根据这篇文章，要达到Web内容挖掘的目的，需要做：
</p>
<ul><li>Structured Data Extraction：结构化数据提取
</li><li>Information Integration：信息集成（结构化的信息）
</li><li>Opinion Mining(Information Extraction)：观点挖掘（非结构化的信息抽取）

</li></ul>
<br>
<h4>什么是结构化数据提取</h4>
<p>读到这一段，首先感慨刘博士写书不是凑的，还真有些实践体验，例如，关于从亚马逊（amazon.com）上提取商品列表和商品详细信息这类活动，应该是我们这些信息劳工<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/multilayers.html">常做的事</a>。引出了一个概念：entity，但是没有搞懂对实体（entity）的界定与数据挖掘是什么关系，为什么要讲这个概念。
</p>
<p>然后讲到结构化数据挖掘和非结构化数据挖掘，更是一头雾水。
</p><p>wrapper induction这个词感觉是给<a href="http://www.gooseeker.com/">MetaSeeker</a>的协同式网页信息提取提供了理论支持，因为在信息提取领域HTML Wrapper一般是指将网页内容进行结构化提取的软件。但是，文章的解释：
</p>

<pre>   The word inductive means <b>guessed</b>, and therefore wrapper induction implies<br>   <b>guessing the text</b> which frames a structured data object.<br></pre>
<p>确实没有领会guess是指什么。根据刘博士的<a href="http://www.cs.uic.edu/%7Eliub/SIGKDD-Webcast-WCM-Liub.pdf" target="_blank">胶片（slides）</a>，wrapper induction采用监督学习方法（supervised），看来真的是“guess”，需要读一下他的书去仔细领会下。
</p><p>关于非结构化数据挖掘比较容易理解，automatic extraction正是GooSeeker现在的研发方向，我认为很有价值且能指导我们研发规划的一句话：
</p>
<pre>   Algorithms exist for this purpose, but I believe this area could be more customized<br>   when someone has a specific scientific goal in mind.<br></pre>
<br>
<h4>什么是信息集成</h4>
<p>文章用机票搜索服务为例说明信息集成需要解决的问题，GooSeeker网站上的<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">比价系统案例</a>也需要解决信息集成问题。从不同网站上提取到的信息进行比对，识别出同义内容，例如，<a href="http://www.360buy.com/" target="_blank">京东</a>和<a href="http://www.amazon.com.cn/" target="_blank">卓越</a>上的同一个商品用不同标题和不同的产品描述，需要识别出来。文章提到了多种方法：
</p>
<ul><li>make a bridging assumption：按我的理解就是一些映射或者转换规则
</li><li>query probing：按我的理解就是将上述的转换规则封装成一个服务或者模块，由它进行转换。只是模块化更好，可能就像corba或者SOA一样给人展示一幅看起来很美好的图画。

</li><li>通过计算相似性来做聚类：似乎太高科技了。不过在比价系统中我确实想用这种方法尝试一下，可以用比较简化的方法，例如，通过一些特征词构成的向量空间，计算向量夹角也许能行。
</li></ul>
<p>根据刘博士的slides，信息集成被清晰地分成两类：
</p>
<ul><li>schema match：将不同表的字段进行匹配，识别出元数据语义相同的字段来
</li><li>data instance match
</li></ul>
<br>
<h4>什么是观点挖掘</h4>
<p>本文开篇提到的刘博士的那两篇文章都是有关观点挖掘的，根据我使用SliceProfile部署奇瑞汽车和中信信用卡危机监测和舆情分析系统的感
受，主观倾向性分析的准确度很难提高，而且客户的理解和要求也各不相同。普通的文本分类算法效果比较差，不得不增加大量的规则进行修正。
</p>
<hr>
<br>
<h3>结论</h3>
<p>也许<a href="http://www.marktab.net/datamining/index.php/2011/01/12/web-content-mining/" target="_blank">Web Content Mining</a>的作者有其独特的经历和视角，所以文中有些观点一时难以理解，看来还是有必要直接阅读刘博士的新书《Web Data Mining》。
</p>
<br>
<p>
<a href="http://www.cs.uic.edu/%7Eliub/WCM-Refs.html" target="_blank">更多参考资料</a>：包括视频。
</p>
  </div>]]></description>
</item><item>
<title><![CDATA[卓越网商品数据分级抓取]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=50849</link>
<author>FullerHua</author>
<pubDate>2011/1/7 10:29:44</pubDate>
<description><![CDATA[<p>前面我们已经讲解了当当网和京东商城的抓取案例：</p>
<ul><li><a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">当当百货价格抓取</a>
</li><li><a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschemasenior.html">京东商城价格抓取</a>
</li></ul>
<p>要部署商品比价系统或者竞争情报分析平台，显然还需要抓取更多网站的商品价格。本文讲解卓越网站的抓取方案。</p>
<p>同前两篇文章不同，本文重点讲解分级抓取方法，分成以下两级：</p>
<ol><li>先抓取商品类别信息网页，在那个网页上抓取每个类别的类别名和网页的URL地址
</li><li>进入每个类别的网页，在此抓取所有商品列表，重点抓取商品名和价格
</li></ol>
<p><img src="http://www.gooseeker.com/files/images/plan.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1111">图1</a>
</p>
<p>实际上还可以有第三步，进行第二步的时候，能够抓取到每个商品的详细信息网页的URL地址，如图1的案例B，在第三步，进入这个详细信息页，抓取更多商品信息，例如，详细规格说明、用户评论等等。
</p><p>层级还可以向另外一个方向延伸，如图1C，先在一个类别汇聚网页上抓取所有类别的URL，例如，卓越网
http://www.amazon.com.cn/gp/site-directory/ref=topnav_sad 
就是这种网页。卓越网实际上将类别分成多级：大类别、小类别还有更小的类别。本文讲解案例A。
</p><p><a href="http://www.gooseeker.com/">MetaSeeker</a>可以抓取任何多级，因为
MetaSeeker跟其他网站抓取软件不同，内部有一个完整的网络爬虫，也就是说采用了搜索引擎的技术，网络爬虫可以深入抓取任何多级。而且像搜索引擎
那样，上级和下级的抓取在时间顺序上没有关联，下级可以在任何时候执行，这一点也跟很多网站抓取软件不同。这些特性赋予MetaSeeker强大的能力和
很高的性能。</p>
<p><a href="http://www.gooseeker.com/cn/node/Fulelr/2009120501">《手机游戏网站抓取规划》</a>系列文章用大篇幅文字详细说明了分级抓取的规划和执行过程，本文重点用屏幕截图直观地说明这些过程。</p>
<p>下面我们以卓越网作为目标网站：
</p>
<ul><li>第一级：在大类网页上抓取商品小类别，目的是抓取小类别的网页URL
<ul><li>样本网页：http://www.amazon.com.cn/gp/site-directory/ref=topnav_sad
</li><li>主题名：demo_JY_mobile_category
</li></ul>

</li><li>第二级：在商品列表网页上抓取所有商品的价格和其他数据。第一级抓取的URL能够访问到一个网页，网页上罗列了所有属于某个小类别的商品，本级的抓取目标就是这个商品列表。
<ul><li>样本网页：
</li><li>主题名：demo_JY_mobile_list
</li></ul>
</li></ul>
<p><b>注释1</b>：用MetaStudio定义网站抓取规则时不用考虑顺序，但是，为了写作的方便，我们先定义第一级再定义第二级。
</p><p><b>注释2</b>：本文不再为每一步做截图，MetaStudio的详细操作步骤参看<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当网百货价格》</a>。
</p>

<hr>
<br>
<h3>1  抓取商品类别</h3>
<p><img src="http://www.gooseeker.com/files/images/bucket_layer1.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1112">图2</a>
</p>
<p>如图2，定义抓取商品类别的规则的步骤如下：
</p>
<ol><li>网页左侧的类别栏是本次抓取的目标，它对应DOM树上的DIV[@class='refinements']节点
</li><li>将@class='refinements'作为<a href="http://www.gooseeker.com/cn/node/document/terms/freeformat">FreeFormat标志</a>映射给<a href="http://www.gooseeker.com/cn/node/document/terms/schema">信息结构</a>的顶层容器节点<i>category</i>，有关FreeFormat映射的详细过程参见<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschemasenior.html">《抓取京东商城价格》</a>
</li><li>在顶层容器节点下创建嵌套的容器节点<i>list</i>（参看下面的注释），并做<a href="http://www.gooseeker.com/cn/node/document/terms/replica">样例复制品</a>映射，有关样例复制品映射的详细过程参见<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当百货价格》</a>

</li><li>在<i>list</i>容器中只有两个信息属性：<i>page</i>和<i>name</i>分别抓取网页URL和类别名，所以要进行数据映射和FreeFormat映射。
</li></ol>
<p><b>注释</b>：本例创建了一个嵌套的容器，这不是必须的。创建容器节点<i>category</i>并将FreeFormat标志<i>refinements</i>映射给它的目的是：精确地在网页上将类别信息块定位出来，然后再在这个块内使用样例复制品规则抓取所有类别名和网址。
</p>

<p><img src="http://www.gooseeker.com/files/images/attr_clue.png"><br>
<a href="http://www.gooseeker.com/cn/node/1113">图3</a>
</p>
<p>图3显示整理箱中的信息属性<i>page</i>的各种特性，可以看到勾选了<a href="http://www.gooseeker.com/cn/node/document/metastudio/operationv4/insrtdelproperty">clue和url</a>，表示抓取到的URL网址不仅仅被当成普通数据对待，而且在这个网址基础上创建一条线索，引导网络爬虫抓取下一级数据。如果设定了这两个特性，在<b>Clue Editor</b>工作台上自动创建了一个<a href="http://www.gooseeker.com/cn/node/document/metastudio/operationv4/insrtdelclue">Info类型的线索</a>。
</p>

<hr>
<br>
<h3>2  定义下一级线索</h3>

<p><img src="http://www.gooseeker.com/files/images/theme_layer2.png"><br>
<a href="http://www.gooseeker.com/cn/node/1114">图4</a>
</p>
<p>如图4，有如下步骤：
</p>
<ol><li>因为在Bucket Editor工作台上为信息属性<i>page</i>设定了clue和url特性，在Clue Editor工作台上会看到自动创建了一个编号为clue 0的线索，是Info类型，表示利用<i>page</i>字段的值创建一条线索
</li><li>给下一级抓取主题起一个名字：<i>demo_JY_list</i>
</li></ol>
<p>至此，第一级的信息结构已经定义完成，参照<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当网百货价格》</a>上载信息结构和MetaStudio自动生成的网站抓取规则，DataScraper就可以随时随地对卓越网上的手机类别进行抓取了。
</p>

<hr>
<br>
<h3>3  为下一级定义数据抓取规则</h3>
<p>为了定义一个新的数据抓取规则，首先需要在MetaStudio上创建一个新的工作台（重新运行MetaStudio或者点击菜单<b>文件</b>-〉<b>创建工作台</b>），
然后在新工作台上定义数据抓取规则和线索抓取规则。为了定义下一级数据抓取规则，当然可以采用这个操作过程。还有另外一种方式：假设我们定义完第一级抓取
规则后，并没有立即定义第二级，而是运行了DataScraper，为第一级抓取数据，这样就为第二级抓取到了很多线索，此时，再用MetaStudio
定义第二级抓取规则时，MetaStudio自动从这些线索中找一个样本网页，而不用手工输入样本网页的地址。
</p>
<br>
<h4>3.1  抓取第一级</h4>

<p><img src="http://www.gooseeker.com/files/images/theme_state1_layer2.png"><br>
<a href="http://www.gooseeker.com/cn/node/1115">图5</a>
</p>
<p>在没有执行抓取第一级数据之前，我们看一下当前的主题状态，如图5：
</p>
<ol><li>转到Theme List工作台，并输入查询条件<i>demo_JY*</i>
</li><li>看到下一级主题的状态是reserved
</li></ol>
<p>

</p><p><img src="http://www.gooseeker.com/files/images/theme_state2_layer2.png"><br>
<a href="http://www.gooseeker.com/cn/node/1116">图6</a>
</p>
<p>用DataScraper为主题<i>demo_JY_mobile_category</i>抓取完数据后，再在MetaStudio上看主题<i>demo_JY_list</i>的状态，如图6：

</p>
<ol><li>状态变成torecognize，表示已经为第二级主题抓取到了很多线索，但是还没有为它定义抓取规则。
</li><li>在MetaStudio的<b>Theme List工作台</b>上选中这个主题，点击鼠标右键，弹出菜单，选择菜单项<b>识别</b>，开始为下一级主题定义信息结构。首先会弹出一个告警框，提示您当前工作台不空，是否要清空，确认后发现MetaStudio自动选择了一个样本页面并加载到内嵌浏览器中，而且重新刷新了DOM树，并清空了各个工作台。
</li></ol>
<br>

<h4>3.2  定义第二级的抓取规则</h4>
<p>同<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschemasenior.html">《抓取京东商城价格》</a>一样，我们要抓取下面的数据：

</p>
<ul><li>商品名：商品名称
</li><li>商品网页：显示商品详细信息的网页地址，这个地址有很多用处，例如，用做导航，以便执行下一级采集（图1案例B）。
</li><li>市场价格：卓越给出的市面价格
</li><li>卓越价格：卓越的优惠价
</li></ul>

<p><img src="http://www.gooseeker.com/files/images/bucket_layer2.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1117">图7</a>
</p>
<p>图7显示了数据映射和FreeFormat映射操作，有如下步骤：
</p>
<ol><li>将含有商品名的TEXT节点映射给信息属性<i>商品名</i>，这是数据映射
</li><li>将含有商品详细信息页面网址的@href节点映射给信息属性<i>商品网页</i>，这也是数据映射
</li><li>将@class='title'映射给信息属性<i>商品名</i>和<i>商品网页</i>，这是FreeFormat映射

</li><li>将含有市面价格的TEXT节点映射给信息属性<i>市场价格</i>，这是数据映射
</li><li>将@class='newPrice'映射给信息属性<i>市场价格</i>，这是FreeFormat映射
</li><li>将含有卓越价格的TEXT节点映射给信息属性<i>卓越价格</i>，这是数据映射
</li><li>将@class='price'节点映射给信息属性<i>卓越价格</i>，这是FreeFormat映射
</li><li>最后，将@class='title'的节点映射给顶层容器节点<i>商品</i>，这是为了用FreeFormat方法抓取多实例，详细说明参见<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschemasenior.html">《抓取京东商城价格》</a>。

</li></ol>
<p>点击MAP按钮查看生成的抓取规则，并点击TestThis测试抓取规则，发现只抓取了样例商品。这是因为卓越网页上有很多@id属性，每个商品都有唯一的@id，MetaStudio在缺省情况下优选@id作为FreeFormat标志，为了改变缺省行为，参看图8。

</p><p><img src="http://www.gooseeker.com/files/images/pref_layer.png"><br>
<a href="http://www.gooseeker.com/cn/node/1118">图8</a>
</p>
<p>图8有如下步骤：
</p>
<ol><li>在Bucket Editor工作台的整理箱tab标签上点击鼠标右键，弹出菜单
</li><li>选择菜单项<b>首选项</b>，弹出一个窗口，<b>DOM节点定位</b>由<b>偏好id</b>改成<b>偏好class</b>
</li></ol>

<p>再次生成抓取规则，这次就能够将所有商品信息抓取下来了，因为网页上很多DOM节点拥有共同的class值，如果使用class值作为FreeFormat标志，就能抓取多实例。
</p><p>上载信息结构后，再转去<b>Theme List</b>工作台看主题的状态，第二级主题状态也变成了ready
</p>

<hr>
<br>
<h3>4  下一步做什么</h3>
<p>两级抓取规则定义完成后，就可以用DataScraper进行数据抓取了。既可以用DataScraper的手工批量抓取功能一级一级地启动抓取过
程；也可以用周期性自动抓取功能自动启动抓取，而且可以将两级抓取放在两个不同的线程中并行抓取，甚至因为第二级数据比较多从而启动更多个线程或分布在多
台计算机上。详细说明参见<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当网百货价格》</a>。
</p>
<p>卓越网上面商品类别很多，上文仅仅讲解手机类别的两级抓取，其它类别的数据抓取规则定义是否也这样从头做起？当然存在快捷方式：

</p>
<ul><li>方案1：采用图1C的方案，从一个总入口开始，先抓取大类别，然后抓取小类别，然后更小类别，直到商品详细信息网页。这是普通的网络爬虫模式，采用这种方式自动化程度高，按照本文一级级定义抓取规则即可。
</li><li>方案2：采用图1A的方案，采用套用模板功能为其它类别定义抓取规则。这种方式自动化程度不高，但是，可以人工筛选商品类别。卓越网上同一个商品发布在多个不同类别中，而且这种重复现象大量存在，所以，手工选择类别可以大大降少抓取工作量。下一篇文章将讲解套用模板功能。
</li></ul>]]></description>
</item><item>
<title><![CDATA[抓取京东商城商品价格]]></title>
<link>http://blogger.org.cn/blog/more.asp?name=FullerHua&amp;id=50848</link>
<author>FullerHua</author>
<pubDate>2011/1/7 10:27:41</pubDate>
<description><![CDATA[<p><a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当网商品价格》</a>一文讲解了怎样使用<a href="http://www.gooseeker.com/">MetaStudio</a>的基本功能，GooSeeker拥有多项发明专利，其中一项有关怎样提高网站抓取规则的适应性，也就是说当网站的网页结构变化了，对抓取规则的影响尽量降到最低。GooSeeker称其为<a href="http://www.gooseeker.com/cn/node/document/terms/freeformat">FreeFormat技术</a>。本文讲解怎样使用这个技术。</p>

<hr>
<br>

<h3>1  MetaSeeker运行</h3>
<p>MetaSeeker工具包中的MetaStudio和DataScraper的运行方法不再赘述，如果不知道如何启动，请参看</p>
<ul><li><a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/install.html">《MetaSeeker安装》</a>
</li><li><a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当网商品价格》</a>
</li></ul>

<hr>
<br>
<h3>2  定义京东商品价格数据抓取规则</h3>

<p>本节讲解的过程基本上与<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当网商品价格》</a>相同，但是增加了FreeFormat映射，以提高数据抓取的精度和适应度。</p>
<ul><li><a href="http://www.gooseeker.com/cn/node/document/terms/sample">样本网页</a>：http://www.360buy.com/products/737-794-870-0-0-0-0-0-0-0-1-1-1.html
</li><li><a href="http://www.gooseeker.com/cn/node/document/terms/theme">主题名</a>：demo_JD_list_1（请注意下面的注释）
</li><li>抓取目标
<ul><li>在商品列表网页抓取如下商品信息
<ul><li>商品名：商品名称
</li><li>商品网页：显示商品详细信息的网页地址，这个地址有很多用处，例如，用做导航，以便执行<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/multilayers.html">多级采集</a>。
</li><li>市场价格：京东给出的市面价格

</li><li>京东价格：京东的优惠价。注意：我们只抓取价格图片的URL地址，需要另外的程序下载价格图片，并进行识别，例如，<a href="http://www.cnblogs.com/fatlity/archive/2010/05/04/1727024.html" target="_blank">网络上共享的一个软件</a>。
</li></ul>
</li><li>翻页抓取
</li></ul>
</li></ul>
<p><b>注释：有时候用MetaStudio再次加载信息结构<i>demo_JD_list_1</i>不成功，原因分析参见<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/semanticblock.html">《抓取新蛋网商品价格》</a>，那篇文章讲解怎样精确定位网页的语义信息块以避免这个问题，并且另外定义了一个主题名是<i>demo_JD_list_2</i>的信息结构。</b></p>

<br>

<h4>2.1  命名抓取主题</h4>
<p><img src="http://www.gooseeker.com/files/images/theme_define_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1095">图1</a>
</p>
<p>如图1，进行如下步骤：
</p>
<ol><li>输入样本网页地址，并且回车，然后等待，观察下面的2-5步，直到他们都自动完成，再进行第6步
</li><li>观察网页加载到内嵌浏览器
</li><li>在<b>DOM树视窗</b>中看到DOM树被生成了
</li><li>在MetaStudio底部的状态条上看到“完成”字样
</li><li>在<a href="http://www.gooseeker.com/cn/node/document/terms/workboard">Theme Editor工作台</a>上，网页地址被自动填入<b>页面地址</b>输入框中。
</li><li>在工作台的主题名输入框中输入：<i>demo_JD_list_1</i>
</li><li>点击<b>Bucket Editor</b>标签进行2.2节的步骤

</li></ol>

<br>
<h4>2.2  定义商品数据抓取规则</h4>
<p>下面分成多个小节讲解怎样定义商品价格数据的抓取规则，除FreeFormat映射外文字内容不多，因为与<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">前一个教程</a>基本一样，如果不熟悉这些名词和术语，可以先阅读前一个教程。
</p>
<br>
<h5>2.2.1  创建整理箱</h5>

<p><img src="http://www.gooseeker.com/files/images/bucket_create_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1096">图2</a>
</p>
<p>如图2，进行如下步骤：
</p>
<ol><li>点击<b>newBckt</b>按钮，创建<a href="http://www.gooseeker.com/cn/node/document/terms/bucket">整理箱</a>。
</li><li>在弹出窗口中输入整理箱名字
</li></ol>

<br>
<h5>2.2.2  丰富整理箱的内容</h5>

<p><img src="http://www.gooseeker.com/files/images/prop_create_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1097">图3</a>
</p>
<p>如图3，给整理箱创建很多字段，我们称其为<a href="http://www.gooseeker.com/cn/node/document/terms/property">信息属性</a>，有如下步骤：
</p>
<ol><li>在<b>整理箱编辑区</b>选中刚才创建的整理箱demo_JD_list_1
</li><li>在整理箱编辑区点击鼠标右键，弹出整理箱编辑菜单
</li><li>选中菜单项<b>包容</b>，表示在整理箱内部创建一个字段。
</li></ol>
<br>
<p><img src="http://www.gooseeker.com/files/images/prop_edit_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1098">图4</a>
</p>
<p>执行到图3的最后一步时，会弹出一个对话框，如图4，您需要编辑信息属性的特性，有如下步骤：
</p>
<ol><li>给信息属性起名：<i>商品名</i>
</li><li>为这个信息属性设定<b>key特性</b>
</li></ol>
<p><i>小技巧：网站抓取器DataScraper运行模式有多种组合，最常用的是区分成普通模式和非普通模式（在<a href="http://www.gooseeker.com/">GooSeeker</a>网站上搜索“AJAX”可以看到讲解其它模式的文章），后者可以大大加快京东价格信息的抓取速度，为了使用后者，一定要给至少一个信息属性设定key特性，详细参见<a href="http://www.gooseeker.com/cn/node/document/metastudio/operationv4/definedatarule">《编辑整理箱结构》</a>。如果您使用的是企业版DataScraper，还能够进一步加快抓取速度，尤其对那些含有大量图片和视频的网页最有效，参看<a href="http://www.gooseeker.com/cn/node/Fuller/2010112701">《怎样提高采集京东商城商品价格的速度》</a>。</i></p>
<p>重复进行上述步骤，创建所有信息属性，弹出菜单中有如下菜单项：
</p>
<ol><li>包容
</li><li>其前
</li><li>其后
</li></ol>
<p>分别表示新建立的信息属性与被选中的信息属性的相对关系。如果为一个信息属性创建包容的信息属性，就产生了一个嵌套结构，这样可以抓取更复杂的数据结构，而不局限于二维表格，这是<a href="http://www.gooseeker.com/">MetaSeeker</a>相对于其它网站抓取软件的技术优势。
</p>
<br>

<h5>2.2.3  指定将哪些数据抓取到整理箱中</h5>

<p>为了能够顺序抓取所有商品而不遗漏，需要将第一个商品作为样例，下面的映射操作都是在这个商品上进行的。所谓映射，就是告诉MetaStudio将网页上的什么数据抓取到整理箱的什么信息属性中，MetaStudio据此自动计算出数据抓取规则。
</p>
<p><img src="http://www.gooseeker.com/files/images/data_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1099">图5</a>
</p>
<p>如图5，有如下步骤：
</p>
<ol><li>打开<a href="http://www.gooseeker.com/cn/node/document/terms/revert">反向选择</a>开关，打开后只要在内嵌浏览器上点击看到的内容，就能自动在DOM树上找到对应节点
</li><li>点击第一个商品的描述信息
</li><li>看到一个弹出框，显示定位到的DOM节点的顺序号
</li><li>DOM树被自动展开，而且被选中的节点的背景是蓝色或者灰色（当窗口焦点不在DOM树上时）
</li></ol>
<p><b>注意：</b>DOM树展开后可能没有自动滚动到被选中的那个节点，需要根据节点号手工拖动DOM树视窗上的卷滚条，找到那个节点。
</p>

<p><img src="http://www.gooseeker.com/files/images/prop_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1100">图6</a>
</p>
<p>如图6，如下步骤：
</p>
<ol><li>点击第一个商品的商品名
</li><li>MetaStudio在DOM树视窗上自动定位到一个A节点
</li><li>展开A节点，找到text节点并选中
</li><li>可以看到该text节点的内容与内嵌浏览器上显示的内容一致，说明选择对了
</li><li>在DOM树视窗上点击鼠标右键，弹出菜单
</li><li>选中菜单项“<i>商品名</i>”，完成text节点到信息属性的映射
</li></ol>
<p><img src="http://www.gooseeker.com/files/images/url_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1101">图7</a>
</p>
<p>图7显示执行完图6的步骤后信息属性映射结果：将节点号<i>6257</i>的text节点映射给“<i>商品名</i>”。还可以看到怎样将@href节点映射给“<i>商品网页</i>”，用以抓取URL地址。

</p>

<p><img src="http://www.gooseeker.com/files/images/verity_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1102">图8</a>
</p>
<p>如图8，验证抓取规则是否正确，有如下步骤：
</p>
<ol><li>点击<b>MAP</b>按钮，让MetaStudio自动生成抓取规则，即<a href="http://www.gooseeker.com/cn/node/document/terms/instruction">MAP文件</a>
</li><li>在MetaStudio下部的<b>MAP文件</b>窗口可以看到生成的抓取规则，实际上是一个XSLT程序。
</li><li>点击<b>TestThis</b>按钮，验证本整理箱的抓取规则的有效性。相反，如果点击<b>TestAll</b>，而且在工作台上创建了多个整理箱，则验证所有整理箱的抓取规则。

</li><li>抓取结果显示在<b>输出信息</b>窗口中。
</li></ol>
<p>同<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html">《抓取当当网价格数据》</a>教
程不同，到这一步只抓取了一个商品实例，而没有将商品列表完全抓取下来，必须要手工指定多实例抓取规则。可以采取两种方案：1，用样例复制品；2，用
FreeFormat。《抓取当当网价格数据》教程使用了样例复制品，抓取京东商品同样可以使用样例复制品，但是，为了说明FreeFormat的用法，
本教程使用FreeFormat抓取多实例。</p>
<br>

<h4>2.3  FreeFormat映射</h4>
<p>FreeFormat技术主要为了提高抓取网页的精度和适应度。例如，用<a href="http://www.gooseeker.com/">SliceProfile</a>部署企业竞争情报分析系统时，一定要很精确地抓取需要的数据，例如，抓取帖子评论数、发布时间等等，抓取不准确会干扰分析结果。提高了适应度可以延长抓取规则的寿命，因为受到目标网页结构变化的影响变小了，维护抓取规则的频度和工作量也随之减少。</p>
<br>

<h5>2.3.1  信息属性的FreeFormat映射</h5>
<p><img src="http://www.gooseeker.com/files/images/freeformat_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1103">图9</a>
</p>
<p>京东商城的网页上有很合适的FreeFormat标志，如图9所示，进行如下步骤：
</p>
<ol><li>第一个商品样例的DOM块中有个DIV节点，它的@class 值 <i>p-name</i> 作为FreeFormat标志
</li><li>在DOM树视窗中点击鼠标右键，弹出菜单
</li><li>执行<b>FreeFormat映射</b>，将<i>p-name</i>映射给信息属性<i>商品名</i>

</li></ol>
<p><img src="http://www.gooseeker.com/files/images/prop_ff_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1104">图10</a>
</p>
<p>图10显示所有的信息属性都进行了FreeFormat映射，需要说明的是：
</p>
<ul><li>没有必要为每个信息属性都做FreeFormat映射，而是有合适的FreeFormat标志才使用
</li><li>FreeFormat标志一定要位于商品样例DOM块内部，而不应该将其它商品DOM块内的标志映射给样例商品
</li><li>同一个FreeFormat标志可以映射给多个信息属性，例如，为<i>商品名</i>和<i>商品网页</i>抓取的数据都位于DOM节点DIV[@class='p-name']下，而且不存在其它的能够区别两者的不同的FreeFormat标志，则共享同一个FreeFormat标志
</li></ul>
<p>经过FreeFormat映射后，生成的抓取规则只有稍许改变，而且点击<b>TestThis</b>按钮看到的抓取结果没有改变：只抓取了样本商品。</p>

<br>
<h5>2.3.2  多实例的FreeFormat映射</h5>
<p><img src="http://www.gooseeker.com/files/images/bucket_ff_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1105">图11</a>
</p>
<p>观察DOM树，每个商品都放在HTML LI块中，相互之间结构相同，内部具有相同的FreeFormat标志，如图11，还是使用第一个样例商品，将代表商品名的DIV节点的@class值<i>p-name</i>作为FreeFormat标志，映射给整理箱中的容器节点（最顶层节点）“<i>商品</i>”，再看抓取规则，已经改变了，点击<b>TestThis</b>按钮，看到将所有商品抓取了下来。

</p><p>为什么能用FreeFormat标志抓取多实例？因为HTML网页上所有商品都有这个@class属性。所以，有下面的结论：
</p>
<ul><li>只能用@class抓取多实例，而不能用@id，因为@id一般是唯一的
</li><li>按照某种规则（参看下面注释）选择商品信息DOM块中的某一个@class作为FreeFormat标志，而且所有商品都应该有这个@class
</li><li>并不是商品信息块中的任何一个@class都行（参看下面注释），映射后需要按<b>TestThis</b>测试一下。如图11，<i>p-img</i>就不行
</li></ul>
<p>
<i>小技巧：定义多实例抓取规则时，通常FreeFormat映射优选，而<a href="http://www.gooseeker.com/cn/node/document/terms/replica">样例复制品映射</a>次选。</i>
</p>
<p><b>注释：</b>哪些@class可以作为抓取多实例的FreeFormat标志？选择时有诸多限制，不是MetaStudio想设计成这样，
而是因为自动生成抓取规则的算法过于复杂，里面的bug限制了FreeFormat标志选择的自由度，通常用于抓取多实例的FreeFormat应该符合
这些规则：</p>
<ul><li>FreeFormat标志最好位于代表样例商品的DOM块的上部，DOM块是指DOM树的一个分支，越往上，分支越汇聚在一起，如果在最顶部，那么它能够代表这个块。</li><li>本文的例子选用了<b>第一个</b>信息属性<i>商品名</i>的FreeFormat标志作为抓取多实例的标志，如图11，不能选用<i>p-img</i>，也不能选用不是第一个信息属性的FreeFormat标志。</li><li>由于有这些限制，需要在上载信息结构时点击<b>TestThis</b>按钮测试规则是否正确</li></ul>

<hr>
<br>

<h3>3  定义翻页抓取规则</h3>
<p>京东商城上的商品很多，分成多个网页，翻页抓取可以从头到尾将所有商品价格抓取下来。为了达到这个目的，我们创建了一个marker类型的<a href="http://www.gooseeker.com/cn/node/document/terms/clue">线索</a>，而且该线索的类型是线内线索。关于这些概念的详细说明参见<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/bulkscrape.html">《翻页抓取当当网价格》</a>。下面用图例说明怎样定义翻页抓取规则。</p>
<br>
<h4>3.1  创建线索</h4>

<p><img src="http://www.gooseeker.com/files/images/clue_create_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1106">图12</a>
</p>
<p>如图12，采用以下步骤创建翻页抓取线索：
</p>
<ol><li>转到<b>Clue Editor工作台</b>
</li><li>点击<b>newClue</b>按钮，创建一条线索，线索自动编号为<i>clue 0</i>
</li><li>设定该线索的类型：记号线索。在内嵌浏览器的网页上，可以看到“下一页”超链接，这就是记号。
</li><li>指定为线内线索，用于翻页的线索一般都是线内线索，详细说明参见<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/bulkscrape.html">《翻页抓取当当网价格》</a>
</li><li>由于指定为线内线索，目标主题名和当前主题名相同，自动填入该输入框。

</li></ol>

<br>
<h4>3.2  线索映射</h4>
<p><img src="http://www.gooseeker.com/files/images/clue_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1107">图13</a>
</p>
<p>图13显示如下步骤：
</p>
<ol><li>打开反向选择，以便快速定位DOM节点
</li><li>在内嵌浏览器上点击翻页区
</li><li>MetaStudio自动定位到翻页区的DOM节点。<b>注意</b>：并不一定自动定位到包含整个翻页区的那个DOM节点，很有可能定位到内部某个节点，需要人工向上层找到它。

</li><li>进行线索映射，将代表翻页区的DOM节点映射给线索<i>clue 0</i>
</li><li>可以看到映射结果。
</li></ol>

<p><img src="http://www.gooseeker.com/files/images/mark_map_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1108">图14</a>
</p>
<p>以“下一页”作为记号定义翻页抓取规则，如图14，有以下步骤：
</p>
<ol><li>在DOM树上选中作为记号的节点，即网页上“下一页”对应的text节点
</li><li>在DOM树视窗上点击鼠标右键，选中弹出菜单项<b>记号映射</b>
</li><li>能够看到作为记号的节点号和节点值分别填入到工作台上
</li><li>点击<b>viewSCE</b>按钮，查看MetaStudio自动生成的线索抓取规则

</li></ol>
<p>至此，所有操作都已经做完，接下来需要将定义好的信息结构及其规则上载到服务器，以便随时随地使用它抓取京东商城的商品价格。
</p>

<hr>
<br>
<h3>4  保存<a href="http://www.gooseeker.com/cn/node/document/terms/schema">信息结构</a></h3>
<p><img src="http://www.gooseeker.com/files/images/schema_upload_FF.preview.png"><br>
<a href="http://www.gooseeker.com/cn/node/1109">图15</a>
</p>
<p>图15显示怎样保存信息结构及其抓取规则，有如下步骤：
</p>
<ol><li>点击工具条上的<b>schema</b>按钮，启动上载过程

</li><li>在MetaStudio的下部的<b>工作流文件</b>窗口能够看到生成的<a href="http://www.gooseeker.com/cn/node/document/terms/workflow">工作流指令文件</a>。
</li></ol>

<hr>
<br>
<h3>5  执行抓取操作</h3>
<p>上面只是讲解定义抓取规则过程，大批量和自动化抓取操作由DataScraper执行，<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/bulkscrape.html">《翻页抓取当当网价格数据》</a>一文有详细讲述，不再赘述。

</p><hr>
<br>
<h3>6  下一步做什么</h3>
<p>京东商城上的商品很多，被分成很多商品类，上述章节只讲述了一个商品类中的价格数据抓取，如果要将所有类别抓取下来，需要分成两级进行抓取：
</p>
<ul><li>第一级：抓取各类别的商品列表网页的URL地址
</li><li>第二级：在特定类别的商品列表网页抓取所有商品信息，也就是本章讲解的过程。
</li></ul>
<p>我们将在<a href="http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/multilayers.html">《分级抓取》</a>教程中讲解分级抓取方法和套用模板方法。

</p>]]></description>
</item>
</channel>
</rss>