共 32篇 前 4 页:    每页10篇 上一页   下一页  

默认分类

由于本人开发进度迟缓,时至今日,我们的Blog还未实现必要的分类显示功能,即有些东西可以不显示,更多东西不应该挤占首页。
首页应该显示有价值的原创的东西。
我争取14小时完成非首页显示的功能,希望大家也自觉遵守网络礼仪:
不挤占首页,让优贴优位。
hofman   2004-11-18 11:51:18 阅读:1053  评论:0  引用:0
配色,对我真是大难题。瞎抄一个方案,大家指正。
就象上次coffee指正导航条的配色一样。
我在守株待兔呢。
hofman   2004-11-13 23:29:31 阅读:1151  评论:2  引用:0
长期以来,我们一直在做网站的地基工程,现在开始地面工程的施工了,
也开始注意网站的推广了。
在本站青草地博客,发有效原创文章50篇(这个门槛以后会提高)以上者,
你的个人博客将会被链接在首页。只要在主站首页有链接,google就能够搜索到你的大作、你的大名。
hofman   2004-10-29 10:36:22 阅读:1337  评论:0  引用:0
http://www.chedong.com/tech/google.html
内容摘要:
目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有:


行业知识:不知道搜索引擎对吸引的新用户的重要性,在搜索引擎排名服务中追求“傻瓜相关”,购买一些其实没有太多实际意义的行业关键词。其实能够用户输入的关键词越多,真对性越强,价值越高。如果用户能够直接定位到产品具体内容页比到网站首页有价值的多;
发布技术:网站的网页进入Google的索引量非常小,动态网页仍是主要发布机制,缺乏将动态页面链接表现成静态页面的机制;
页面设计:页面标题重复,关键词不突出,过渡使用JavaScript脚本/图片/Flash等不适合搜索引擎索引的非文本形式;
无法量化的东西是不可管理的,以上根本的原因往往是网站自身缺乏日志统计分析造成:

其实大部分网站只要通过一些简单的策略还是可以让网站自身的水平在互联网中有一个真实的体现,网站结构设计中面向搜索引擎的优化注意事项包括:

链接引用的重要性;
如何突出关键词:网页标题、主题的设计;
页面及站点结构设计注意事项;
以及站点访问统计的重要性等;
Google的站点设计指南
(注意:本网站设计本身就利用了其中一些方法)。
什么是PageRank
Google等新一带搜索引擎的优势之一在于不仅索引量很大,而且还将最好的结果排在搜索结果的最前面,具体的原理可以参考Google の秘密 - PageRank ?氐捉庹h一文,PageRank简单的说类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上PageRank就是基于网页中相互链接关系的分析得出的。


此外,从计算方法角度阐述PageRank机制还有这篇文章:http://pr.efactory.de/里面有更详细的PageRank算法说明和各种清晰的小型个案分析:

比如:子页中导航条的重要性
B <=> A => C
Vs
B <=> A <=> C (好)

页面数量因素:
B <=> A <=> C
Vs
F <=\ /=> G
B <=> A <=> C (好)
D <=/ \=> E

一个意想不到的结论:
(B <=> A <=> C) ( E <=> D <=> F)
Vs
(B <=> A <=> C) <=> ( E <=> D <=> F)
PageRank升高的只是被链接的2个首页A和D,而网站子页面的PageRank平均会略有下降。同时:一个网站进入Google的索引量越大其受类似因素影响越小。

PageRank不对称的页面互链:
Google会用BadRank之类的算法进行纠正,而且一个网页着有来自“与其自身不相称”的高PageRank站点的链接,而自身又缺少足够数量和质量的反相链接的话,其PageRank会自动降低为0,A(pr=7) <=> B(pr=0)
简单的说就是:偶尔要被权威站点反相链接不算数,要被足够多的权威站点引用才能提高自身网页的PageRank。


链接就是一切
在互联网的海洋中,最重要的就是互联互通,不被其他网站引用的网站就是“信息孤岛”。“酒好也怕巷子深”,也许这话说起来有点像垃圾邮件广告,但事实就是这样。所以如果做网站的目的不是孤芳自赏,就需要积极的推广自己的网站。
通过搜索引擎推广自己需要注意以下几个方面:

以量取胜:不一定加入大型网站的分类目录才是网站推广,来自其他网站的任何反相链接都是有用的
网站推广比较经典的方式就是加入比较大型门户网站的分类目录,比如:Yahoo!,dmoz.org等。其实这里有一个误区:不一定非要加入大型网站的分类目录才是网站推广,因为现在搜索引擎已经不再只是网站目录的索引,而是更全面的网页索引,所以无论来自其他网站任何地方的反相链接都是非常有价值的,哪怕是出现在新闻报道,论坛,邮件列表归档中。很多大型站点的邮件列表发邮件时,一定注意在自己的签名中加上自己网站的地址。

Blogger(Weblog的简称)们也许最深刻地理解了“链接就是一切”这句话的含义,由于Blog的内容之间有大量的相互链接,因此最经常被引用的 Blog页面在搜索引擎中的排名往往比一些大型商业网站的页面还要高。


以质取胜:被PageRank高的网站引用能更快地提高PageRank
数量只是关键因素之一,来自PageRank高的页面的链接还能更快的提高被链接目标的PageRank,我只是将一些文章投稿在了ZDNet中国上,由于页面上有文章出处链接,相应网页和网站整体的PageRank过了一段时间后就有了很大的提升。有时候被什么样的网站引用有时候比引用次数多更重要。这里我要特别感谢的是,当时ZDNet中国是唯一遵循了我的版权声明的要求表明了文章出处,并且有反相链接的网站。
按照这个原则:能够名列Yahoo!和DMOZ这样的大型权威目录的头2层是非常有价值的。


了解搜索引擎的"价值观":
Lucene简介这篇文章被Jakarta.apache.org的lucene项目引用以后,这篇文章就成为了所有页面中PageRank最高的页面,而Google支持的一些项目,比如:Folding@Home,让我一直怀疑他们对政府,教育和非盈利组织的站点有特别加分,毕竟.org .edu才代表了互联网的实质:分权和共享。
但更合理的解释是:.org很多都是开放技术平台的开发者,他们会在首页这样的地方加入Powered By Apache, Power by FreeBSD之类的链接表示对其他开源平台的尊重,所以象Apache, PHP, FreeBSD这样的开源站点在GOOGLE中都有非常高的PageRank。而在.edu这些站点中,很多都是学术性比较强的文档,以超链接形式标明参考文献的出处已经成为一种习惯,而这也无疑正是PageRank最好的依据。
注意:不要通过Link Farm提高自身的站点排名:Google会惩罚那些主动链接到Link Farm站点以提高自身排名站点,相应站点的页面将不会被收入到索引中。但如果你的页面被别的Link Farm链接了也不必担心,因为这种被动的链接是不会被惩罚的。

不要吝啬给其他网站的链接:如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜索引擎更准确地判断哪些是对用户最有价值的信息,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。当然网站中连一个导出链接都没有的情况非常罕见,除非你是刻意这么做。正常情况下大家都会自然地在网页中加上一些其他网站的链接,带领访问者去到我们认为重要或能够提供更多有价值信息的地方,
另外在推广自己网站之前也许首先需要了解自己网站目前在一些搜索引擎中的知名度,原理非常简单,可以参考如何评价网站的人气一文。

网站推广只是手段,如何突出内容、让需要相关信息的用户能够尽快的找到你的网站才是目的,PageRank高并不代表像Yahoo!这样的门户站点就能在所有搜索结果中排名靠前,因为搜索引擎的结果是搜索关键词在页面中的匹配度和页面的PageRank相结合的排名结果。因此第二个要点:如何突出关键词。


如何突出关键词:面向主题(Theme)的关键词匹配
Theme Engine正在逐步超过PR,成为结果排序中更主要的因素,可以比较一下以下现象:
为什么查“新闻”,“汽车”之类的文字,各种门户网站的首页不在第一位?要知道他们的页面中都有相应频道的链接文字的
一篇新闻页面中,搜索引擎如何不通过模板匹配,自动将新闻的主体和页面中的页头,栏目导航条,页尾等部分的内容区分开的?
其实以上问题都可以归结为网页内容摘要的提取策略和关键词在其中的命中:
首先将能够描述一个页面内容的分成以下几种类型:

链入文字描述:inbound link text
http://www.searchenginedictionary.com/terms-inbound-link.shtml

HTML页面标题:title 好标题一般会将页面中最重要的关键词放在最前面,比如:ABC-10型吸尘器 - XX家电城
HTML内容主体:content text
链出文字:outbound link text

如果按照以下规则:
一个页面中关键词命中权重:链入文字 > HTML标题文字 > HTML页面主体内容 >> 出链文字,以上现象就比较好解释了。
链入文字是页面上看不见的,但链入文字对被链接页面有巨大的作用:在现代搜索引擎在关键词匹配的过程中,匹配的过程不只看当前页面的内容摘要:很大程度上,不只看这个网页自己说自己有什么内容,还要??呼你,比你自己说自己更重要。。
比如查:“世界卫生组织”,返回结果中有 http://www.who.int/ 而这个页面中是没有中文的,之所以能匹配上,是因为很多链接它的中文网站使用了:<a href="http://www.who.int/">世界卫生组织</a>,所以,这个页面中不存在的中文关键词也成为了页面摘要的一部分。

这样一想,就可以知道链出链接的文字其实是为被链接的子频道首页或者内容详情页服务的。对自身页面的关键词密度只有负面的影响,这也是Google建议一个页面中链接不要超过100个的原因:他根本不索引100个链接以后的内容。

按照以上规则,搜索引擎将一篇新闻详情页中的新闻内容提取出来就是把页面上所有带HTTP链接的文字都去掉,就是新闻的内容部分了,更精确一些可以通过取最长文本段落等策略实现;

而很多网站首页或频道首页中几乎全部都是链接,经过搜索引擎分析的结果就是:什么内容也没有,能够被命中的关键词仅仅是别人链接你用的“网站首页”和频道标题Title中的站点名称等的几个关键词,而页面中其他的文字则远远不如相应子频道和具体内容页面的匹配度高,而搜索引擎能够通过以上规则,让用户更快的直接定位到有具体内容的内容详情页面。因此希望通过一个首页,尽可能多的命中所有希望推广的关键词是不可能的。让网页尽可能多的进入搜索引擎的索引,然后把握好整个网站的主题风格是非常重要的,让网站的主题关键词能够比较均匀的按照金字塔模式分布到网站中可以参考:网站的主题金字塔设计 网站名称(用户通过1-2个抽象关键词)
/ \
子频道1 子频道2 (用户通过2-3个关键词命中)
/ \ / \
产品1 产品2 文章1 文章2 (用户通过3-4个关键词命中:这种用户最有价值)


不要空着标题:空着<title></title>无异于浪费了最有价值的一块阵地;
传统的页面中,HTML页面中会有类似以下的隐含信息,用于说明当前网页的主要内容关键字:
<header>
<meta name="keyword" content="mp3 download music...">
</header>
后来由于这种人工添加关键词的方式被滥用,大量网页中为了提高被搜索引擎命中的概率,经常添加一些和实际网页内容无关的热门关键比如:“music mp3 download”等,所以新一代的搜索引擎已经不再关心页面头文件中的人工meta keyword声明,而页面标题在搜索引擎的关键词的命中命中过程中往往有着更高的比重,如果一个关键词在标题中命中会比在页面中命中有更高的得分,从而在相应的搜索结果排名中更靠前。


标题长度和内容:不要过长,一般在40个字符以内,并充分突出关键词的比重;
如果更长的标题搜索引擎一般会忽略掉,所以要尽可能将主要关键词放在标题靠前的位置。省略掉不必要的形容词吧,毕竟用户主要通过名词来找到需要的内容。标题内容:尽量用一些别人可以通过关键词找到的字眼(也别太过头,如果标题中的字眼超过1半内容中都没有,有可能被搜索引擎排除出索引),因此基于web日志中来自其他搜索引擎的关键词查询统计非常必要。


如果网页很多的话,尽量使用不同的网页标题,争取让自己网站的内容更多的进入搜索引擎索引范围;
因为搜索引擎会根据页面内容的相似度把一些内容当成重复页面排除出索引范围;
http://www.chedong.com/phpMan.php是我的网站上的一个小应用:一个web界面的unix命令手册(man page),在以前的设计中所有动态页面使用的都是同样的标题:"phpMan: man page /perldoc /info page web interface" ,Google索引了大约3000多个页面,后来我将页面标题改成了"phpMan: [命令名]"这样的格式,比如:"phpMan: ls",这样大部分动态页面的标题就都不一样了,一个月后Google从这个页面入口索引了大约6000个页面。因此,如果网站中很多网页都使用相同的标题,比如:“新闻频道”,“论坛”,这些页面中很大一部分就会被排重机制忽略掉。


除了<title></title>外,还可以用<h1></h1>标题行突出内容主题,加强标题的效果;
在我的网站设计中:我会把用<h1>[标题]</h1>这样的模板把标题突出显示,而不是通过改变字体的方式突出标题。
其他网站设计提示
静态链接:Blog网站另外一个优势在于其网页是静态链接:动态网页占到整个互联网内容的90%以上。各个搜索引擎其实能够表现的都只不过是互联网的冰山一角(3-5%),不同的只是谁让优质网页排名靠前的策略更优秀而已:大部分搜索引擎都认为静态链接的网页是优质网页,Google在优先抓取索引的网页中70%以上是不带参数链接的静态网页。而且即使同样的内容,静态网页也会比动态网页权重高:很容易理解:query?a=1&b=2主页的链接很容易被制造,而且往往内容和后面参数顺序颠倒的query?b= 2&a=1完全相同。尽量使用静态网页:目前能够像Google一样对动态网页进行索引的搜索引擎还比较少,而即使是Google也更不会索引所有的内容,很少会对参数超过2个的动态网页进行进一步的抓取和分析。总体上说Google喜欢新的,静态的内容。

因此无论从效率上讲还是方便搜索引擎收录,使用内容发布系统将网站内容发布成静态网页都是非常必要的。
比如:http://www.chedong.com/phpMan.php/man/intro/3
比 http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3
更容易进入搜索引擎的索引。而且在URL中的命中有时候比在标题中还能突出关键词。


而且能够进入Google索引的页面数量越多越好。可以用类似以下的脚本统计自己的网站被Google和百度索引的情况。
#!/bin/sh
YESTERDAY=`date -d yesterday +%y%m%d`
LOG_PATH='/home/apache/logs'
grep -i Googlebot $LOG_PATH/access_log|awk '{print $7}' |sort -u>spider/$YESTERDAY.googlebot.txt
grep -i baiduspider $LOG_PATH/access_log|awk '{print $7}' |sort -u>spider/$YESTERDAY.baiduspider.txt


网站目录结构要扁平,因为每深一级目录,PAGERANK降低一个档次。假设首页是3,其子可能目录就是1了,更深可能就无法列入评级范围了。


表现和内容的分离:“绿色”网页
网页中的javascript和css尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重也增加了。总之,应该鼓励遵循w3c的规范,使用更规范的XHTML和XML作为显示格式便于内容更长时间的保存。


让所有的页面都有能够快速入口:站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider friendly也是非常重要的。


保持网站自身的健康:经常利用坏链检查工具检查网站中是否有死链。


保持网页内容/链接的稳定性和持久性:在搜索引擎索引中网页存在的历史也是一个比较重要的因素,而且历史比较久的网页被链接的几率越高。为了保证自己网页能够被比较持久的被其他网站的页面引用,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。要知道,把一个网站和内容在搜索引擎中的排名“培养”的很高是一件非常不容易的事情,谁都不希望好不容易自己的内容被别人找到了,点击却是“404 页面不存在”吧,因此站点管理员对自身站点error.log的分析也是非常必要的。


文件类型因素:Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文档 PageRank要高。因此,对于比较重要的文档:技术白皮书,FAQ,安装文档等建议使用PDF PS等高级格式存取,这样在搜索结果中也能获得比较靠前的位置。
常常能发现门户站点的一条新闻往往比其他站点的首页排名还要靠前。因此一个站点总体PageRank提高了以后,往往自身一些并不重要的内容也会被同那些高PageRank的内容一起带入被搜索引擎优先查询的列表中。这点有些不是很合理,因为这样经常造成很多大站点的邮件列表归档往往比其他站点的首页PageRank还要高。
知己知彼――站点访问统计?动的迎合搜索引擎的索引,更重要是充分利用搜索引擎带来的流量进行更深层次的用户行为分析。目前,来自搜索引擎关键词统计几乎是各种WEB日志分析工具的标准功能,相信商业日志统计工具在这方面应该会有更强化的实现。WEB日志统计这个功能如此重要,以至于新的RedHat 8中已经将日志分析工具webalizer作为标准的服务器配置应用之一。


以Apache/webalizer为例,具体的做法如下:
记录访问来源:
在Apache配置文件中设置日志格式为combined格式,这样的日志中会包含扩展信息:其中有一个字段就是相应访问的转向来源: HTTP_REFERER,如果用户是从某个搜索引擎的搜索结果中找到了你的网页并点击过来,日志中记录的HTTP_REFERER就是用户在搜索引擎结果页面的URL,这个URL中包含了用户查询的关键词。

在webalizer中缺省配置针对搜索引擎的统计:如何提取HTTP_REFERER中的关键词
webalizer中缺省有针对yahoo, google等国际流行搜索引擎的查询格式:这里我增加了针对国内门户站点的搜索引擎参数设置
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine sina.com.cn word=
SearchEngine baidu.com word=
SearchEngine sohu.com word=
SearchEngine 163.com q=

通过这样设置webalizer统计时就会将HTTP_REFERER中来自搜索引擎的URL中的keyword提取出来,比如:所有来自 google.com链接中,参数q的值都将被作为关键词统计下来:,从汇总统计结果中,就可以发现用户是根据什么关键词找到你的次数,以及找到你的用户最感兴趣的是那些关键词等,进一步的,在webalizer中有设置还可以将统计结果倒出成CSV格式的日志,便于以后导入数据库进行历史统计,做更深层次的数据挖掘等。

以前通过WEB日志的用户分析主要是简单的基于日志中的访问时间/IP地址来源等,很明显,基于搜索引擎关键词的统计能得到的分析结果更丰富、更直观。因此,搜索引擎服务的潜在商业价值几乎是不言而喻的,也许这也是Yahoo! Altavista等传统搜索引擎网站在门户模式后重新开始重视搜索引擎市场的原因,看看Google的年度关键词统计就知道了,在互联网上有谁比搜索引擎更了解用户对什么更感兴趣呢?


请看本站的反相链接统计:http://www.chedong.com/log/2003_6.log
需要注意的是:由于Google针对Windows 2000中的IE使用的是UTF-8方式的编码,因此很多统计有时候需要在UTF-8方式下查看才是正确字符显示。从统计中能够感受到:在使用水平比较高的IT开发人员中Google已经成为最常用的搜索引擎。而使用百度的用户也已经大大超过了传统的搜狐,新浪等门户站点,因此传统门户网站在搜索引擎上的优势将是非常脆弱的。而从技术的发展趋势来看,以后还会有更多的利用互联网媒体做更深层次数据挖掘的服务模式出现:



转载自cnblog.org――“突发”文字可能揭示社会趋势

在“新科学家”(New Scientist)在线杂志上,公布了康奈尔大学的一个新研究成果,引人注目,也许与Google 收购Pyra 的动机有关。

这所大学的计算机科学家 Jon Klenberg 开发了一个计算机算法,能够识别一篇文章中某些文字的“突发”增长,而且他发现,这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题,因此能够更有效地筛选重要信息。过去很多搜索技术都采用了简单计算文字/词组出现频率的方法,却忽略了文字使用增加的速率。

Jon 特别指出,这种方法可以应用到大量Weblog上,以跟踪社会趋势,这对商业应用也很有潜力。例如,广告商可以从成千上万的个人Blog 中快速找到潜在的需求风尚。而且只要Blog 覆盖话题范围足够大(实际上发展趋势确实如此),这项技术对政治、社会、文化和经济等领域也都会有实际意义了。

虽然Google 新闻的内部算法至今没有公开,但是人们猜测这种完全由机器所搜集的头条新闻应当不是Google搜索引擎中惯用的鸽子算法,很可能与这种“突发”判断算法有关。如此说来,Google收购Blog工具供应商的举动确实还有更深层次的远见了。

- NewScientist.com news, Word 'bursts' may reveal online trends
- 还没有写完这些介绍,在 SlashDot 上也看到了很多有关这个发现的讨论


附:Google官方的站点设计指南

Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link. 让网站有着清晰的结构和文本链接,所有的页面至少要有一个静态文本链接入口
批注:尽量不要用图片和JAVASCRIPT
Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages.
为用户提供一个站点地图:转向网站的重要部分。如果站点地图页面超过100个链接,则需要将页面分成多个页面。
批注:索引页不要超过100个链接:SPIDER只考虑页面中头100个链接
Create a useful, information-rich site and write pages that clearly and accurately describe your content.
用一些有用的,信息量丰富的站点,清晰并正确的描述你的信息。
Think about the words users would type to find your pages, and make sure that your site actually includes those words within it.
想像用户可能用来找到你的关键词,并保证这些关键词在网站中出现。
批注:少用“最大”,“最好”之类的形容词,用用户最关心的词,比如:下载,歌星名字,而不是一些抽象名词。
Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images.
尽可能使用文本,而不是图片显示重要的名称,内容和链接。GOOGLE的机器人不认识图片中的文字。
Make sure that your TITLE and ALT tags are descriptive and accurate.
保证:页面的TITLE和ALT标记正确的精确描述
Check for broken links and correct HTML.
检查坏链并修正这些HTML错误。
If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.
如果你打算使用动态页面:链接中包含"?",必须了解:并非所有的搜索引擎的机器人能想对待静态页面一样对待动态页面,保持动态页面的参数尽可能的少也会很有帮助。
Keep the links on a given page to a reasonable number (fewer than 100).
让一个页面中的链接少于100个。
批注:用lynx -dump http://www.chedong.com 可以模拟从robot角度看到的页面。其最后有链接统计

输出类似:

[1]Google Free Search _______________________________ Google Search
(_) Search WWW (_) Search chedong.com

更 新 [2]站点地图 / Site Map [3]留 言簿 / Guest Book [4]意见反馈 /
Feed Back
...
References

Visible links
1. http://www.google.com/services/free.html
2. http://www.chedong.com/sitemap.html#sitemap
3. http://www.chedong.com/guestbook/
4. http://www.chedong.com/formmail.htm
...
Hidden links:
50. http://www.chedong.com/bbcweb/
...


参考资料:

面向Google搜索引擎的网站设计优化
http://www.google-search-engine-optimization.com/

关于Google的十个神话:
http://www.promotionbase.com/printTemplate.php?aid=971


如何评价一个网站的人气
http://www.chedong.com/tech/link_pop_check.html

如何提高网站在Google中的排名――面向搜索引擎的广告模式
http://www.chedong.com/tech/google_ads.html


如何提高网站在Google中的排名――面向搜索引擎的网站链接设计
http://www.chedong.com/tech/google_url.html


Measuring Link Popularity
http://searchenginewatch.com/webmasters/popularity.html

Google の秘密 - PageRank ?氐捉庹h
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
这篇文章是在查"Google PageRank"的时候查到的,这篇文章不仅有一个算法说明,也是一个Google的weblog,记录了很多关于Google的新闻和一些市场动态信息。

更详细的PageRank算法说明:
http://pr.efactory.de/


Google的海量处理机制:鸽子系统
http://www.google.com/technology/pigeonrank.html


WEB日值统计工具Webalizer
http://www.webalizer.org


Robots的说明:
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件 robots.txt,在这个文件中声明该网站中哪些内容可以被robot访问,哪些不可以。

反Google站点:观点也很有趣
http://www.google-watch.org/

关于Google的WebLog
http://google.blogspace.com/


搜索引擎相关论坛
http://searchengineforums.com/
http://searchenginewatch.com
http://www.webmasterworld.com/



文章出处:chedong.com
文章作者:车东



hofman   2004-10-29 00:46:15 阅读:1285  评论:0  引用:0
http://www.web136.net/google/google-rank/google-rank/20042905132.htm

你公司的网站每天流量多少? 你的网站的流量来源? 客户在搜索引擎中是用那些关键词找到你们网址的? 你们网站的浏览用户的各个地区分布比例是多少? … …这些你知道么?如果不知道,请看下文.

现在许多公司对自己的企业网站做推广, 基本上来就是网络广告投放了. 门户网站搜索引擎排名了,花钱不少, 但是效果并不是很明显. 如何解决这些问题呢? 如何让企业花在推广上的钱花的到位呢?

一般有经验的网络营销专家每接一个客户,首先的就是对他流量的分析, 分析可以从多方面进行, 这些分析主要包括: 流量大小分析? 流量来源分析? 用户区域分析, 被搜到的关键词分析等等. 这些方面靠一些普通的方法很难有很准确的分析,最好能安装一个较好的流量统计分析系统.

一般的企业网站基本上都没有统计系统, 最多只有一个简单的计数器,统计一下网站的总流量. 所以这里先给大家推荐一个流量统计系统. 我一般给客户安装的都是在网上光为流传的用ASP写的网站流量统计分析系统.这个系统在电子商务指南都有免费下载.

我给客户网站装上统计系统后, 一般在一个星期后再看统计器对其网站的流量各方面的统计数据, 这是可以看到这个网站浏览者的地区分布, 各个页面被访问的次数, 流量来源路径,甚至根据其来源路径得知用户在各个搜索引擎中搜到此网站所用的关键词等等, 然后再对其做出相应的网络营销策略, 往往可以起到事半功倍的效果.

企业网站经过流量统计分析以后, 将会对其流量大小,搜索引擎营销状况,网站结构的合理性等有一个很好的了解,然后就要对企业网站进行优化了.企业网站优化主要分以下几个步骤:



一. 网站结构优化.目前企业网站结构都是首页, 公司简介, 产品信息, 招聘信息, 联系信息.

这些结构可以基本就把网站当成一个简单的宣传册,没有发挥网络的互动性,.对于让一般的企业去利用网络的互动性,也许现在而言,他们还没有专业人员来负责,那么这块先跳过去,等以后我会有专门的文章介绍.那么现在我们就以媒体的角度来优化企业网站的结构.

1. 网站内部链接优化. 对于网站的各个页面之间的连接,千万别只去靠导航栏的那几个联系, 而是要尽量在页面内容中出现连接,也就是诱导着浏览者一步一步看一下,然后给你发E-MAIL询问业务. 这里要记住一个细节. 那就是在诱导他给你发E-MAIL的时候,千万别直白的留下一个信箱地址,应该留下一个”联系我们>>>”的超连接. 当然链接指向的不是另外一个页面,而是你的信箱(例子: http://www.web136.net/fuwu/sousuo.htm ).总之, 这种连贯要从一个浏览者的角度去出发.要保证超链接结构的连贯性.



2. 加上一个FAQ栏目. 目前大多的企业网站都没有FAQ栏目.一般企业现传自己的产品,会遇到一些比较常见的问题. 企业最好能够把预先想到的问题,以及解答做一个页面.这样有利于浏览者更容易的了解自己的产品,以及促成业务合作.



3. 网站文件目录优化. 现在有许多网站的整个网站基本都是放在一个文件夹内.这是一种很不合理的的形式. 网站的每个栏目都应该有一个合理的文件夹,它以一方面可以让自己的网站文件条理化,查找修改起来方便,另外一方面可以有利于搜索引擎搜索.



4. 网站文件名优化. 我在优化我的一个客户北京办公用品网做优化的时候,发现他网站的许多文件名在搜索引擎中都是乱码, 最后用FTP下载完它的全站后才发现,原来它的许多文件名字都用的是中文名.原来它的负责人以为如何做会对搜索引擎有利,启示这样做的效果是相反的,往往让搜索引擎找不到它. 所以,网站文件名,千万别用中文.最好用英文.并且可以包含英文关键词.



二. 网站页面优化 大多企业的页面虽然好看,但是并不实用,存在着许多对营销很不利的因素需要优化,主要有以下几个方面:



1. 首页优化 首页对一个网站很重要, 目前大多企业网站的首页都是用纯图片或者FLASH动画. 它对搜索引擎极为不利.如果企业网站很主要形象,那么优化的时候可以将这些保留.不过尽量下面有进入内页文字连接.



2. 不要用”鬼影秘笈”. 鬼影秘笈就是在网页中用与页面背景相同的颜色隐藏许多关键词.这种方法在几年前还是比较好用的.但是随着搜索引擎的智能化, 这种方法渐渐失去了作用,甚至会被GOOGLE”扣分”.



3. 图片优化 目前,大多搜索引擎都有了图片搜索功能,所以对待图片的优化,你千万也不要放过.图片优化很简单.在网页制作的时候,对图片加入文字注释就行了,记着,文字注释中千万别放过关键词. 麦秸工艺画 网站中的图片经过优化后,很快在许多搜索引擎的图片搜索中就可以搜到了, 比如:在百度的图片搜索中键入关键词”工艺画” 出来的图片中,许多都是麦秸工艺画网站的图片,当然都是有连接的. 另外键入麦秸画, 那就更不用说了



4. 给网页减肥 给网页减肥可以让网页缩小20% -- 50%. 可以提高网页下载速度以及其他方面的好处. 目前网上有许多免费的这类软件.这里给你推荐一款---网页减肥茶. 非常好用, 下载地址

http://www.shenyi99.com/download/SoftDown.asp?ID=582&SID=353



三. 搜索引擎排名的优化



1. 网页标签优化 网页标签优化主要包括标题标签,关键词标签,描述标签等等.标题标签优化对搜索引擎非常重要,而且也特别有技巧.然后就是关键词标签,描述标签等.这里要注意一点,描述标签千万不要夸大,设置超过页面的文字内容, 它一定要保持和页面内容相符合才能取得效果.(详细请看<<GOOGLE排名经验谈>>)



2. 导航栏目优化 目前,许多企业网站大导航栏栏都用的是图片,这对于搜索引擎很不利.所以企业网站的导航栏目最好用文字连接,并且时当加粗其字体.



3. 设计一个导航页面. 产品较多的页面的内部连接比较多.所以建立一个导航页面很重要,这个页面要条理化,系统化的列出网站的所有连接.然后还可以时当的融入众多关键词,对搜索引擎排名十分有利.



4. 页面字体优化 在网页中,一定要自然的突出关键词. 比如网页内容标题中包含关键词,你可以用<h1> 加大字体. 文本内容出现的关键词, 可以用不同的颜色或者<B>加粗.



文章出处:电子商务指南
文章作者:王通
hofman   2004-10-29 00:24:53 阅读:1174  评论:0  引用:0
今天中午中央2台播出了一个节目:雾锁京城。
10.6-10.10北京连续5天是烟雾弥漫,我10.8从山西回来时,
就注意到空气污染非常严重,果然,北京台播报时污染指数400多
(正常应该在100以下,二级),空气质量5级,属于重度污染!
而且连续几天都是重度污染。
中央台说,50年代之前的伦敦呀,有名的雾都,严重的空气污染
甚至夺去了4000多人的生命。
非常庆幸,从去年的这个时候开始,我采取了积极措施,否则我
可能已经倒在这场5天的重污染中,而成为此次节目的话题资料了。
再过两天,就是戒烟一周年、慢长跑一周年的日子,看来还得继续
坚持。因为环保部门,坦率地承认,无法保证以后不会出现这样恶劣的
空气污染。因为北京在建的3400处工地1亿平米的施工工地,制造了70%
的污染。而在2008年之前,这种大施工状况显然无法改变。
发展之痛原来如此之重,还是developed好呀。
hofman   2004-10-13 01:04:34 阅读:757  评论:0  引用:0
Ant与Junit是java程序员最常用的两个工具。
而我居然不会,足见水平之业余。
这几天,趁休假,赶紧补课。
Ant嘛,Jbuilder X集成了,比较省事。
Junit,JBuilder X也集成了,倒也不难。

今天算是用ant作了第一个自己的jar.(zdu.jar),
从此可以告别难堪的一个个地copy文件,再一个个rename package name这种低劣的作法了。
也终于体会到Junit的伟大之处,用它测试zdu的filter package,效率确实提高了若干倍――唉,以前咋惰性就那么重呢,早知道junit重要,却一再往后拖...
今天也算是初步纠正了单引号问题,奇怪的是Mozilla 与 IE在这个问题上,又给我开了个玩笑。在Mozilla上一切正常,到IE上单引号又成了'了
只好,下次再改了。好在现在有了Junit帮忙,修改起来方便多了。
hofman   2004-10-04 02:09:39 阅读:898  评论:0  引用:0
   劳作有序是本年度的三原则之一,执行起来,果然不容易。
今天总算克制了完成新版bbs的想法,老老实实地写了一天关于samba的帖子。
   事有轻重缓急,劳作应有序,这本来事很简单的道理。
   但我一向有由着兴趣做事的恶性。

   有些事情,虽然不喜欢做,如果是必须办的,也应该在该完成的时候完成它。
   不能老是单线前进,应该统筹好,这样才不至于在小事上栽跟头,
这方面已经吃了不少亏了。
   事实上,多线程效率更高呀。
hofman   2004-09-19 23:59:33 阅读:990  评论:0  引用:0

饮食有节

起居有常

劳作有序


说起来,很平常,却是生活圣经。

写出来很容易,做起来就不容易了。
hofman   2004-08-21 23:06:52 阅读:1057  评论:0  引用:0
  感觉跑了半年4000米,怎么还是费劲呢。查资料,没有找到运动技巧,

倒发现:原来长跑有助于戒烟。

 我刚戒烟10个月,一直以为是自己意志坚强的结果,原来也有长跑的贡献呀。以前单知道,长跑可以提供心肺功能,也能磨练意志。

  应该到书店买一本长跑的书啦。

  网络也不能够过度迷信。
hofman   2004-08-18 22:52:27 阅读:1044  评论:1  引用:0
2003-2007@copyright