4.1 搜索引擎友好的网站设计

如果我们从搜索引擎蜘蛛的角度去看待一个网站,在抓取、索引和排名时会遇到哪些问题呢?解决了这些问题的网站设计就是搜索引擎友好(search engine friendly)的。

1.搜索引擎蜘蛛能不能找到网页

要让搜索引擎发现网站首页,就必须要有外部链接连到首页,找到首页后,蜘蛛沿着内部链接找到更深的内容页,所以要求网站要有良好的结构,符合逻辑,并且所有页面可以通过可爬行的普通HTML链接达到。JavaScript链接、Flash中的链接等搜索引擎蜘蛛一般不能跟踪爬行,就会造成收录问题。

网站所有页面离首页点击距离不能太远,最好在四五次点击之内。要被搜索引擎收录,页面需要有最基本的权重,良好的网站链接结构可以适当传递权重,使尽量多的页面达到收录门槛。

2.找到网页后能不能抓取页面内容

被发现的URL必须是可以被抓取的。带有过多参数的URL、Session ID、整个页面是Flash、框架结构(frame)、可疑的转向、大量复制内容等都可能使搜索引擎敬而远之。

某些文件站长可能不希望被收录,除了不链接到这些文件,更保险的方法是使用robots文件或meta robots标签禁止收录。

3.抓取页面后怎样提炼有用信息

关键词在页面重要位置的合理分布、重要标签的撰写、HTML代码精简、起码的兼容性等,可以帮助搜索引擎理解页面内容,提取有用信息。这部分在第5章“页面优化”部分再深入讨论。

只有搜索引擎能顺利找到所有页面,抓取这些页面并提取出其中真正有相关性的内容,网站才可以被视为是搜索引擎友好的。关于网站结构的优化,有一句话非常精辟:“良好引用,良好结构,良好导航”。网上转载这句话的人很多,据我所知,最早应出自车东的博客。

搜索引擎不友好的网站比比皆是,尤其是一些中小企业网站。不过这样的网站不太好举例,没得到网站主人的许可就当作负面案例讨论非常不恰当。在写本节时刚好在zaccode.com网站看到一个会员询问搜索引擎不收录他们的内页是怎么回事。我点击过去看了一下,不由得感叹,这个网站简直是集搜索引擎不友好之大成,是个相当不错的反面教材。在得到网站所有人正式许可后,在这里作为例子简单介绍。

网站域名是llyez.com,南昌良良母婴用品有限公司,一个母婴保健及家居用品企业网站。应该说网站视觉设计还是不错的,然而从SEO角度看,简直就是个“杯具”。首页抓图如图4-1所示。

图4-1 良良母婴用品网站首页

除了页脚的联系地址、版权声明两行字外,页面其他部分就是一个大的Flash,源代码如下:

<! DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>
南昌良良母婴用品有限公司官网--主营母婴用品 婴幼儿日用品 婴幼儿床上用品 婴儿枕头 尿垫
围嘴 睡袋 凉席
</title>
<link type="text/css" rel="stylesheet" href="../styles/common1.css" />

<meta name="Keywords" content="婴儿枕头,婴幼儿日用品,儿童枕头,保健枕头,婴儿
凉席,围嘴,尿垫,睡袋,宝宝睡眠" />
<meta name="Description" content="南昌良良母婴用品有限公司生产的苎麻系列婴幼儿
用品荣获国家多项专利,被誉为中国婴童保健用品专家。主营婴幼儿日用品、婴幼儿床上用品、
婴儿枕头,儿童枕头,成人枕头,保健枕头等枕头软家居用品,还有婴儿围嘴、凉席、尿垫、睡
袋等婴幼儿日用品。
" />
<! --由中企动力科技集团股份有限公司南昌分公司技术部设计制作<br>如果您有任何意见或建
议请电邮dm-nanchang@ce.net.cn -->
</head>
<body>

<div class="index-a">
  <object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"
codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swfl
ash.cab#version=7,0,19,0" width="980" height="600">
    <param name="movie" value="../images/intro.swf" />
    <param name="quality" value="high" />
      <param name="wmode" value="transparent" />
    <embed src="../images/intro.swf" quality="high"
pluginspage="http://www.macromedia.com/go/getflashplayer"
type="application/x-shockwave-flash" width="980" height="600"></embed>
  </object>
<div>
    <div align="center" style="padding-top:25px; ">联系地址:江西省南昌市八一大
道461号(省医学院内)医科所附三楼
      <br />
  版权所有:南昌良良母婴用品有限公司  <a href="http://nanchang.ce.net.cn"
target="_blank">中企动力提供技术支持 </a>| <a
href="http://www.miibeian.gov.cn/" target="_blank">赣ICP备05010033号
</a><script src="
http://s9.cnzz.com/stat. php? id=2047204&web_id=2047204&show=pic1"
language="JavaScript"></script></div>
  </div>
</div>
</body>
</html>

搜索引擎蜘蛛访问首页后,完全没有任何一个链接能通向内页,倒是有指向网站设计服务商及备案网站的链接。搜索引擎既不能抓取和索引Flash中的文字内容,也不能跟踪链接爬到内页。如果不给内部页面直接造些外链的话,整个网站能被收录的基本上只有首页一个页面,其内容还不能被索引。

单击左侧婴儿保健用品链接(Flash中的链接)进入内页,如图4-2所示。

图4-2 婴儿保健用品页面

看起来设计不错。可惜的是,除了左下角的新闻中心部分,页面上的其他文字、图片还是一个大Flash,包括顶部的导航条。所以就算站长给这个婴儿用品页面造一些外链,收录又到此为止了。企业概况、商品中心、在线商城等重要部分的页面还是没有任何爬行通路。

左下角的新闻中心设计也有些奇怪,鼠标放上去时才显示链接,而且只显示了一半,如图4-3所示。

图4-3 新闻中心链接

点击第一篇新闻中心文章后来到如图4-4所示的这个页面。

图4-4 新闻页面及URL

顶部导航依然是Flash,从新闻中心爬到产品页面也不可能了。另一个可怕的地方是URL,读者可以在抓图地址栏中看到一部分。下面是HTML代码的相应部分,读者可以看到完整的网址。

<a
href="/InfoContent/id=b49e4b44-5f38-413d-a0c2-bfc2edb7af2e&comp_stats=
comp-FrontInfo_listByAsyncWithOutAjax-123.html" title="良良第十一届京正•
北京孕婴童用品展览会" target="_blank">          良良第十一届京正•北...</a>

这种URL就算有外部链接,想被收录也难。

从婴儿用品首页单击商品中心来到如图4-5所示页面。

图4-5 商品中心页面及URL

同样,导航还是Flash。值得欣慰的是左侧产品链接是普通HTML链接,不过单击任何一个产品都可以看到长长的URL,如图4-6所示。

图4-6 产品页面及URL

带有这么多参数的URL,被收录的可能性很低,除非是个权重非常高的网站。这些链接相应的HTML代码如下:

<div class="abouts_sidebar1">
<h4><a
href="/ProductExhibitlist/&categoryid=bfb98cc0-9890-4e54-b7a7 -26bf85d0
6280&comp_stats=comp-FrontProductCategory_showTree-110.html">苎麻保健枕
</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=56f6b971-9021-4044-bccf -fbece16b
155a&comp_stats=comp-FrontProductCategory_showTree-110.html">苎麻保健袜
</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=f2657c17-ac58-49c6-84cc -3fc14528
0cca&comp_stats=comp-FrontProductCategory_showTree-110.html">苎麻保健凉
席</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=e000a25d-b6c2-40b2-b474 -952ac440
c8b8&comp_stats=comp-FrontProductCategory_showTree-110.html">纯蚕丝被&睡
袋 </a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=c400edfc-2f1a-49de-8b6f -7b01813f
2842&comp_stats=comp-FrontProductCategory_showTree-110.html">苎麻抗菌床
单</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=46507f40-9384-438f-87a0 -f995be9e
7ea6&comp_stats=comp-FrontProductCategory_showTree-110.html">礼包&帽子
</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=9bed3f9c-7a41-439c-be12 -018c4f15
97c6&comp_stats=comp-FrontProductCategory_showTree-110.html">苎麻浴孕用
巾</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=34ef2bd6-ebb6-46d4-907e -9d09225a
ccc9&comp_stats=comp-FrontProductCategory_showTree-110.html">苎麻围嘴食
饭衣</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=d1d7132d-174a-4079-9e0b -dd68f0e7
1b95&comp_stats=comp-FrontProductCategory_showTree-110.html">苎麻抗菌尿
垫床垫</a></h4>
<h4><a
href="/ProductExhibitlist/&categoryid=190a4b2d-02f8-4e20-92d0 -34497acd
333f&comp_stats=comp-FrontProductCategory_showTree-110.html">甲壳素系列
</a></h4>
</div>

产品页面本身就是一个大图片,没有可以索引的文字。

对比首页、商品中心首页及产品页面标题,大家可以看到这个网站上除了新闻中心的几个页面之外,其他所有页面包括企业概况、商品中心、在线商城、在线调查等页面标题全都一样。

在本书第2版修改时(2012年),我特意又访问了这个网站,网站并没有变化。现在做本书第3版的修改,又好奇地访问了一下,发现网站已改版,但存在的问题几乎和以前是一样的。

这是一个典型的搜索引擎不友好的企业网站,只考虑到视觉设计,完全没顾及到怎样被搜索引擎收录,怎样获得搜索流量。读者看完第4章和第5章,再回头看一遍这个例子,会更了解这个网站为什么搜索引擎不友好,应该怎样改进。