“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>”。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。
如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的Disallow和Allow行的限制。
Disallow: 阅读全文…
robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。举例来说,当spider访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在 http://www.abc.com/robots.txt这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范 围。
就算已经被Google和Yahoo收录,也还是有必要用SiteMap的,这是为什么呢?有以下两大原因:
c)用SiteMap有利于搜索引擎更加友好的对网站进行收录,不要让网站的收录有些漏洞或者收录不全。有了SiteMap可以很好的在这方面发挥作用。
d)有了SiteMap并提交给搜索引擎之后,方便你在以后进行下一步的工作,比如对网站的外部链接和内链错误进行更好的调整,这些都要用到SiteMap的提交功能。
因此,SiteMap的整个作用是不容忽视的。如果你的网站属于下列情况,那么,使用SiteMap会特别实用:
A.网站含动态内容。
B.网站有不容易被发现的页面,如有大量富 AJAX 或 Flash 内容的页面。
C.网站为新网站且指向网站的链接不多。
D.网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。
E.网站上网页的更改频率。
F.各网页上次修改的日期。
G.您网站上各网页的相对重要性。
如果你的网站出现上面介绍的情况,那么,你就需要创建SiteMap了
搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。
在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。
目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。
阅读全文…
创意是成功销售的关键—驳王通创意点缀论
为什么会产生这样的论调呢?基于王先生策划出身的背景,按照策划人眼中的创意,只是品牌推广中的小把戏,最重要的还是营销策划中的每一个细节。但是他忽视了为什么诸多案例分析当中仍然将创意置于至高无上的地位。原因很简单。创意并不是简单的炒作,也不是简单的广告美与丑。而真正的创意,应该就是夜航船前行中的明灯,没有明灯,我们的一切细节都只是自我欣赏。
我理解中的创意,应该是贯穿销售全程的核心因素,它包含三个层面:
独一无二的形象创意
第一个层面是我们传统观念中认为的创意,即产品形象上的创意。在广告发展阶段的初期,在此创意上的突破,即可容易获得销售上的成功。因为在物质贫乏的年代,没人关注产品同质化的问题,比如有一台黑白电视机,就已经雀跃很久,谁还管它叫什么?所以只要一个广告播出去,美丽的形象创意立即引发万人空巷的购买冲动。
阅读全文…
内容为王时代,原创的文章会给网站加分,但是,原创不是那么简单的,如果完全COPY别人的内容,搜索引擎收录的概率很低,那么,这就和我们添加内容的初衷相违背了。我们原创不行,只有使用“伪原创”了,所谓的“伪原创”就是修改COPY来的内容,增加收录概率,但怎么改才能让搜索引擎认为是新原创文章,这里面可是有些门道的哦。
一.修改标题是关键
1>数字替换法
比如某网站的一篇文章,标题是:“SEO优化五招,让搜索引擎爱上你的网站”,在修改标题的时候,就完全可以改成:“SEO优化三招,让搜索引擎爱上你的网站,”取而代之的,就是将文章里最不起眼或者你看的最不顺眼的两个特点删除即可。
2>词语替换法
同样也可以这样修改:“搜索引擎“俯首称臣“的五大绝招”,这样在不删除文章内容的情况下就可以让搜索引擎认为至少标题是原创的。 阅读全文…
一直一来,我觉得在百度搜索框里输入link:你的域名,这样得出的外部链接数能很大影响网站的排名。但经过一段时间的努力,我觉得这个想法不够准确。我自己总结一下,外部链接应该分成三种:
1、外站首页外部链接:通过交换友情链接得来的,属于有效外部链接,但不易实现。
2、外站内页外部链接:软文实现。
3、内站内页外部链接:靠本站得来的外部链接。
4、垃圾外部链接或者叫做制造出来的外部链接。
笔者的小站之前通过link:会有非常多的外部链接,但在百度的权值并不高.经过仔细的分析后发现
第一、这个站目前有四五百个外部链接,但是有90%以上的外部链接都是通过自己的二级域名带来的,而且外部链接数的波动也相当的大。所以它真正的外部链接只有二三十个是有效的。 阅读全文…
