做SEO必须要耐心,人为刀俎我为鱼肉,难免会遭到搜索引擎的封杀或降权,通常我们会关注的几个比较重点搜索引擎爬虫,养成分析日志的习惯和数据分析能力,Baiduspider我们通常称它为百度蜘蛛、Google爬虫机器人,站长们都希望能够跟这些机器人打好关系,让它们喜欢上我们的网站,增加搜索引擎对我们网站的实时收录更新情况。
百度蜘蛛
江湖上把百度蜘蛛分为这么几个派别:降权蜘蛛,沙盒蜘蛛,高权重蜘蛛,竞价蜘蛛,统计蜘蛛,图片蜘蛛,新站蜘蛛,首页蜘蛛,内页蜘蛛,探子蜘蛛,苦力蜘蛛等。并不是看到有蜘蛛来爬就是好,高权重蜘蛛上门我们自然欢迎,但是如果降权蜘蛛来了,估计得吓个半死。
蜘蛛来了我必知
如何查看蜘蛛是否光顾过我们的网站之前的文章已经说过了,请查看《搜索引擎优化之蜘蛛爬行记录》。要想知道百度蜘蛛,Google机器人、是否爬行过我们的网站,在主机的日志里可以查看,通常我们国内的网站都比较重视百度搜索引擎对我们网站内容爬取的情况,在主机的日志里可以查看。
蜘蛛有好有坏,如果你的网站出现以下类型的IP段经常出现在你的主机日志里那么你就要注意了
苦力蜘蛛
下面的百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛
60.172.229.61
61.129.45.72
61.135.162.*
竞价蜘蛛
61.135.165.134
117.34.74.66
118.122.188.194
119.63.196.9
125.39.78.185
统计蜘蛛
61.135.186.*
图片蜘蛛
123.15.**.**
沙盒蜘蛛
这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
123.125.68.*
内页蜘蛛
抓取内页收录的,权重较低,爬过此段的内页文章暂时被收录但不放出来(意思也就是说待定),因不是原创或采集文章。(百度网页爬虫(百度图片爬虫)
123.125.71.*
新站蜘蛛
也属于百度蜘蛛IP主要构成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的,没有多大用
125.90.88.*
百度蜘蛛
159.226.50.*
180.76.5.*
180.76.5.87
220.181.158.107
探子蜘蛛
这个ip段不间断巡逻各站,就是路过一下,打探下路况和站点概况
210.72.225.*
降权蜘蛛
每天这个IP 段只增不减很有可能进沙盒或K站
218.30.118.102
220.181.68.*
183.91.40.144
203.208.60.*
高权重蜘蛛
主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的!一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。
220.181.108.*
220.181.7.*
123.125.66.*
新站蜘蛛
这个ip段作为度过新站考察期
121.14.89.*
首页蜘蛛
专用抓取首页ip 权重段,一般返回代码304 0 0代表未更新
220.181.108.89
220.181.108.92
220.181.108.94
220.181.108.95
220.181.108.97
220.181.108.80
220.181.108.77
220.181.108.83
220.181.108.86
内页蜘蛛
抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创
123.125.71.95
123.125.71.97
123.181.108.77
123.125.71.106
山寨蜘蛛
站长工具模仿的百度蜘蛛
61.147.98.146
61.188.39.16
113.98.254.245
117.21.220.245
117.28.255.42
114站长工具箱(这个是你的网站不稳定时常来的)
119.147.114.213
121.10.141.*
搜外站长工具蜘蛛
124.248.34.52
伪装百度蜘蛛IP
180.149.130.*
总结:我们欢迎爬虫来访问我们的站点,因为网站爬虫会帮助我们把网站推广到更多的平台上,让更多客户能找到和了解我们,这是推广和营销期望的结果。但是在优化网站的过程中,我们千万不要一昧的被排名遮蔽了双眼,及时的了解蜘蛛对网站的评价也是很重要的。蜘蛛不会说谎,您的网站处于什么阶段,看看哪些蜘蛛比较活跃就能明白。所以,我们在网站优化、文案创意、网站运营过程中一定要遵循搜索引擎游戏的规则,这样我们和蜘蛛才能和谐共存。