蜘蛛抓取网站的基本规则_蜘蛛抓取规则分析!做网站优化的都希望网站能够快速被抓取,收录更多的页面,因为这样才会有排名,有了排名就会有流量就能获客进行转化。说白了,排名是硬道理,犹如房子的地基,我们要把地基打好就要清楚这和谁有关系,存在什么样的联系就能制定有效的策略方案。没错了,就是和蜘蛛有关系,这张大网覆盖了我们全部想要的排名优化。
简单的来说就是抓取网站内容的程序 ,当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同,下面更举一下我们常用的一引起搜索引擎:
百度:BaiduSipder
谷歌:谷歌机器人 Googlebot
360:360蜘蛛 360 Spider
搜狗:sougospider
要想搞清楚百度蜘蛛的爬行思路和规则,那么我们要分析百度蜘蛛是从哪几个渠道来到你网站的,经过小优的分析,个人认为,百度蜘蛛主要从这三个方面来爬行你的站点的。
搜索引擎提交
当我们建好网站以后,我们会把网站的链接主动提交到搜索引擎,经过我们这样一提交,那么搜索引擎知道你的站点,这才考虑收录,当然如果我们首页被收录了以后,我们会做网站地图,然后提交到搜索引擎,做的多一点的人会做主动提交功能来实现自动提交到搜索引擎,那么这样一来搜索引擎能够很快的知道你的网站。
浏览器偷窥
当我们建好站点以后,我们将网页不发给然后人,仅仅使用浏览器打开一下,那么这一下浏览器可以偷窥到你的网址链接,从而主动提交到搜索引擎,达到收录的效果,那么这一证据,360曾测试过百度搜索引擎,360的工作人员建了一个站点,仅仅使用百度浏览器打开,第二天居然网页被收录了。如果说不是百度浏览器偷窥到这个站点的域名,百度没有其他渠道可以抓取到这个链接的。
外链抓取
那么第三个也就是我们发布的外链,搜索引擎会抓取一些已经收录的站点,从别人的站点上看到了你的网址,从而来到你的站点抓取你的网站,达到收录的效果,所以我们做SEO的经常发布外链,当然发布外链不仅仅是让搜索引擎收录,本文仅仅只是介绍收录。所以外链的其他作用,这里就不多做介绍了。
这是很多站长都关心的问题,经常会看到百度蜘蛛来的太频繁服务器抓爆了的诉说,很多站长想让站点得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,就无法对外公布。那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛:
1.查看UA
如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:
移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html);
PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) ;
新增渲染UA:
移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) ;
PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)。
2.反查IP
站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
1).在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
3). 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
通过上述内容的讲述相信你们已经了解了搜索引擎的工作流程、策略和如何正确识别百度蜘蛛IP字段,那么就可以在以后的seo优化工作上避免操作不当的误区。有搜索行为的地方就有搜索引擎,希望大家能快速分析出很多搜索引擎搜索结果异常的原因,如果需要帮助阿优很乐意效劳,17年的资深SEO优化师,以数据驱动决策,是企业SEO优化的理想选择!
上一篇: 搜索引擎蜘蛛抓取配额是什么?更详细全面的解析来啦!
下一篇: 唐山SEO优化_H标签怎么使用?