唐山网站建设 > 技术科普 > 蜘蛛抓取网站的基本规则_蜘蛛抓取规则分析!

蜘蛛抓取网站的基本规则_蜘蛛抓取规则分析!

时间 : 2019-11-20 13:53

蜘蛛抓取网站的基本规则_蜘蛛抓取规则分析!做网站优化的都希望网站能够快速被抓取，收录更多的页面，因为这样才会有排名，有了排名就会有流量就能获客进行转化。说白了，排名是硬道理，犹如房子的地基，我们要把地基打好就要清楚这和谁有关系，存在什么样的联系就能制定有效的策略方案。没错了，就是和蜘蛛有关系，这张大网覆盖了我们全部想要的排名优化。

pexels-photo-236650

什么是搜索引擎蜘蛛？

简单的来说就是抓取网站内容的程序，当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同，下面更举一下我们常用的一引起搜索引擎：

百度：BaiduSipder

谷歌：谷歌机器人 Googlebot

360：360蜘蛛 360 Spider

搜狗：sougospider

蜘蛛抓取规则

要想搞清楚百度蜘蛛的爬行思路和规则，那么我们要分析百度蜘蛛是从哪几个渠道来到你网站的，经过小优的分析，个人认为，百度蜘蛛主要从这三个方面来爬行你的站点的。

搜索引擎提交

当我们建好网站以后，我们会把网站的链接主动提交到搜索引擎，经过我们这样一提交，那么搜索引擎知道你的站点，这才考虑收录，当然如果我们首页被收录了以后，我们会做网站地图，然后提交到搜索引擎，做的多一点的人会做主动提交功能来实现自动提交到搜索引擎，那么这样一来搜索引擎能够很快的知道你的网站。

浏览器偷窥

当我们建好站点以后，我们将网页不发给然后人，仅仅使用浏览器打开一下，那么这一下浏览器可以偷窥到你的网址链接，从而主动提交到搜索引擎，达到收录的效果，那么这一证据，360曾测试过百度搜索引擎，360的工作人员建了一个站点，仅仅使用百度浏览器打开，第二天居然网页被收录了。如果说不是百度浏览器偷窥到这个站点的域名，百度没有其他渠道可以抓取到这个链接的。

外链抓取

那么第三个也就是我们发布的外链，搜索引擎会抓取一些已经收录的站点，从别人的站点上看到了你的网址，从而来到你的站点抓取你的网站，达到收录的效果，所以我们做SEO的经常发布外链，当然发布外链不仅仅是让搜索引擎收录，本文仅仅只是介绍收录。所以外链的其他作用，这里就不多做介绍了。

如何正确识别百度蜘蛛

这是很多站长都关心的问题，经常会看到百度蜘蛛来的太频繁服务器抓爆了的诉说，很多站长想让站点得到百度蜘蛛的IP段，想把IP加入白名单，但IP不固定，就无法对外公布。那怎么才能识别正确的百度蜘蛛呢？来来来，只需两步，教你正确识别百度蜘蛛：

1.查看UA

如果UA都不对，可以直接判断非百度搜索的蜘蛛，目前对外公布过的UA是：

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)；

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) ；

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) ；

PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)。

2.反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同，如linux/windows/os三种平台下的验证方法分别如下：

1).在linux平台下，您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

2).在windows平台或者IBM OS/2平台下，您可以使用nslookup ip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

3). 在mac os平台下，您可以使用dig 命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

通过上述内容的讲述相信你们已经了解了搜索引擎的工作流程、策略和如何正确识别百度蜘蛛IP字段，那么就可以在以后的seo优化工作上避免操作不当的误区。有搜索行为的地方就有搜索引擎，希望大家能快速分析出很多搜索引擎搜索结果异常的原因，如果需要帮助阿优很乐意效劳，17年的资深SEO优化师，以数据驱动决策，是企业SEO优化的理想选择！

标签:

上一篇: 搜索引擎蜘蛛抓取配额是什么？更详细全面的解析来啦！

下一篇: 唐山SEO优化_H标签怎么使用？