欢迎访问唐山网站优化官方网站!
打开客服菜单
阿优科技
唐山网站建设 > 技术科普 > 蜘蛛抓取网站的基本规则_蜘蛛抓取规则分析!

蜘蛛抓取网站的基本规则_蜘蛛抓取规则分析!

时间 : 2019-11-20 13:53

蜘蛛抓取网站的基本规则_蜘蛛抓取规则分析!做网站优化的都希望网站能够快速被抓取,收录更多的页面,因为这样才会有排名,有了排名就会有流量就能获客进行转化。说白了,排名是硬道理,犹如房子的地基,我们要把地基打好就要清楚这和谁有关系,存在什么样的联系就能制定有效的策略方案。没错了,就是和蜘蛛有关系,这张大网覆盖了我们全部想要的排名优化。


 pexels-photo-236650

什么是搜索引擎蜘蛛?

简单的来说就是抓取网站内容的程序 ,当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同,下面更举一下我们常用的一引起搜索引擎:

百度:BaiduSipder  

谷歌:谷歌机器人 Googlebot

360:360蜘蛛 360 Spider

搜狗:sougospider

 

蜘蛛抓取规则

要想搞清楚百度蜘蛛的爬行思路和规则,那么我们要分析百度蜘蛛是从哪几个渠道来到你网站的,经过小优的分析,个人认为,百度蜘蛛主要从这三个方面来爬行你的站点的。

搜索引擎提交

当我们建好网站以后,我们会把网站的链接主动提交到搜索引擎,经过我们这样一提交,那么搜索引擎知道你的站点,这才考虑收录,当然如果我们首页被收录了以后,我们会做网站地图,然后提交到搜索引擎,做的多一点的人会做主动提交功能来实现自动提交到搜索引擎,那么这样一来搜索引擎能够很快的知道你的网站。

浏览器偷窥

当我们建好站点以后,我们将网页不发给然后人,仅仅使用浏览器打开一下,那么这一下浏览器可以偷窥到你的网址链接,从而主动提交到搜索引擎,达到收录的效果,那么这一证据,360曾测试过百度搜索引擎,360的工作人员建了一个站点,仅仅使用百度浏览器打开,第二天居然网页被收录了。如果说不是百度浏览器偷窥到这个站点的域名,百度没有其他渠道可以抓取到这个链接的。

外链抓取

那么第三个也就是我们发布的外链,搜索引擎会抓取一些已经收录的站点,从别人的站点上看到了你的网址,从而来到你的站点抓取你的网站,达到收录的效果,所以我们做SEO的经常发布外链,当然发布外链不仅仅是让搜索引擎收录,本文仅仅只是介绍收录。所以外链的其他作用,这里就不多做介绍了。

 

如何正确识别百度蜘蛛

这是很多站长都关心的问题,经常会看到百度蜘蛛来的太频繁服务器抓爆了的诉说,很多站长想让站点得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,就无法对外公布。那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛:

1.查看UA

如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html); 

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) ;

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) ;

PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)。

2.反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1).在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3). 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

 

通过上述内容的讲述相信你们已经了解了搜索引擎的工作流程、策略和如何正确识别百度蜘蛛IP字段,那么就可以在以后的seo优化工作上避免操作不当的误区。有搜索行为的地方就有搜索引擎,希望大家能快速分析出很多搜索引擎搜索结果异常的原因,如果需要帮助阿优很乐意效劳,17年的资深SEO优化师,以数据驱动决策,是企业SEO优化的理想选择!

标签:
唐山网站建设:丰南网站建设 丰润网站建设 开平网站建设 路北区网站建设 路南区网站建设 滦州网站优化 滦南网站优化 乐亭网站优化 迁西网站优化 古冶网站优化 曹妃甸网页制作 遵化网页制作 迁安网页制作 玉田网页制作
cache
Processed in 0.008504 Second.