整理了最近学员工作中问的很多问题,东尧发现大部分的问题都是差不多的,所以今天东尧就给大家总结了一些最近遇到的SEO技术点,例如:URL泛解析、突然出现大量404页面的处理等等。
目 录
1、URL泛解析
2、网站 http协议和https协议共存,百度会将 http和https 视作两个站点重复抓取收录
3、网页突然每天出现404页面如何分析?
4、网站测试地址被收录该如何处理?
5、很多大型网站对首页上标签分类页进行屏蔽的原因
6、首页链接非唯一,多个链接指向首页均可访问,导致首页收录但无排名索引
7、URL加参数追踪访客轨迹
8、细节:目录页不带 “/” 301跳转带 “/” 的网址
9、网址后多个“/"能正常访问,解决方法
10、网络爬虫如何判定空短页面
11、源代码中链接均含80端口
12、大量图片404页面的问题原因及处理方法
13、百度统计受访页面中出现已隐藏页面,点击效果为404
14、首页优化细节
15、判断网站是否被K
16、电商网站站内搜索词库bug
17、网页收录分类
URL泛解析
问题描述:改变URL栏目或ID成为不存在的URL后仍可访问,例如:
影响:百度会有抓取大量相同页面的风险;
解决方案:让技术将不存在的页面返回404页面;
URL泛解析检查事项:
1. 各类别页面不带www 是否跳转到带www的
2.栏目页带结尾不带 “/” 是否跳转带 “/”的
3.检查各类别页面,修改URL的类目名或者id查看是否跳转404页面
网站 http协议和https协议共存,百度会将 http和https 视作两个站点重复抓取收录
解决方法:
1、 把http所有页面 301 到https页面;
2、 当访问https站点时,判断ua如果是蜘蛛 就301到http站点;
3、 考虑https 的加密方式及证书,参考看大型网站https 的解析规则及加密规则;
4、参考百度站长https解析 :
http://zhanzhang、baidu、com/college/courseinfo?id=857&page=4
网页突然每天出现404页面如何分析
原因分析:
1、是否产品更换栏目产生死链;
2、 路径设置有问题导致蜘蛛跳过某些栏目产生抓取错误,比如原链接:a、com/b/123、html 蜘蛛抓取结果为:a、com/123 、html,跳过了b目录;
3、 考虑日志伪蜘蛛抓取的假404。站长平台404数据是最准确的,日志上的404数据如果比站长平台多,可能是伪蜘蛛抓取的假404;
4、近期是否有特别操作,导致一些变化产生404;
网站测试地址被收录该如何处理?
1、网站若已上线需联系技术先关掉之前的测试端口;未上线需让技术屏蔽蜘蛛抓取测试网址;
2、将已被收录的测试地址全部301;
3、查看日志数据,将所有死链提交站长平台;
PS:在做测试的时候需提醒技术人员屏蔽蜘蛛抓取,避免此类情况出现。
很多大型网站对首页上标签分类页进行屏蔽的原因
1、一般来说首页是权重最高、蜘蛛来的次数最多时间最长的页面,过多的可爬行链接会分散权重,浪费蜘蛛资源,降低重要页面被抓取的几率。因此需要对多余链接进行nofollow,集中蜘蛛资源到重要页面,提升重要页面被抓取几率及抓取时间,并且提高重要页面关键词权重排名。
2、首页导航栏就有分类页链接,蜘蛛可从这个入口去自上而下的树形抓取,首页上重复的链接会浪费重要的蜘蛛抓取资源。
首页链接非唯一,多个链接指向首页均可访问,导致首页收录但无排名索引
问题描述:雅堂小超网站栏目页及文章页都已放出,且排名较好,搜索雅堂小超官网等精确关键词却找不到首页。即在栏目页及内页均已收录且有排名的情况下,首页有收录无排名。
发现问题:site 小超网站,发现首页有多个链接可访问,未做301。对百度而言这个网站就是存在多个首页,无法判断真伪自然不会放出来给用户看。
解决问题:找技术排查所有首页链接,并将其做301跳转到xc.yatang.cn
处理结果:索引量两天内从84涨到545,百度几乎将网站所有页面从索引库中放出,首页链接唯一,排名出现,优。
URL加参数追踪访客轨迹
问题描述:站内外及竞价推广的URL相同,无法区分用户来源及站内访问轨迹,不便于分类统计数据进行成本监控及用户行为分析。
解决方案:站内URL可根据统计需求添加参数,例如产品页URL可添加产品SKU参数,品牌页URL可添加品牌名参数;站外URL可根据渠道进行划分,例如百度品专添加brandlink参数等。
工具及使用:登录谷歌GA下载网址构建工具,自主添加需求参数。
案例:原URL:www.jd.com
加参URL:www.jd.com?utm_source=baidu&utm_medium=cpc&utm_campaign=brandlink
含义:utm_source=baidu:流量来源为百度;
utm_medium=cpc:流量为付费搜索;
utm_campaign=brandlink:流量渠道为百度品牌专区;
效果展现:百度统计后台搜索已添加参数即可查询某一渠道的流量概况。
目录页不带 “/” 301跳转带 “/” 的网址
URL泛解析检查事项:
1、 各类别页面不带www 是否跳转到带www的
2、栏目页带结尾不带 “/” 是否跳转带 “/”的
3、检查各类别页面,修改URL的类目名或者id查看是否跳转404页面
网址后多个“/"能正常访问,解决方法
1、 做301跳转到一个/结尾的网址;
2、返回404页面,状态码为404;
3、百度站长平台提交死链;
网络爬虫如何判定空短页面
1、有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃
2、加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
3、很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
源代码中链接均含80端口
原因是代码请求根目录加了端口,去掉就OK了;
大量图片404页面的问题原因及处理方法
可能的原因:
1、代码中写了图片路径,但是物理路径是不存在的;
2、图片已经被删除;
3、图片位置被移动;
4、用户自行输入错误图片路径;
5、服务器出问题导致不能访问图片路径;
6、某些软件扫描后台漏洞输入大量不存在的路径;
解决方案:
1、先根据以上6点原因核实到底是什么问题;
2、除4/6原因外,第5点联系运维解决,其余可去站长平台提交404死链;
百度统计受访页面中出现已隐藏页面,点击效果为404
找原因:用户如何访问的这些页面的?询问技术是否将隐藏页面链接单独开放给某些用户使用(本网站的隐藏链接是开发给线下拓展人员访问的,直接输入网址访问,网站上无入口);
解决方案:
1、开发协助检查隐藏页面代码中是否有百度统计和百度推送的代码,如果有需要去掉;
2、修改robots文件,禁止蜘蛛抓取这些页面;
3、百度站长平台提交404死链;
首页优化细节
1、 页面内容需包含标题重点;
2、 图片需添加alt标签,并写入标题内关键词;
3、 首页内容需体现用户核心重点需求;
判断网站是否被K
1.site网址,显示有收录但没有结果页,如下图
2.SEO工具检测关键词排名全掉,如下图:
电商网站站内搜索词库bug
问题描述:站内搜索“高低儿童床”无结果,搜索分词显示后台将这个词拆分为了“高低”+“儿童床”,因此无符合条件的商品;
测试:在网址上讲分词手动改为“高低”+“儿童”+“床”,符合条件商品有44条记录。因此可推测是后台分词词库不合理。
解决方法:与品类运营人员沟通,由他们出一个较为合理且全面的分词词库提交给技术,由技术进行修改分词匹配;
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。