1.网站的gzip压缩对网站的收录和权重有没有影响?
百度回复:gzip对收录和权重没有影响。对搜索引擎唯一的影响,是抓取速度会快一些。
2.js代码弹窗是否会影响自然排名?
百度回复:任何对用户体验有增益或者减益的做法,其实会影响到用户的”投票”行为。而这些投票行为,又会影响搜索引擎对这个网站的评价算法。所以,弹不弹窗并不重要呀,关键是这种弹窗会对用户造成什么样的影响。
3.百度是否跟踪JavaScript链接?
百度回复:javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。
4.404页面不去处理的时候,会对网站权重产生影响吗?
百度回复:搜索中出现的无结果页面,是对用户最大的伤害,这种可能就会被认为该网站内容管理不好。
5.如何处理404页面?
百度回复:建议统一筛查全站近期的404页面,做成死链的sitetmap文件,登录站长平台,使用死链工具进行提交。此方法对降低404页面对网站造成的负面影响效果最优。
6.404页面是不是必须要提交,才可以很好的被删除?
目录下很多垃圾的标签,做了404设置,但是不清楚被收录的有多少,能不能把垃圾标签页面都导出来?
百度回复:检测死链-spider一条条去访问,确定是否是死链。建议大家主动去提交死链,站长了解自身网站的情况,可以比较好的进行提交,这个工具是为了弥补系统的问题。目前我们也在探讨能不能推出比较简单的工具,帮助站长解决这种问题。
7.关于404页面的问题
当我们由于变更产生404之后,百度会间隔多长时间识别出来?并且需要识别几次才会将其删除?对有些尚未做好的专题页面,可能会临时设置为404页面,之后很快将页面恢复,但这些专题页面中有一部分很快就能够恢复,还有一部分就需要很长时间才可被收录,因此有重大新闻时,会紧张重大专题被及时收录的情况。
百度回复:不会有固定的时间,会根据网页的和所在频道的更新频率,去确定删除的时间,未做好或者非作为死链的页面,尽量不要用404的返回码,希望尽可能用503的返回码,这样spider能够比较好的去识别。
8.robots.txt到底能不能屏蔽百度蜘蛛?
我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?
百度回复:如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。
9.robots解除禁止抓取后的生效时间有多长?
百度回复:百度发现robots设置并更新抓取状态,正常情况在7天以内。
10.原创内容不能被识别怎么办?
百度回复:这个,只能说百度的策略还不是很完善,我们也一直在改进。另外,从用户体验角度,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。
11.修改首页的meta description是否会受到惩罚?
百度回复:这个肯定是多虑了。我们鼓励大家通过meta description来撰写网站的简介。只是过于频繁的修改,未必会及时的反馈在摘要中。
12.百度对网页标题长度有没有限制?
百度回复:这个自然是没有限制的。很多人喜欢往标题里塞很多关键词,以为那样就全面开花,但很可能适得其反。这个原理同在一个页面上设超链个数一样。分一杯羹的人越多,每个人所得的羹越少。
13.搜索结果中显示标题与实际标题不一致?
百度回复:原因比较复杂,需要针对性分析。主要原因可能是tag title提取失败,系统只好从其他地方取了一些文本作为标题。这种提取失败的原因,有网页设计层面的(比如全是flash或者ajax),也有robots封禁层面的(某些重要网页虽然不抓取,但会保留url本身)。还有一些系统异常也会造成类似的现象。如果不符合一般性的预期,这类问题都可以直接提交至webmaster#http://baidu.com。会有工程师跟进的。
14.百度规定的网页大小是多少?
百度回复:以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?页面大小和搜索引擎的抓取之间没有直接关系。但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限。
15.标题长短对于网站权重的影响有多大?
百度回复:正如同一个页面上的导出链接越多,每个链接获得的权重越小一样,title上的关键词越多,单个关键词获得的权重也会越低。这是很直观的逻辑。但是,如果为追求某个关键词的权重,极力压缩标题长度,那么真正合乎该页面的搜索需求,又很难被命中。所以,一般性的建议就是,实事求是的将页面主旨反映在标题中即可。如果要做长青树,不要在乎一时一刻的seo效果(那个很累、很烦),把网站的忠实用户人气做起来就成了。
16.修改页面标题(如增加前缀或后缀)是否会影响网站排名?
百度回复:title是极重要的内容,大幅修改,只会带来大幅波动,所以请慎重对待网页标题。
17.搜索结果页中的“描述”部分,百度如何判断~
百度对网页“描述”这部分展示,来源于四个方面:1、页面本身的description;2、用户当前搜索关键词在页面的分布比例;3、部分百度合作或权威站点对该站(页)的注释;4、百度会从代码中随机(跟多是按顺序)展示。不知道哪个说法更接近于真相,还是兼而有之?对站长们有什么好的建议呢?标题通常来自网页的。
百度回复:首页的摘要会比较多的来自meta description,普通网页则是根据搜索关键词动态提取的。
18.请问百度支持canonical属性么?
百度回复:对于多域名或者多url,站长有没有途径告知百度自己的首选域或首选地址呢?百度暂时还没有支持这类复杂的属性。关于首选域或者首选地址的给定问题,我们内部会郑重的讨论一下。通常情况下,只要网站所有者主推一个域名以及某个 url pattern,那么它通常也会被spider选择为主域名以及url主形态。我们也留意到打印页之类的问题,在我们的系统还没有完全的解决这类问题之 前,建议用robots来做一下处理。另外,站长工具平台还没有提供这方面工具的打算。如有新进展,会及时通报的。
19.简单明确的一个问题,百度目前支持链接的nofollow属性吗?rel=’external nofollow’
百度回复:百度现在支持nofollow标签。带nofollow标签的链接,我们会忽略掉它绝大部分的作用。nofollow主要用在用户留言等不受站长控制的地方,这些地方的投票不是站长的意志,告诉搜索引擎不要给他投票是合适的,就象zac博客中那些以请输入关键词、网购推荐等做为Anchor描述的链接,肯定不是zac想推荐的。如果是做友情链接正式地推荐别的人网站,当然就不能使用nofollow了。。。
-
20.请问百度对nofollow标签支持的深度和google相比有什么差异?
大家都知道google对nofollow标签适用于网页级和链接级.而且google蜘蛛还会对nofollow标签一定的按优先级别进行抓取.我想问下百度对nofollow的支持是否和google一样?如果不一样,会有哪些区别?
百度回复:如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 部分:;如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:sign in。详细的说法: 不追踪链接,不传递权重。123只起到发现链接的作用,但不传递权重。从站长的角度,应该看不到任何不同。
21.百度对JS代码里的链接识别么
百度回复:我们也希望能解析flash、js里的内容。但目前离理想状态尚有距离。
22.请问百度支持通过robots提交Sitemap么?
百度回复:暂时还没这个打算。一般情况下,spider能处理大多数网站的数据抓取和更新,而无须借助sitemap。
23.option标签里面的链接可以被蜘蛛抓到么?
24.百度是否能抓取CSS样式表并识别分析?
百度回复:百度是能够抓取并分析CSS的。
25.对较多图片和flash的页面,搜索引擎会如何处理?
目前很多页面可能会没有很多的文字,比较多图片和flash,对没有很多文字的页面,搜索引擎能很好的将这个页面中的资源识别出来吗?
百度回复:目前在推一个工具,将spider抓取日志展示出,去看下是否符合站长的抓取意愿,且对某些js较多的网站,假设目前收录不好,可先尽量减少js的使用。
26.百度蜘蛛现在可以抓取HTML5的标签吗?
百度回复:百度可以解析HTML5的标签。
27.关于外链接入已经被robots.txt屏蔽的URL,爬虫是否先抓取的问题
百度回复:一个url只要被robots屏蔽,baiduspider就不会进行抓取,这是肯定的。就算某个链接可以通过外链进入到,我们也不会去抓取这个页面。
28.百度是否抓取并且分析代码中注释掉的内容
百度回复:在html中的注释内容,会在正文提取环节忽略。
29.搜索引擎在高峰时段大量抓取页面,导致服务器出现负载问题。但是我不希望屏蔽它的抓取,应该如何处理?能否在高峰时段对spider返回 202 状态码,告知spider“服务器已接受请求,但尚未处理。”?这会对网站造成什么影响?
百度回复:会延迟百度对新网页的收录速度。正常情况下,Baiduspider的抓取频率大致上和网站新资源产生的速度相符,并不会给网站带来很大的压力。但现在网站结构通常都比较复杂,多种url形式指向的可能是相同的内容,或者会自动产生大量无检索价值的网页。我们目前发现的问题,主要来源于此,建议先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收录的形式,如果有,robots掉它们可以节省大量的资源。
30.修改首页的description标签,会不会受到惩罚?
百度回复:这个肯定是多虑了,我们鼓励大家通过description来撰写网站的简介,只是过于频繁的修改,可能不会及时反馈在摘要中。
31.Google倾向于说每个网页的导出链接不要超过100为宜,百度有没有什么建议?
百度回复:这个暂时没什么建议。一般情况下,链接数量,会影响到这些链接从该页面上所获得的权重;少就多分一些,多就少分一些。
32.nofllow 是否会浪费权重
百度回复:不会
33.百度对重复内容是如何处理的?
百度回复:搜索引擎的排序出发点,是用户的搜索体验。虽说,很多时候尊重原创和用户体验是一致的,但是,毕竟也有一些案例,转载的体验会比原创更好,这时原创的排序未必会高于转载者,但是,原创的应该以另外一种方式被肯定,而不是简单的被聚合掉。
34.关于重复网页判断与代码语义化
某房地产网站,该网站主要包括一些房子的数据,格式如下:房子的实际面积:90平方房子可用面积:100平方房子是否抵押:否房子是否过户:是一套房子有大概二十多条类似的属性数据,网站有十几万套房子数据,全部都用table标签布局显示。数据的内容大多是一些数字,文字比较少。它们的排版格式基本一样,只是数据的内容不同。
问题1:请问这样的网页百度是否会把这些页面当成雷同或重复页面拒绝收录呢? 但实际上那些数据都是不一样的,都是有用的。
问题2:从网页代码语义化的角度来说,用什么样的html标签才能让百度更容易理解我的数据呢?
百度回复:问题1:这些页面不会当做重复页面拒绝收,百度可以识别问题2:可参考百度搜索引擎优化指南2.0
35.TAG的SPAM页面百度如何看?
有些网站没有控制用户的行为,可能会产生spam 的情况,数据量太大,垃圾标签+分页的量在700w+的水平,整体提交担心权重被k
百度回复:很多网站喜欢去做tag,但非用户行为,而是直接抓的网页搜索结果,虽然tag写的好,但是内容不相关,也属于一种作弊。
36.网页中是否推荐设置keywords和description?如果每页都设置这两个属性,是否会被搜索引擎判断为过度优化或作弊而处罚?
百度回复:可以肯定的回复:不会。但也不见得会起到SEOER预期的排序效果。我们会慎重的对待这些meta信息。
实际上我们非常欢迎网站首页和索引页严肃的设置meta description,这样会使得搜索引擎摘要更好提取,对用户更友好,更易读。
来源:济南网站建设http://www.sdlanao.cn/