网站日志文件剖析剖析办法精华版

发布时间:2025-03-07 点击:21
经过剖析网站日志log文件我们能够看到用户和搜索引擎蜘蛛拜访网站的行为数据,这些数据能让我们剖分出用户和蜘蛛对网站的偏好以及网站的健康状况。在网站日志剖析中,我们首要需求剖析的是蜘蛛行为。
在蜘蛛爬取及录入过程中,搜索引擎会给特定权重网站分配相应的资源量。一个搜索引擎友爱型的网站应该充分利用这些资源,让蜘蛛能够敏捷、精确、全面的爬取有价值、用户喜爱的内容,而不浪费资源在无用的、拜访反常的内容上。
但由于网站日志中数据量过大,所以我们一般需求凭借网站日志剖析东西来查看。常用的日志剖析东西有:光年日志剖析东西、web log exploer。
在剖析日志时,关于单日日志文件我们需求剖析的内容有:拜访次数、逗留时刻、抓取量、目录抓取计算、页面抓取计算、蜘蛛拜访ip、http状况码、蜘蛛活泼时段、蜘蛛爬取途径等;关于多日日志文件我们需求剖析的内容有:蜘蛛拜访次数趋势、逗留时刻趋势、全体抓取趋势、各目录抓取趋势、抓取时刻段、蜘蛛活泼周期等。
下面我们来看看网站日志怎么剖析?
网站日志数据剖析解读:
1、拜访次数、逗留时刻、抓取量
从这三项数据中我们能够得知:均匀每次抓取页面数、单页抓取逗留时刻和均匀每次逗留时刻。
均匀每次抓取页面数=总抓取量/拜访次数
单页抓取逗留=每次逗留/每次抓取
均匀每次逗留时刻=总逗留时刻/拜访次数
从这些数据我们能够看出蜘蛛的活泼程度、亲和程度、抓取深度等,总拜访次数、逗留时刻、抓取量越高、均匀抓取页面、均匀逗留时刻,标明网站越受搜索引擎喜爱。而单页抓取逗留时刻标明网站页面拜访速度,时刻越长,标明网站拜访速度越慢,对搜索引擎抓取录入较晦气,我们应尽量进步网页加载速度,削减单而立逗留时刻,让爬虫资源更多的去抓取录入。
别的,依据这些数据我们还能够计算出一段时刻内,网站的全体趋势体现,如:蜘蛛拜访次数趋势、逗留时刻趋势、抓取趋势。
2、目录抓取计算
经过日志剖析我们能够看到网站哪些目录受蜘蛛喜爱、抓取目录深度、重要页面目录抓取状况、无效页面目录抓取状况等。经过比照目录下页面抓取及录入状况,我们能够发现更多问题。关于重要目录,我们需求经过表里调整添加权重及爬取;关于无效页面,在robots.txt中进行屏蔽。
别的,经过多日日志计算,我们能够看到站表里行为给目录带来的作用,优化是否合理,是否达到了预期作用。关于同一目录,以长时刻时刻段来看,我们能够看到该目录下页面体现,依据行为估测体现的原因等。
3、页面抓取
在网站日志剖析中,我们能够看到具体被蜘蛛爬取的页面。在这些页面中,我们能够剖分出蜘蛛爬取了哪些需求被制止爬取的页面、爬取了哪些无录入价值页面、爬取了哪些重复页面url等,为充分利用蜘蛛资源我们需求将这些地址在robots.txt中制止爬取。

4、蜘蛛拜访ip
早年有人提出过经过蜘蛛的ip段来判别网站的降权状况,笨鸟感觉这个含义不大,由于这个后知性太强了。并且降权更多应该早年三项数据来判别,用单单一个ip段来判别含义不大。ip剖析的更多用途应该是判别是否存在收集蜘蛛、假蜘蛛、歹意点击蜘蛛等。
5、拜访状况码
蜘蛛经常呈现的状况码如301、404等,呈现这些状况码要及时处理,以防止对网站造成坏的影响。
6、抓取时刻段
经过剖析比照多个单日蜘蛛小时爬取量,我们能够了解到特定蜘蛛关于本网站在特定时刻的活泼时段。经过比照周数据,我们能够看到特定蜘蛛在一周中的活泼周期。了解这个,关于网站内容更新时刻有必定指导含义,而之前所谓小三大四等均为不科学说法。
7、蜘蛛爬取途径
在网站日志中我们能够盯梢到特定ip的拜访途径,如果我们盯梢特定蜘蛛的拜访途径则能发现关于本网站结构下蜘蛛的爬取途径偏好。由此,我们能够恰当的引导蜘蛛的爬取途径,让蜘蛛更多的爬取重要、有价值、新更新页面。其间爬取途径中我们双能够剖析页面物理结构途径偏好以及url逻辑结构爬取偏好。经过这些,能够让我们从搜索引擎的视角去审视自己的网站。


清远网站推广:如何保证推广效果
网站是一个因缺乏说服力要素而不能构成说服逻辑
个人网站推广需掌握的6大内容
提升网站访客粘度(回访率)的三大技巧
做网站推广优化是先优化内页还是首页?差别在哪儿?
如何正确发布外部链接
新手站长如何选择服务器
模板网站:网站建设前的策划