最新消息:

SEOer要学会如何分析IIS日志

SEO优化 李金龙 2664浏览 0评论

  IIS日志是每个服务器管理者都必须学会查看的,服务器的一些状况和访问IP(包括搜索引擎爬虫)的来源都会记录在日志中,所以IIS日志对每个服务器管理者非常的重要,seoer也不例外,这点同时也可方便网站管理人员查看网站的运营情况。
  默认位置:%systemroot%\system32\logfiles\ 可自由设置。
  日志格式:ex+年份的末两位数字+月份+日期
  文件后缀:.log
  如2010年7月30日的IIS日志生成文件是ex020810.log
  我们打开IIS日志文件以后会发现很多条访问的日志文件,我们抽取出来一条google搜索引擎爬虫的例子给大家讲解一下:

例:
2009-11-26 16:00:01 GET /index.asp – – 66.249.67.41 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) – 200 71879 .
  分析 ..
  date(日期)===========2008-10-14
  time(时间)===========16:00:01
  cs-method(方法)=======GET .
  cs-uri-stem(URI资源)==== /index.asp //代表访问的资源是当前这个文件 !
  cs-uri-query(URI查询)==== – //
  cs-username========== – .
  c-ip(客户端IP)==========66.249.67.41 …
  cs-version ============HTTP/1.1 //协议版本 .
  cs(User-Agent)=========Mozilla/5.0+ (compatible;+Googlebot/2.1;++http://www.google.com/bot.html) //谷歌在收录 ..
  cs(Referer) (引用站点) ===== – //搜索的站点 .
sc-status(协议状态)======= 200 //200表示OK 特别注意:
sc-bytes(发送的字节数)===== 71879 //表示当前文件的大小

IIS日志返回状态代码详解:
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

再给大家介绍一些搜索引擎爬虫的名称:
1. Google爬虫名称
  1) Googlebot:从Google的网站索引和新闻索引中抓取网页
  2) Googlebot-Mobile针对Google的移动索引抓取网页
  3) Googlebot-Image:针对Google的图片索引抓取网页
   4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。
  5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。
  2. 百度(Baidu)爬虫名称:Baiduspider
  3. 雅虎(Yahoo)爬虫名称:Yahoo Slurp
  4. 有道(Yodao)蜘蛛名称:YodaoBot
  5. 搜狗(sogou)蜘蛛名称:sogou spider
  6. MSN的蜘蛛名称:Msnbot

  我们可以对IIS日志的分析,然后看看搜索引擎爬虫每天到我们的网站多少次,并且每次都访问了哪些文件,搜索引擎爬虫每天都是什么时间来的,然后我们就可以根据那个时间,在那个时间之前发布文章,这样对优化也是很有用处的!

转载请注明: » SEOer要学会如何分析IIS日志

发表我的评论
取消评论

表情

网友最新评论 (22)

  1. 这几天爬虫这个词说的很多,什么叫爬虫?就是搜索引擎么?
    等待思索10年前 (2010-10-11)
  2. 学些了,谢谢,我会注意看2IS记录的!
    我爱喝烧酒10年前 (2010-10-11)
  3. 这个我还第一次看到!呵呵
    joyla10年前 (2010-10-11)
  4. 这个写滴不错,受教~~
    小杰10年前 (2010-10-11)
  5. 经常遇到的是500.503.404页面其他的很少碰见
    广州SEO10年前 (2010-10-11)
  6. 哈哈 跟着 小鱼学习了
    猪猪懒人窝10年前 (2010-10-11)
  7. 不错哦,cpanel日志也有这个功能
    yesureadmin10年前 (2010-10-11)
  8. 还能看到一些不安全的因素~
    小松10年前 (2010-10-11)
  9. 讲得这么细,平时自己还没有重视这些东东。强烈学习。
    假日网10年前 (2010-10-11)
  10. 嗯,讲得挺详细,慢慢学!
    七七10年前 (2010-10-11)
  11. 爬虫和错误判断对每个站长都很有用,不管是不是搜索引擎优化人员
    clyee10年前 (2010-10-11)
  12. 嘿嘿,这个不错,很详细哦。收藏了
    david10年前 (2010-10-12)
  13. 爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。事实上,搜索引擎优化很大程度上就是针对爬虫而做出的优化,你网站的收录,全靠爬虫爬的
    落水鱼10年前 (2010-10-12)
  14. 注意一下好,我昨天就发现我的里面好多问题
    落水鱼10年前 (2010-10-12)
  15. 以后多看看,就明白了,可以不懂,但是要了解一下,有时候遇到问题知道往哪方面思考
    落水鱼10年前 (2010-10-12)
  16. 呵呵,欢迎常来啊
    落水鱼10年前 (2010-10-12)
  17. 你遇到最多的应该是200吧,否则你的网站都打不开了
    落水鱼10年前 (2010-10-12)
  18. 啥时候我成小鱼了,小猪?
    落水鱼10年前 (2010-10-12)
  19. 是一样的,都是系统日志
    落水鱼10年前 (2010-10-12)
  20. 是滴,以前关注都很少,最近才研究,发现学问真不少啊
    落水鱼10年前 (2010-10-12)
  21. 以后也要注意一下哈,我也是最近才注意的呃!
    落水鱼10年前 (2010-10-12)
  22. 决定网站命运啊,可以分析一下网站哪里出了问题啊!
    落水鱼10年前 (2010-10-12)