网站日志是什么?
作为一个网站管理人员,我们该除了通过流量统计工具来查看网站访问人数之外,并不能帮助我们很好地了解网站的运行状况,而网站日志的出现很好地帮助我们解决这一问题。网站日志是由网站所在服务器实时记录网站运行状态的各种数据的文件,通过对网站日志的分析,我们可以知道哪些用户访问了网站,访问了哪些页面;同时可以查看到搜索引擎中的蜘蛛在网站中的爬行情况,利用网站日志还能查看到请求中返回的HTTP协议状态码,长期分析网站日志中的HTTP状态码能够发现对网站不利的细节部分,使网站管理人员更好地管理和优化网站。
网站日志存放在哪里?
网站日志一般存放在网站根目录下的“log文件夹”或“logfiles文件夹”,文件夹名称视各虚拟主机提供商不同而不同。网站日志是以txt结尾的文本文件。可以通过FlashFxp、Leapftp等网站上传下载工具将日志下载到本地进行分析。
网站日志案例分析:
1、日志语法:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2010-08-11 00:00:17
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
说明:
#Software:表示软件名称;
#Version:表示版本号;
#Date:表示时间
#Fields:说明如下:
date:表示记录访问日期;
time:访问具体时间;
s-sitename:表示你的虚拟主机的代称或机器码;
s-ip:服务器IP;
cs-method:表示访问方法或发生的请求/提交事件,常见的有两种:一个是GET,就是平常我们打开一个URL访问的动作,另一个是POST,提交表单时的动作;
cs-uri-stem:用户在当前时间访问哪一个文件或具体页面;
cs-uri-query:是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用“-”表示;
s-port:访问的端口
cs-username:访问者名称,如果没有参数则用“-”表示;
c-ip:访问者IP
cs(User-Agent):访问的搜索引擎和蜘蛛名称;
sc-status:Http状态码,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
sc-substatus:服务端传送到客户端的字节大小;
cs–win32-statu:客户端传送到服务端的字节大小;
sc-bytes:服务端传送数据字节大小;
cs-bytes:用户请求数据字节大小;
http状态码后面几位数据没有固定格式,如果只有一个表示下载数据字节大小;
2、Http状态码:
1**:请求收到,继续处理
2**:操作成功收到,分析、接受
3**:完成此请求必须进一步处理
4**:请求包含一个错误语法或不能完成
5**:服务器执行一个完全有效请求失败
[案例]案例来源:web168.com的其中一个日志代码如下:
2010-08-09 11:44:32 W3SVC622339 222.186.25.142 GET /index.html - 80 - 123.125.66.70 Baiduspider+(+http://www.baidu.com/search/spider.htm) 304 0 0 283
[说明]
这一记录表示百度蜘蛛在2010-08-09 11:44:32这一时间爬过网站根目录下的“index.html“这一页,通过返回的304状态码表示蜘蛛认为网页内容没有更新或没有修改,283表示蜘蛛下载这一页面的字节大小。