2013-06-26 121 views
2

好日子全部,Python和正则表达式

我之前发布了类似的东西,所以如果您再次遇到这个问题,我很抱歉。这一次我会更具体,给你直接的例子,并描绘出我想要的。基本上,我需要让原始数据看起来更漂亮:

str = '2011-06-1618:53:41222.222.2.22-somedomain.hi.comfw12192.10.215.11GET/965874/index.xls22233665588-0Mozilla/4.0 (compatible; MSI 5.5; Windows NT 5.1)'--55656-0.55-5874/659874540--' 



more strings: 
'2011-06-2150:36:1292.249.2.105-somedomain.hi.comfw12192.10.215.11GET/965874/ten.xls22233665588-0Mozilla/4.0 (compatible; MSI 6.0; Windows NT 5.1)'--55656-0.55-5874/659874540--' 
'2011-01-1650:23:45123.215.2.215-somedomain.hi.comfw12192.10.215.11GET/123458/five.xls22233665588-0Mozilla/4.0 (compatible; MSI 7.0; Windows NT 5.1)'--55656-0.55-5874/659874540--' 
'2011-02-1618:16:54129.25.2.119-thisdomain.hi.comfw12192.10.215.11GET/984745/two.xls22233665588-0Mozilla/4.0 (compatible; MSI 7.0; Windows NT 5.1)'--55656-0.55-5874/659874540--' 
'2011-08-0525:22:16164.32.2.111-yourdomain.hi.comfw12192.10.215.11GET/85472/one.xls22233665588-0Mozilla/4.0 (compatible; MSI 8.0; Windows NT 5.1)'--55656-0.55-5874/659874540--' 

在调试器:

import re 
str = '2011-06-1618:53:41222.222.2.22-somedomain.hi.comfw12192.10.215.11GET/965874/index.xls22233665588-0Mozilla/4.0 (compatible; MSI 5.5; Windows NT 5.1)'--55656-0.55-5874/659874540--' 
domain = re.compile('^.*?(?=([fw].+?))') 
domain.search(str).group() 
'2011-06-1618:53:41222.222.2.22-somedomain.hi.com' 
domain = domain.search(str).group() 

所以对于获取域,我需要的破折号前摆脱一切( - ),右在域名之前。我可以用这个RE([0-9] {3,5})。([0-9] {1,3}。){2} [0-9] {1,3} [ - ]但我不知道该怎么说,找到那个价值并且在它之后回复一切,但是在fw12之前。

在一天结束的时候,我想这些字符串看起来像这样,用逗号(,)作为分隔符:

2011-08-05,25:22:16,164.32.2.111,YOURDOMAIN .hi.com,GET/85472/one.xls,Mozilla/4.0(兼容; MSI 8.0; Windows NT 5.1)

+0

为了解析这个问题,无论您使用哪种技术,您都需要有一些方法来区分域名后面的部分和后面的任何部分。你能用英语表达怎么做?下列文字是否总是“fw12”,并且域名是否没有该字符串? –

+0

网络日志不带字段之间的分隔符?奇怪的配置:s – MatToufoutu

+0

是在特定范围内的所有IP地址?如果不是这样,则可能很难构建能够意识到“fwXX”部分的结尾以及IP地址的开头的正则表达式。 – MatToufoutu

回答

0

要分隔每个字段,我建议你使用这种模式(然后你加入与分隔符你想要的):

(\d{4}-\d{2}-\d{2})(\d{2}:\d{2}:\d{2})(\d+(?:\.\d+){3})-([a-z.]+)fw\d+(?:\.\d+){3}(GET\/\d+\/[a-z.]+)[-\d]+([^'-]+) 
2

首选,但是,也许 - 不可行的方法

这看起来像(如MatToufoutu指出的)Apache日志文件。如果确实如此,那么你可以使用apachelog或类似的东西来处理它。您需要将Apache的httpd.conf/apache2.conf文件字符串用作格式化程序。由于我没有你,我只是用apachelog中提供的一个的文档:

import apachelog 

format = r'%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" ' 
log_line = """212.74.15.68 - - [23/Jan/2004:11:36:20 +0000] "GET /images/previous.png HTTP/1.1" 200 2607 "http://peterhi.dyndns.org/bandwidth/index.html" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2) Gecko/20021202" """ 

p = apachelog.parser(format) 
data = p.parse(log_line) 

然后,您可以通过访问data访问日志文件的各个部分的属性

print "%s, %s, %s, %s, %s" % (data['%t'], data['%h'], data['%{Referer}i'], data['%r'], data['%{User-Agent}i']) 

以获得输出

[23 /月/ 2004:11:36:20 0000],212.74.15.68,http://peterhi.dyndns.org/bandwidth/index.html,GET /images/previous.png HTTP/1.1

使用正则表达式

或者,你可以把你的初步做法和使用正则表达式来解析线。以下应该工作。他们分成命名组,以便更容易A)阅读B)编辑C)理解:

import re 


your_string = "2011-06-1618:53:41222.222.2.22-somedomain.hi.comfw12192.10.215.11GET/965874/index.xls22233665588-0Mozilla/4.0 (compatible; MSI 5.5; Windows NT 5.1)'--55656-0.55-5874/659874540--" 

pattern = re.compile(r'(?P<date>\d{4}(:?-\d{2}){2})(?P<time>(:?\d{2}:?){3})(?P<ip_address1>(:?\d{1,3}\.?){4})-(?P<domain>[\w\.]+)fw12(?P<ip_address2>(:?\d{1,3}\.?){4})(?P<get>(:?GET/(:?\d+/)).*?)\d+-0(?P<user_agent>.*?)\'--.*$') 
result = pattern.match(your_string) 

然后,您可以访问结果与result.group('groupname'),如:

print "%s %s, %s, %s, %s, %s" % (result.group('date'), result.group('time'), result.group('ip_address1'), result.group('domain'), result.group('get'), result.group('user_agent')) 

哪将返回:

2011-06-16 18:53:41,222.222.2.22,somedomain.hi.com,GET/965874/index.xls,Mozilla/4.0(兼容; MSI 5.5; Windows NT 5 。1)

由于用正则表达式这种方法交易,我总是喜欢加我的小免责声明:

你的数据进行解析。它落在你和你对需要多少宽容,卫生和验证的判断上。您可能需要修改上述内容以更好地满足您的要求,并且可以使用未包含在样本中的现实世界数据正确工作。确保你了解正则表达式正在做什么,以便你知道这个代码是如何工作的。