准确而言,我正在处理一个拥有近百万条记录的日志文件。由于它是帐单摘要日志,因此客户信息将以特定顺序记录。
我正在使用customized GROK Patterns
和logstash XML filter plugin
来提取足以跟踪的数据。要跟踪个人客户活动,我使用“Customer_ID”作为唯一密钥。所以,即使我用多Logstash文件,多神交模式,所有他的信息可以使用以下界/聚集了他的“CUSTOMER_ID”(唯一键)将数据从Filebeats发送到多个Logstash文件时面临问题
这里是我的日志文件的样本,
7-04-2017 08:49:41 INFO abcinfo (ABC_RemoteONUS_Processor.java52) - Customer_Entry :::<?xml version="1.0" encoding="UTF-8"?><ns2:ReqListAccount xmlns:ns2="http://vcb.org/abc/schema/"/"><Head msgId="1ABCDEFegAQtQOSuJTEs3u" orgId="ABC" ts="2017-04-27T08:49:51+05:30" ver="1.0"/><Cust id="ABCDVFR233cd662a74a229002159220ce762c" note="Account CUST Listing" refId="DCVD849512576821682" refUrl="http://www.ABC.org.in/" ts="2017-04-27T08:49:51+05:30"
我神交模式,
grok {
patterns_dir => "D:\elk\logstash-5.2.1\vendor\bundle\jruby\1.9\gems\logstash-patterns-core-4.0.2\patterns"
match => [ "message" , "%{DATESTAMP:datestamp} %{LOGLEVEL:Logseverity}\s+%{WORD:ModuleInfo} \(%{NOTSPACE:JavaClass}\)%{ABC:Customer_Init}%{GREEDYDATA:Cust}"]add_field => { "Details" => "Request" }remove_tag => ["_grokparsefailure"]}
其存储内部Pattern_dir我的自定义模式,
ABC (- Customer_Entry :::)
我的XML过滤器插件,
xml {
source => "Cust"
store_xml =>false
xpath => [
"//Head/@ts", "Cust_Req_time",
"//Cust/@id", "Customer_ID",
"//Cust/@note", "Cust_note", ]
}
所以,无论细节背后来** - Customer_Entry ::: **,我将能够使用XML插件过滤,提取它(将存储类似于多线编解码器)。我已经编写了5个不同的Logstash文件,用5种不同的Grok模式提取不同的客户活动。它会告诉,
1.Customer_Entry
2.Customer_Purchase
3.Customer_Last_Purchase
4.Customer_Transaction
5.Customer_Authorization
上述所有神交模式具有不同的一组信息,这将被分组正如我前面所说的,通过Customer_ID。
我可以通过使用具有不同日志文件的自定义模式,在Kibana中清楚地提取信息并将其可视化,而没有任何缺陷。
由于我有100个日志文件,每个日志文件放入logstash,我选择了Filebeats,但Filebeats只运行一个端口“5044”。我试图用5个不同的端口运行5个不同的logstash文件,但那是行不通的,只有一个5的logstash文件被加载其余的配置文件被闲置。
这里是我的样品filebeat output.prospector,
output.logstash:
主机: “本地主机:5044”]
output.logstash:
主机: “本地主机:5045” ]
output.logstash:
主机: “本地主机:5046”]
我不能添加所有的神交PATT erns在一个logstash配置文件中,因为XML Filter插件需要源“GREEDYDATA”。在这种情况下,我将有5种不同的Source=>
5种不同的格罗克模式。 我甚至也试过,但那不起作用。
寻找更好的方法。
是的这是工作..!但我想确保,负载均衡解析日志每一行?因为正如我在我的问题中提到的,我有不同模式的多个配置文件。我不希望负载平衡留下任何这些模式。也可以介绍一下globbing?以及当我持有多个配置文件时globbing会如何增加并行性。因为我在Input Prospector中使用了通配符。 –