2016-01-21 62 views
0

我有从多个PCAP文件获取的请求的数据集,并已将这些PCAP文件加载到R.每个PCAP文件有效地引用单个观察(行)。令牌化SQL注入字符串

在这个数据集中有一个“请求”列,它给出了一个关于源请求的字符串。例如,请求可能会显示为:

http://111.22.33.1/ilove/usingR/extraextra/sqli/?id='or1=1-- 

我想标记每个请求字符串以便在其上运行一些机器学习算法。对这些字符串进行标记的最好方法是什么,以便对其进行一些分析?我知道存在诸如tm这样的软件包,但对它们没有什么经验。

+0

看一下'urltools'包,如果解析工具有任何不足,请让我知道您需要增强哪些内容。 – hrbrmstr

+0

你能给出更实际的输入和输出吗? –

回答

0

我担心你首先要检查你的请求变量并找到相似的模式来帮助你找到规则来标记你的变量。

然后你可以使用str_split/模式。如果您将幻影号码保留在字符串中,某些模型可能会在您的请求中找到您的共现模式。

然后对ip地址和文本做一些分析,如频率检查。

tm更适用于文本语料库。在这里,因为它是“自动化”创建的字符串,所以您可能首先会使用更经典的方法找到一些有用的信息。