我在查找有关用于分析文件路径名称的工具,方法和技术的信息。我不是在谈论文件大小,读取/写入时间或文件类型,而是分析自己的路径或URL。文件路径名称或URL分析
我只知道基本的词频文本工具或方法,但我想知道是否有更先进的东西用于/应用于此尝试并从中挖掘出额外的信息。
谢谢!
更新:
这是我想要的最狭窄的例子。好了,我有一些全路径名作为这样的字符串:
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File5.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File5.doc
我想知道的是,出现在文件夹MapShedMaps“唯一”的2倍。如果我在弦上做频率,我会得到10次出场。问题是我不知道这个目录中的哪个级别是重要的,所以我希望根据我所描述的内容在目录的每个级别有一个唯一的计数。
你能不能给你想要从URL来收集信息的类型的例子吗?您可能会尝试查找用于检查URI信息的工具。 URL实际上是URI的一个子集,可能会限制你从那里的工具。如果你有兴趣,这家伙会解释一下。 http://www.bernzilla.com/item.php?id=100 – Ccorock
当然,理想情况下,我希望看到高频名称与其父目录之间的关系。所以说大量的路径以“成本模型”结束,我想知道是否有一个父级结构中的一个参与者会表明所使用的“成本模型”名称的高比例。 – Steve
你有尝试工作的首选语言吗?或者你只是寻找实现这一目标的通用手段? – Ccorock