1
我有一个文本,这是一个损坏的sqlite 3数据库,它有很多网址,大多都是引号。在不丢失URL的任何部分的情况下提取它们的最佳方式是什么?如何使用正则表达式提取URL中的引号
链接包含所有类型的字符,该链接的50%都来自与100个字符的搜索引擎等
该文本文件是损坏的SQLite 3数据库。
“URL”: “http://www.bing.com/search?q=test”
我有一个文本,这是一个损坏的sqlite 3数据库,它有很多网址,大多都是引号。在不丢失URL的任何部分的情况下提取它们的最佳方式是什么?如何使用正则表达式提取URL中的引号
链接包含所有类型的字符,该链接的50%都来自与100个字符的搜索引擎等
该文本文件是损坏的SQLite 3数据库。
“URL”: “http://www.bing.com/search?q=test”
如果您在UNIX,下面应该这样做
strings sqllite.txt | grep '\"http[^\"]*"' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt
哪里sqllite是数据库文件。刚刚在RHEL上进行了测试。排序和uniq只是删除重复的URL。
编辑:新的表达方式忽略网站图标文件
strings sqllite.txt | grep '\"url\":\"http[^\"]*"' | tr ',' '\n' | grep '\"url\":\"http' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt
我在Windows英寸但是这可以在Cygwin上工作吗? – rudolph
@rudolphd我这么认为,但我现在无法测试它。如果失败,可能需要进行语法调整。 –
刚刚测试过,它没有工作,运行后没有任何显示。我检查了文件夹,它是正确的,因为它不显示“没有这样的文件或目录”。 – rudolph