如何使用正则表达式提取URL中的引号

我有一个文本，这是一个损坏的sqlite 3数据库，它有很多网址，大多都是引号。在不丢失URL的任何部分的情况下提取它们的最佳方式是什么？如何使用正则表达式提取URL中的引号

链接包含所有类型的字符，该链接的50％都来自与100个字符的搜索引擎等

该文本文件是损坏的SQLite 3数据库。

“URL”： “http://www.bing.com/search?q=test”

2015-12-15 rudolph

如果您在UNIX，下面应该这样做

strings sqllite.txt | grep '\"http[^\"]*"' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt

哪里sqllite是数据库文件。刚刚在RHEL上进行了测试。排序和uniq只是删除重复的URL。

编辑：新的表达方式忽略网站图标文件

strings sqllite.txt | grep '\"url\":\"http[^\"]*"' | tr ',' '\n' | grep '\"url\":\"http' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt

来源

2015-12-15 01:51:55

我在Windows英寸但是这可以在Cygwin上工作吗？ – rudolph

@rudolphd我这么认为，但我现在无法测试它。如果失败，可能需要进行语法调整。 –

刚刚测试过，它没有工作，运行后没有任何显示。我检查了文件夹，它是正确的，因为它不显示“没有这样的文件或目录”。 – rudolph

如何使用正则表达式提取URL中的引号

回答

相关问题