我有一个python脚本,它从pastebin.com/archive中提取URL,它具有粘贴链接(它在url中的pastbin.com后有8个随机数字)。我当前的输出是一个.txt文件,其中包含下面的数据,我只希望粘贴链接(例如:http://pastebin.com///Y5JhyKQT),而不是指向其他页面(如pastebin.com/tools)的链接。这是我可以设置wget去拉每个单独的粘贴。提取具有特定字符数的行
我可以考虑这样做的唯一方法是编写一个bash脚本来计算每行中的字符数,并且只保留包含30个字符的行(这是链接到粘贴的URL的长度)。
我不知道如何使用grep或awk来实现类似这样的事情,也许使用while while循环?任何帮助,将不胜感激!
http://pastebin.com///tools
http://pastebin.com//top.location.href
http://pastebin.com///trends
http://pastebin.com///Y5JhyKQT <<< I want to keep this
http://pastebin.com//=
http://pastebin.com///>
你可以在Python中轻松完成,所以你不必得到噪声,然后用wget检查它。看到我的答案python下面。如果超过长度,则不要写入文件。 –
你说你想保留的行在'Y5JhyKQT'结尾,所以在末尾没有'8个随机数字',所以我假设你的意思是'8个随机字母数字字符。那么,如果以“潮流”而不是“趋势”为代表的8个字符的单词结尾,那么您如何区分那些在“趋势”之前不需要的行?或者,这只是一个完全不相干的红鲱鱼你扔在那里,所有真正重要的是行长是30个字符? –