0
我正在编写应该下载html页面的bash脚本,并从该页面提取所有pdf文件的链接。使用bash打印所有pdf文件的链接
我不得不说,我是新手来打击所以现在我只能grep所有包含<a href
的行,然后grep这些行有pdf
字。
我可以barelly使用awk
但我不知道怎么写正确的正则表达式来获得<a href="*.pdf">
只有文字,我想有*.pdf
。
编辑:grep "<a href=\"*.pdf\""
没有找到pdfs的所有链接,这怎么可能?例如找不到<a href="lorem ipsum.pdf">...</a>
。
您应该阅读有关正则表达式语法的手册。 '*'(星号)和'.'(点号)有特殊的含义。对于你的'grep'命令,试试''',而不是。 –
是这样的吗? [根@木偶:0 NewRelic的-下文]#$回声代码 [根@木偶:0 NewRelic的-下文]#$回声代码| AWK“BEGIN {FS = “\”” } {打印$ 2}” abc.pdf ..Once你grepped包含PDF和HREF线,尝试对管道的awk 'BEGIN {FS = “\”“} {打印$ 2}' –
不使用正则表达式,使用html解析器 – Sundeep