使用bash打印所有pdf文件的链接

我正在编写应该下载html页面的bash脚本，并从该页面提取所有pdf文件的链接。使用bash打印所有pdf文件的链接

我不得不说，我是新手来打击所以现在我只能grep所有包含<a href的行，然后grep这些行有pdf字。

我可以barelly使用awk但我不知道怎么写正确的正则表达式来获得<a href="*.pdf">只有文字，我想有*.pdf。

编辑：grep "<a href=\"*.pdf\""没有找到pdfs的所有链接，这怎么可能？例如找不到<a href="lorem ipsum.pdf">...</a>。

2017-10-16 Delfi

您应该阅读有关正则表达式语法的手册。 '*'（星号）和'.'（点号）有特殊的含义。对于你的'grep'命令，试试'''，而不是。 –

是这样的吗？ [根@木偶：0 NewRelic的-下文]＃$回声代码 [根@木偶：0 NewRelic的-下文]＃$回声代码| AWK“BEGIN {FS = “\”” } {打印$ 2}” abc.pdf ..Once你grepped包含PDF和HREF线，尝试对管道的awk 'BEGIN {FS = “\”“} {打印$ 2}' –

不使用正则表达式，使用html解析器 – Sundeep

试试这一行到整个html字符串。为我完美工作。

grep -io "<a[[:space:]]*href=\"[^\"]\+\.pdf\">" | awk 'BEGIN{FS="\""}{print $2}'

来源

2017-10-17 07:50:28 HappyStoic

使用bash打印所有pdf文件的链接

回答

相关问题