有没有一种方法可以获得html页面的主体,而不需要html标签?没有HTML标签的wget
curl和wget返回响应,但包含HTML标签。我们可以使用sed和awk去除标签,但是我正在寻找一种现有的工具,它可以在没有sed和awk的情况下完成。
lynx是一个选项,但它没有预先安装。
谢谢!
有没有一种方法可以获得html页面的主体,而不需要html标签?没有HTML标签的wget
curl和wget返回响应,但包含HTML标签。我们可以使用sed和awk去除标签,但是我正在寻找一种现有的工具,它可以在没有sed和awk的情况下完成。
lynx是一个选项,但它没有预先安装。
谢谢!
Converting HTML to plain text in PHP for e-mail列出了几种工具一样,How can I Convert HTML to Text in C#?。但是,如果lynx -dump
做你想要的,那么这可能是最好的安装工具。
我对安装工具没有反感。在安装任何其他软件包之前,只需要知道是否有现有的工具 – shan