提取网页的源代码，而不使用bash

我们可以使用wget或curl 下载网页的源代码，但我想提取的页面没有标记的源代码，我是指提取它像文本提取网页的源代码，而不使用bash

2016-03-03 ßł Ặck Ĥặwk

[bash命令隐蔽html页面到一个文本文件（可能的重复http://stackoverflow.com/questions/12422289/bash-command -to-covert-html-page-to-a-text-file） – Leventix

可以通过管道将一个简单的sed命令：

curl www.gnu.org | sed 's/<\/*[^>]*>//g'

来源

2016-03-03 18:17:12 SLePort

创建使用引入nokogiri Ruby脚本解析HTML：

require 'nokogiri' 
require 'open-uri' 
html = Nokogiri::HTML(open 'https://stackoverflow.com/questions/6129357') 

text = html.at('body').inner_text 
puts text

Source

它很可能是简单的JavaScript或Python做，如果你更舒服或者搜索一个html-to-text工具。我想这纯粹是在bash中完成这件事非常困难。

参见：bash command to covert html page to a text file

来源

2016-03-03 16:20:19 Leventix

我说'使用Bash'不是红宝石 –

只用bash :)祝你好运 - 查看我的编辑和其他帖子的链接 – Leventix

使用curl，wget和阿帕奇提卡服务器（本地），你可以在命令行直接解析HTML成简单的文本。

首先，你必须从Apache网站下载的蒂卡服务器的jar： https://tika.apache.org/download.html

然后，运行它作为一个本地服务器：

$ java -jar tika-server-1.12.jar

之后，你就可以开始解析文本使用以下网址：

http://localhost:9998/tika

现在，解析网页INT的HTML o简单文本：

$ wget -O test.html YOUR-HTML-URL && curl -H "Accept: text/plain" -T test.html http://localhost:9998/tika

这应该返回没有标签的网页文本。

这样您就可以使用wget下载并保存所需的网页到“test.html”，然后使用curl向tika服务器发送请求以提取文本。请注意，必须发送标题“Accept：text/plain”，因为tika可以返回多种格式，而不仅仅是纯文本格式。

来源

2016-03-03 17:03:17

检查Tika-服务器维基获取更多信息： http://wiki.apache.org/tika/TikaJAXRS –

提取网页的源代码，而不使用bash

回答

相关问题