2016-03-03 25 views
0

我们可以使用wgetcurl 下载网页的源代码,但我想提取的页面没有标记的源代码,我是指提取它像文本提取网页的源代码,而不使用bash

+1

[bash命令隐蔽html页面到一个文本文件(可能的重复http://stackoverflow.com/questions/12422289/bash-command -to-covert-html-page-to-a-text-file) – Leventix

回答

1

可以通过管道将一个简单的sed命令:

curl www.gnu.org | sed 's/<\/*[^>]*>//g' 
0

创建使用引入nokogiri Ruby脚本解析HTML:

require 'nokogiri' 
require 'open-uri' 
html = Nokogiri::HTML(open 'https://stackoverflow.com/questions/6129357') 

text = html.at('body').inner_text 
puts text 

Source

它很可能是简单的JavaScript或Python做,如果你更舒服或者搜索一个html-to-text工具。我想这纯粹是在bash中完成这件事非常困难。

参见:bash command to covert html page to a text file

+0

我说'使用Bash'不是红宝石 –

+0

只用bash :)祝你好运 - 查看我的编辑和其他帖子的链接 – Leventix

1

使用curl,wget和阿帕奇提卡服务器(本地),你可以在命令行直接解析HTML成简单的文本。

首先,你必须从Apache网站下载的蒂卡服务器的jar: https://tika.apache.org/download.html

然后,运行它作为一个本地服务器:

$ java -jar tika-server-1.12.jar 

之后,你就可以开始解析文本使用以下网址:

http://localhost:9998/tika

现在,解析网页INT的HTML o简单文本:

$ wget -O test.html YOUR-HTML-URL && curl -H "Accept: text/plain" -T test.html http://localhost:9998/tika 

这应该返回没有标签的网页文本。

这样您就可以使用wget下载并保存所需的网页到“test.html”,然后使用curl向tika服务器发送请求以提取文本。请注意,必须发送标题“Accept:text/plain”,因为tika可以返回多种格式,而不仅仅是纯文本格式。

+0

检查Tika-服务器维基获取更多信息: http://wiki.apache.org/tika/TikaJAXRS –