我们可以使用wget
或curl
下载网页的源代码,但我想提取的页面没有标记的源代码,我是指提取它像文本提取网页的源代码,而不使用bash
回答
可以通过管道将一个简单的sed命令:
curl www.gnu.org | sed 's/<\/*[^>]*>//g'
创建使用引入nokogiri Ruby脚本解析HTML:
require 'nokogiri'
require 'open-uri'
html = Nokogiri::HTML(open 'https://stackoverflow.com/questions/6129357')
text = html.at('body').inner_text
puts text
它很可能是简单的JavaScript或Python做,如果你更舒服或者搜索一个html-to-text工具。我想这纯粹是在bash中完成这件事非常困难。
我说'使用Bash'不是红宝石 –
只用bash :)祝你好运 - 查看我的编辑和其他帖子的链接 – Leventix
使用curl,wget和阿帕奇提卡服务器(本地),你可以在命令行直接解析HTML成简单的文本。
首先,你必须从Apache网站下载的蒂卡服务器的jar: https://tika.apache.org/download.html
然后,运行它作为一个本地服务器:
$ java -jar tika-server-1.12.jar
之后,你就可以开始解析文本使用以下网址:
现在,解析网页INT的HTML o简单文本:
$ wget -O test.html YOUR-HTML-URL && curl -H "Accept: text/plain" -T test.html http://localhost:9998/tika
这应该返回没有标签的网页文本。
这样您就可以使用wget下载并保存所需的网页到“test.html”,然后使用curl向tika服务器发送请求以提取文本。请注意,必须发送标题“Accept:text/plain”,因为tika可以返回多种格式,而不仅仅是纯文本格式。
检查Tika-服务器维基获取更多信息: http://wiki.apache.org/tika/TikaJAXRS –
- 1. 提取网页的源代码
- 2. 使用Java获取网页源代码
- 3. 获取网页源代码
- 4. 如何读取网页的内容,而不是该网页的源代码?
- 5. 无法获取网页的源代码
- 6. 使用JSONP从JavaScript网页获取源代码使用JSONP
- 7. 提取来自网站源代码
- 8. 提取一个Facebook页面的源代码中使用JavaScript
- 9. 获取网页源代码,包括javascript
- 10. jnetpcap获取html网页源代码
- 11. Android获取网页源代码
- 12. 显示内容而不是内容的网页源代码
- 13. 使用Facebook登录以获取网页的源代码(C#)
- 14. 使用请求获取页面而不是Python中的源代码,为什么?我如何获得源代码?
- 15. 需要使用硒从源代码提取页面ID
- 16. 从网页提取源
- 17. 获取源代码,而不是iframe
- 18. 向Eclipse中添加压缩源代码而不先提取
- 19. 获取不冻结的网页源代码UI
- 20. 使用c#为不同浏览器获取网页的HTML源代码
- 21. 从APK提取源代码
- 22. Android:提取html源代码
- 23. 使用VBA代码从网页提取数据
- 24. 获取HTML页面源代码而不是JSON响应
- 25. 如何从C#中的网页源代码获取图像源代码#
- 26. Qt - 获取互联网上托管的网页的源代码(HTML代码)
- 27. 获取页面源代码
- 28. 获取页面源代码
- 29. 用NSUrl下载网页源代码
- 30. 从中提取数据页面,是不是在源代码
[bash命令隐蔽html页面到一个文本文件(可能的重复http://stackoverflow.com/questions/12422289/bash-command -to-covert-html-page-to-a-text-file) – Leventix