2009-04-17 68 views
22

我需要将降价文本转换为纯文本格式才能在我的网站上显示摘要。我想在Python中的代码。Python:如何将降价格式文本转换为文本

+1

不是python,但是你可以把它传递给pandoc:`pandoc --to = plain`留下一些格式(header undelines),但不是很多。 – naught101 2014-05-29 06:22:00

回答

36

此模块将帮助你描述一下:

http://www.freewisdom.org/projects/python-markdown/Using_as_a_Module

一旦转换降价到HTML,您可以使用HTML解析器来剔除纯文本。

您的代码可能是这个样子:

from BeautifulSoup import BeautifulSoup 
from markdown import markdown 

html = markdown(some_html_string) 
text = ''.join(BeautifulSoup(html).findAll(text=True)) 
+1

它似乎像转换为HTML ..我需要转换为纯文本..就像在stackoverflow,在主页问题总结,它删除格式 – Krish 2009-04-17 19:30:10

2

评论,并删除它,因为我终于觉得我看到这里的困难:它可能是更容易的降价文本转换为HTML,并从文本中删除HTML 。我不知道有什么可以有效地从文本中删除降价,但有很多HTML到纯文本解决方案。

相关问题