我现在必须以Unicode格式的文本文件,它看起来像这样文件格式为csv
Dr. A ABCD
abcdef
xyzvw
mn o p
qqq qq
Dr. E EFCD
acdsed
zxcve
fgh ij
kl mn o
我试图对其进行格式化,以使它看起来像这样
Dr. A ABCD,abcdef,xyzvw,mn o p,qqq qq
Dr. E EFCD,acdsed,zxcve,fgh ij,kl mn o
但我始终最终消除博士和A之间或其他一些空间之间的空间。我曾尝试使用split(),然后使用“,”。join(),但我总是最终格式化文件。在Python中需要一些帮助。
编辑
条目本身可能存在空间。我编辑了这样的问题。
它实际上从我只提取文本的HTML文件。所以剩余空间是标签曾经是的。 –
@Sarkar:呃...如果您直接从原始HTML文件中提取数据,可能会更容易获取准确的数据;利用结构而不是扔掉它。 –
在这种情况下,我同意休,并认为你应该保持HTML的格式。我建议使用BeautifulSoup4来做到这一点。这里是他们的链接:http://www.crummy.com/software/BeautifulSoup/bs4/doc/ – Will