我正在从网址中抓取简单的文本文件。urlopen用换行呛着我
def scrape_contents_ex(url):
data = urllib2.urlopen(url)
return data.read()
的问题是,它产生被阻塞新行和制表符 “\ t” 的, “\ R” 等字符串
实施例:
当我用python打印字符串输出时,它用各种\字符呈现:
我不知道如何正确处理从urlopen读取的输出。我想将这些内容存储在postgresql中。此外,我还有一个复杂的地方,内容很可能会产生unicode结果(汉字,西里尔等)。
什么是正确和健壮的方式来阅读和存储这个?
完全无关的,你问什么,但我发现请求库比好得多urllib2的。 – ajthyng