0
我有一个文本,我想从中删除URL,但我有问题。如何从Python中的字符串中删除一些URL
document = re.sub('[^a-z]|http:\/\/\w+.\w+\/\w*', ' ', document)
IGOT: 文件= 'RT @prettycolleges:凤凰城大学http://t.co/d5wxsy332r好'
>> 'rt prettycolleges university of phoenix http t co d wxsy r good'
,但我想这样的结果:rt prettycolleges university of phoenix good
什么我应该怎么做?
它只是为了我所提到的例子中工作,但新的例子实在不行。 document ='rt @beasiswaindo:http:\/\/t.co \/uio40rq8hc beasiswa full s2 w的大学' – user3092781
那是因为url不是以http://开头的(你已经跳过了斜杠)。我会编辑我的答案,所以也可以在这种情况下工作 – azuax