2016-11-28 27 views
-1

我想提取所有不是字母数字的字符,并且也使用python从推文中提取网址。我只能留下空格分隔的单词。 例如: 如果我的推文是:“嗨!查看我的网页https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton” 我应该得到:“嗨检查我的网页在” 感谢您的帮助!从鸣叫中提取网址,提及和标签

+0

出现不一致的情况在你的榜样,你要包括“喜”,但同时删除“植酮”即使字符串“嗨!”包括非字母数字字符。你是否包含字符串'Hi',因为它不是像'phyton'这样的标签? – davedwards

+0

是的,我包括你好,因为它不是一个标签,这是一个词,但我摆脱了所有的标点符号 – tubitubi

回答

0

假设你已经有了tweet文本,那么在字符串中使用一些python的内置操作应该能够做你正在做的事情。这里有一个一行使用列表中理解和string.translate module

import string 

my_tweet = "Hi! Check out my page at https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton" 
tweet_text = ' '.join([i.lower() for i in my_tweet.split() if not i.startswith(('http', '@', '#'))]).translate(None, string.punctuation) 
print tweet_text # hi check out my page at