2016-09-17 106 views
1

我需要使用python脚本从某些字符串中删除表情符号。我发现已经有人问过这个question,答案的一个标记为成功,即下面的代码会做的伎俩:从python字符串中删除emojis

#!/usr/bin/env python 
import re 

text = u'This dog \U0001f602' 
print(text) # with emoji 

emoji_pattern = re.compile("[" 
    u"\U0001F600-\U0001F64F" # emoticons 
    u"\U0001F300-\U0001F5FF" # symbols & pictographs 
    u"\U0001F680-\U0001F6FF" # transport & map symbols 
    u"\U0001F1E0-\U0001F1FF" # flags (iOS) 
         "]+", flags=re.UNICODE) 
print(emoji_pattern.sub(r'', text)) # no emoji 

我插入这个代码到我的剧本,并改变了它只能是在我的代码而不是示例文本中对字符串进行操作。当我运行的代码,但是,我得到了一些错误,我不明白:

Traceback (most recent call last): 
    File "SCRIPT.py", line 31, in get_tweets 
"]+", flags=re.UNICODE) 
    File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework /Versions/2.7/lib/python2.7/re.py", line 194, in compile 
    return _compile(pattern, flags) 
    File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework/Versions/2.7/lib/python2.7/re.py", line 251, in _compile 
    raise error, v # invalid expression 
sre_constants.error: bad character range 

我得到了错误的说法,但因为我一把抓起Stackexchange这个代码,我想不通为什么它显然奏效对于这个讨论中的人们而言,不适合我。如果有帮助,我使用Python 2.7。谢谢!

+0

'sys.maxunicode'说? –

回答

1

您的Python版本使用surrogate pairs来表示无法用16位表示的unicode字符 - 这是所谓的“窄版”。这意味着任何等于或高于u"\U00010000"的值都被存储为两个字符。因为即使在unicode模式下,正则表达式解析器也逐字符地工作,如果您尝试使用该范围内的字符,这可能会导致错误的行为。

在这种特殊情况下,Python仅将表情符号字符代码的第一个“一半”看作范围的末尾,而“half”小于范围的起始值,使其无效。

Python 2.7.10 (default, Jun 1 2015, 09:44:56) 
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> import sys 
>>> sys.maxunicode 
65535 
>>> tuple(u"\U00010000") 
(u'\ud800', u'\udc00') 

基本上,你需要获得一个Python的“广建”这个工作:

Python 3.5.2 (default, Jul 28 2016, 21:28:00) 
[GCC 4.2.1 Compatible Apple LLVM 7.3.0 (clang-703.0.31)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> import sys 
>>> sys.maxunicode 
1114111 
>>> tuple(u"\U00010000") 
('',) 

的字符显示不正确,我在浏览器,但它确实表明只有一个字符,而不是两个。