我试图强调一堆词 - 所以我写了一个pygments扩展。基本上它有效，但仍然不令我满意。突出显示一堆单词？

下面是一个应该起作用的简单概念：适当地突出显示单词，以及所有其他与这些单词不匹配的文本 - 在文本中。但是，这hungs起来：

from pygments.lexer import RegexLexer 
from pygments.token import * 

class HotKeyPoetry(RegexLexer): 
    name = 'HotKeyPoetry' 
    aliases = ['HotKeyPoetry'] 
    filenames = ['*.hkp'] 

    tokens = { 
     'root': [ 

      (r'\bAlt\b', Generic.Traceback), 
      (r'\bShft\b', Name.Variable), 
      (r'\bSpc\b', Operator), 
      (r'\bCtrl\b', Keyword.Type), 
      (r'\bRet\b', Name.Label), 
      (r'\bBkSpc\b', Generic.Inserted), 
      (r'\bTab\b', Keyword.Type), 
      (r'\bCpsLk\b', String.Char), 
      (r'\bNmLk\b', Generic.Output), 
      (r'\bScrlLk\b', String.Double), 
      (r'\bPgUp\b', Name.Attribute), 
      (r'\bPgDwn\b', Name.Builtin), 
      (r'\bHome\b', Number.Oct), 
      (r'\bEnd\b', Name.Constant), 
      (r'\bDel\b', Name.Decorator), 
      (r'\bIns\b', Number.Integer.Long), 
      (r'\bWin\b', Name.Builtin.Pseudo), 
      (r'\bF1?[1-9]\b', Name.Function), 

      (r'(?!\b(Alt|Shft|Spc|Ctrl|Ret|BkSpc|Tab|CpsLk|NmLk|ScrlLk|PgUp|PgDwn|Home|End|Del|Ins|Win|F5)\b)', Text), 

     ] 
    }

也许我应该更好地使用另一个词法分析器的工作吗？

编辑1

所以

r"(.+?)(?:$|\b(?=(Alt|Shft|Spc|Ctrl|Ret|BkSpc|Tab|CpsLk|NmLk|ScrlLk|PgUp|P‌gDwn|‌Home|End|Del|Ins|Win|F[12]?[1-9])\b))"

是exlusing正则表达式我一直在寻找。

现在，我试图让#评论焦 - 这样经过它的一切（行内） - 是一个注释：我已经试过：

r"(.+?)(?:$|#.*$|\b(?=(Alt|Shft|Spc|Ctrl|Ret|BkSpc|Tab|CpsLk|NmLk|ScrlLk|PgUp|P‌gDwn|‌Home|End|Del|Ins|Win|F[12]?[1-9])\b))"

和

r"([^#]+?)(?:$|\b(?=(Alt|Shft|Spc|Ctrl|Ret|BkSpc|Tab|CpsLk|NmLk|ScrlLk|PgUp|PgD‌wn|‌Home|End|Del|Ins|Win|F[12]?[1-9])\b))"

随后

(r'#.*$', Comment),

我也尝试增加第二个状态：

'comment': [ 
     (r'#.*$', Comment), 
],

- 但没有用。

编辑2

的complite工作Pygments来做扩展蟒包是here。你可以得到和

python setup.py build 
python setup.py install --user

它注册在pygments。然后，您可以测试它：

pygmentize -f html -O full -o test.html test.hkp

或指定语言：

pygmentize -f html -O full -l HotKeyPoetry -o test.html test.hkp

下面是一个示例test.hkp：

Ctrl-Alt-{Home/End} ⇒ {beginning/end}-of-visual-line 
Ctrl-Alt-{b/↓/↑} ⇒ {set/goto next/goto previous} bookmark # I have it in okular and emacs 
Alt-{o/O} ⇒ switch-to-buffer{/-other-window} 
Ctrl-{o/O} ⇒ find-file{/-other-window} 
Ctrl-x o ⇒ ergo-undo-close-buffer # it uses ergoemacs' recently-closed-buffers 
Ctrl-Alt-O ⇒ find-alternate-file

（评论是不是热键非常有用 - 但我需要他们的PyMOL）。

来源

2012-08-16 Adobe

是否有正则表达式匹配至少一个字符？也许问题是最后一个正则表达式匹配一个空字符串，所以没有字符被“消耗”，并且它永远不会前进。 – MRAB 2012-08-16 15:24:18

也许你rihgt。其实我认为 - 最后一个正则表达式必须匹配（|）指定的单词。我会检查它是否匹配空字符串。 – Adobe 2012-08-16 16:19:43

真的，我的意思是，因为“（？！...）”是一个负向预测，它永远不会消耗任何字符。 – MRAB 2012-08-16 16:23:36

是，最后的正则表达式实际上没有任何字符匹配。我想这样的代码：

import re 

regexes = { 
    "text": re.compile(r"(.+?)(?:$|\b(?=(Alt|Shft|Spc|Ctrl|Ret|BkSpc|Tab|CpsLk|NmLk|ScrlLk|PgUp|PgDwn|Home|End|Del|Ins|Win|F1?[1-9])\b))"), 
    "kwd": re.compile(r"(Alt|Shft|Spc|Ctrl|Ret|BkSpc|Tab|CpsLk|NmLk|ScrlLk|PgUp|PgDwn|Home|End|Del|Ins|Win|F1?[1-9])\b") 
} 

def tokenise(state): 
    while state["src"]: 
    state["tok"] = "text" if state["tok"] == "kwd" else "kwd" 
    #print "mode: {0:20} {1!r}".format(state["tok"].capitalize(), state["src"]) 

    m = regexes[state["tok"]].match(state["src"]) 
    if m: 
     match = m.group(0) 
     state["src"] = state["src"][m.end():] 
     #print " TOKEN({0}, {1!r})".format(state["tok"], match) 
     yield "TOKEN({0}, {1!r})".format(state["tok"], match) 


state = { 
    "src": "A thing that, Tab, is AltCps or 'Win'. F8 is good, as is: F13.", 
    "tok": "text" 
} 
print repr(state["src"]) 
print "\n".join(list(tokenise(state))) 
print 

state = { 
    "src": "Alt thing that, Tab, is AltCps or 'Win'. F8 is good, as is: F13.", 
    "tok": "text" 
} 
print repr(state["src"]) 
print "\n".join(list(tokenise(state))) 
print 

state = { 
    "src": "Alt thing that, Tab, is AltCps or 'Win'. F8 is good, as is: F11", 
    "tok": "text" 
} 
print repr(state["src"]) 
print "\n".join(list(tokenise(state))) 
print

和它的作品我为我测试的情况下，文本的正则表达式看起来不错，在你的代码:)

来源

2012-08-16 21:54:53 spiralx

哇..'R“（！（+？）：？？$ | \ B（=（Alt键| SHFT | SPC | CTRL |惩戒| BkSpc |标签| CpsLk | NmLk键| ScrlLk | PgUp键| PgDwn |首页| End | Del | Ins | Win | F [12]？[1-9]）\ b））“'有效。我知道你擅长于pygments（我可以阅读文档，但是可以很好地理解'state'的含义，但是我明白，在文章中必须包含所有文字）。 – Adobe 2012-08-17 10:33:05

'state'基本上只是为了跟踪a）剩余的解析和b）我们接下来寻找哪种类型的令牌 - 这个例子应该总是在匹配一个'text'令牌和一个'kwd'令牌之间交替。 – spiralx 2012-08-21 13:29:17

1）您误会了(?!的工作原理：它与文本不匹配。您的最后一个RE（在原始代码块中）与的位置相匹配，但没有列出您列出的任何单词。但它匹配文字的零个字符，所以没有颜色，而且你也不能前进。

你的意思是这样的：\b(?!(?:Alt|Shft|etc)\b)\w+\b。基于Pygments来做文档，你的表达(r'#.*$', Comment)应该工作：（匹配任何字S \w+\b之间，但如果第一\b之后的任何关键字）

2）关于匹配的评论。或者，在示例中使用的风格：

(r'#.*\n', Comment),

3）你只需要一个状态，所以添加注释规则到根状态。当您在不同地方使用不同的语法时，可以使用多种状态。如果你混合了html和PHP，或者你想突出显示python字符串中的SQL。

4）你的规则需要匹配一切在你的输入。规则试图为了直到一个作品，所以不是想写不匹配关键字的规则，你可以把这个通配符作为您的最后规则：

(r'(?s).', Text),

它将在前进一个字符直到你找到你的其他规则可以匹配的东西。重复：删除您的长规则匹配非关键字，并使用上述代替。

来源

2012-08-16 21:05:28 alexis

你的权利'（'不匹配文本'\ B（（？：Alt键| SHFT |等）\ B）\ w + \ B'是一个很好的手艺 - 但它留下空格和标点符号无与伦比。改变'\ w'为'.'会破坏事情。我读过的任何方式你回答了几次，已经读过关于不捕获的内容（：？？'，并且我感谢你的回答。 – Adobe 2012-08-17 10:29:51

当然它忽略了空格和标点符号，因为你所有的代码是基于标记的。既然你已经得到了你在对方的回答喜欢的节目，我不会问你想搭配什么。 – alexis 2012-08-19 19:26:29

（但见编辑答案） – alexis 2012-10-22 21:41:25

突出显示一堆单词？

编辑1

编辑2

回答

相关问题