我有一个大文本,我想分析这个文本并识别(例如,本文中存在的维基百科条目)。从文本中提取维基百科条目
我想用正则表达式,类似的:
pattern='New York|Barak Obama|Russian Federation|Olympic Games'
re.findall(pattern,text)
...等,但这将是数以百万计的字符长,重不接受......
的我想过的其他方式是标记我的文本和搜索每个令牌的维基百科条目,但这看起来效率不高,尤其是如果我的文本太大...
任何想法如何在Python中做到这一点?
定义“维基百科条目”..你的意思是文本中存在维基百科文章?那么问题可以有多个解决方案,并且是及时动态的! – wim 2012-08-07 09:16:44
是的,我的意思是文章名称基本上是 – hmghaly 2012-08-07 09:18:41
在你给“奥运会”的例子中有一个关于“游戏”和关于“奥林匹克”的wikipedia文章,你会在这种情况下做什么代码?返回3个条目?或只有1?问题是,你将通过不同长度的子串搜索文章,这很杂乱。你最终的结果可能是什么? – 2012-08-07 09:20:54