我需要帮助python编程: 我需要一个命令,可以搜索文本文件中标签之间的所有单词。例如 在文本文件中有<concept> food </concept>
。我需要搜索<concept>
和</concept>
之间的所有单词并显示它们。 任何人都可以帮忙.......蟒蛇搜索标签
Q
蟒蛇搜索标签
1
A
回答
3
- 将文本文件加载到一个字符串中。
- 使用
pos2 = s.find('</concept>', pos1)
你所寻求的话是那么s[pos1+len('<concept>'):pos2]
1
看一看正则表达式搜索使用pos1 = s.find('<concept>')
<concept>
中第一次出现的字符串</concept>
。 http://docs.python.org/library/re.html 如果你想有例如标签<i>
,尝试
text = "text to search. <i>this</i> is the word and also <i>that</i> end"
import re
re.findall("<i>(.*?)</i>",text)
这里有一个简短的说明的findall是如何工作的:它看起来对于一个给定的正则表达式给出的字符串中。正则表达式是<i>(.*?)</i>
:
<i>
表示刚开始标记<i>
(.*?)
创建组和匹配尽可能直到它的第一</i>
,其总结了标签
请注意,上述解决方案没有类似于
<i> here's a line
break </i>
既然你只是想提取单词。
但是,当然也可以这样做:
re.findall("<i>(.*?)</i>",text,re.DOTALL)
3
没有为HTML/XML一个伟大的图书馆中横过命名BeautifulSoup。有了它:
from BeautifulSoup import BeautifulStoneSoup
soup = BeautifulStoneSoup(open('myfile.xml', 'rt').read())
for t in soup.findAll('concept'):
print t.string
相关问题
- 1. 蟒蛇BeautifulSoup搜索标签
- 2. 搜索蟒蛇
- 3. XML搜索蟒蛇
- 4. 蟒蛇imaplib搜索多个标准
- 5. 蟒蛇搜索字符串
- 6. 通过搜索蟒蛇
- 7. 蟒蛇LDAP3搜索LDAPOperationsErrorResult
- 8. 用数字搜索 - 蟒蛇 -
- 9. 蟒蛇二叉搜索树
- 10. 蟒蛇矩阵搜索
- 11. 谷歌搜索 - 蟒蛇
- 12. 搜索前/后蟒蛇imaplib
- 13. 蟒蛇ID3标签的Unicode
- 14. 蟒蛇HTML标签提取
- 15. 标签错误蟒蛇
- 16. 蟒蛇深度优先搜索递归
- 17. 斐波那契搜索蟒蛇:
- 18. 蟒蛇正则表达式搜索
- 19. 搜索通过嵌套列表蟒蛇
- 20. 蟒蛇搜索技术:单词类似
- 21. 搜索清单列表 - 蟒蛇
- 22. 蟒蛇弹性搜索最近发出
- 23. 蟒蛇优化列表搜索
- 24. 蟒蛇搜索和写入文件
- 25. 蟒蛇memcache的搜索字符串
- 26. 蟒蛇高效的字符串搜索
- 27. 搜索标签
- 28. 搜索列表的匹配和指标蟒蛇
- 29. 分隔符标签的蟒蛇
- 30. 蟒蛇发现标签的指数串
这种方法没有考虑注释和标记与空格考虑如果问题的作者暗示XML – nkrkv 2010-06-25 07:21:53
+1为了简单 – jensgram 2010-06-25 07:22:42