2014-06-09 47 views
0
a_string = soup.find(text='围') 

soup.find_all('title', limit=1) 
# [<title>The Dormouse's story</title>] 

soup.find('title') 
# <title>The Dormouse's story</title> 

有反正我可以用中文字符处理使用美丽的发现吗?美丽的汤。寻找中国字

试了一下,似乎无法检测到角色。英文字符工作网站的精细

来源我与

<!DOCTYPE html> 
<html lang="zh-CN"> 
    <head> 
     <meta charset="gbk" /> 

回答

1

封闭。

如果你想找到一个包含特定字母文字,或匹配任何其他的正则表达式,你必须使用正则表达式模式,而不是(像@Yannis说):

soup.find(text=re.compile(u'定')) 

注意的re.U标志不需要,因为您不会更改\ s或\ w等特殊字符的行为。如果那样的话,你可能需要提供它。有关正则表达式的更多信息here

1

工作试着这么做:

a_string = soup.find(text=re.compile(u'围', re.U)) 

换句话说搜索字符串方面,应是Unicode。也许工作不re.compile()但至少确保当您使用find(text='something')它将搜索包含完全文本“东西”,并没有别的文本节点的中国字符串内u''