2016-11-01 53 views
1

感谢您花时间阅读本文。为什么我的正则表达式失败?

我正在使用Python熊猫将两个数据集合并到名为'title'的列上。在一个数据集中的一些数据在标题单元格中有附加字符,这些字符被括号括起来,导致合并在这些单元格上失败。但是,我试图使用以下方法删除它们包含的括号和值,但合并仍会错过更新的数据。

数据示例,代码和正则表达式如下。

我假设正则表达式是不正确的 - 任何想法?

import pandas as pd 

data1 = pd.DataFrame({'id': ['a12bcde0'], 'title': ['company_a']}) 

data2 = pd.DataFrame({'serial_number': ['01a2b345','10ab2030'],'title':['company_a','company_a (123)']}) 

data2['title'].replace(regex=True,inplace=True,to_replace=r"\(.*\)",value=r'') 

pd.merge(data1, data2, on='title') 
+4

你忘了开括号前的空格:'to_replace = R “\ S \(。* \)” ' –

+0

太简单了,真实!谢谢@StevenRumbalski – FunnyChef

回答

2

在你的模式开幕前括号内你忘了空白:to_replace=r"\s\(.*\)"

相关问题