我正在读取一个应用NLP的csv文件,并且想对数据进行预处理。我从一个在线论坛收到数据,因此上面有引号。如何删除它们?举个例子;
a='[b]Re:[/b]
[quote="xxx"] How can I do that blah blah xxx [/quote]
Hello xxx, I will tell you how you can do it blah blah blah.'
我想要下面的表格;
一个='你好xxx,我会告诉你你怎么能做到的等等。
我想检测到[quote =“并开始删除直到看到[/ quote]的正则表达式。这可能吗?
我已经尝试过了,但是没有用。
def quotes(text):
return re.sub('\[([^\]=]+)(?:=[^\]]+)?\].*?\[\/\\1\]', '', text)
data['message'] = data['message'].apply(quotes)
答案其实太简单了
def quotes(text):
return re.sub(r'\[quote.+quote\]','',text)
data['message'] = data['message'].apply(quotes)
只是。