温馨提示:本文翻译自stackoverflow.com,查看原文请点击:其他 - Remove text between [quote= and [/quote] in Python
python-3.x

其他 - 在Python中删除[quote =和[/ quote]之间的文本

发布于 2020-03-27 12:00:13

我正在读取一个应用NLP的csv文件,并且想对数据进行预处理。我从一个在线论坛收到数据,因此上面有引号。如何删除它们?举个例子;

a='[b]Re:[/b] 
[quote="xxx"] How can I do that blah blah xxx [/quote]
 Hello xxx, I will tell you how you can do it blah blah blah.'

我想要下面的表格;

一个='你好xxx,我会告诉你你怎么能做到的等等。

我想检测到[quote =“并开始删除直到看到[/ quote]的正则表达式。这可能吗?

我已经尝试过了,但是没有用。

  def quotes(text):
   return re.sub('\[([^\]=]+)(?:=[^\]]+)?\].*?\[\/\\1\]', '', text)

  data['message'] = data['message'].apply(quotes)

查看更多

查看更多

提问者
nurlubanu
被浏览
17
nurlubanu 2019-07-04 23:43

答案其实太简单了

def quotes(text):
 return re.sub(r'\[quote.+quote\]','',text)
data['message'] = data['message'].apply(quotes)

只是。