def process(source):
#去除HTML标签
source = re.sub("<[^>]+>", "", source)
source = re.sub("&[^;]+;", "", source)
proc = re.compile(r'(.+)\1')
result0 = proc.findall(source)
result_end = proc.findall(source)[-1]
if len(result_end) > 2:
return result_end
else:
return ''.join(result0)
使用misaka的脚本功能去重可以完美达到效果,有代码基础的可以自取