从字符串中删除HTML标签

问题:

有没有一个从Java字符串中删除HTML的好方法?一个简单的正则表达式

 replaceAll("\\<.*?>","") 

将会工作,但像&amp;之类的东西不会被正确转换,两个尖括号之间的非HTML将被删除(即正则表达式中的.*?将消失)。

回答:

使用HTML解析器而不是正则表达式。这是非常简单的Jsoup

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还supports删除可自定义白名单的HTML标记,如果您只想允许,则非常有用。 <b><i><u>

也可以看看:

 
 
Code问答: http://codewenda.com/topics/python/
Stackoverflow: Remove HTML tags from a String

*转载请注明本文链接以及stackoverflow的英文链接

发表评论

电子邮件地址不会被公开。 必填项已用*标注

1 + = 5