html标签的正则表达式_JAVA

您所在的位置：程序员俱乐部 > 编程开发 > JAVA > html标签的正则表达式

2014/10/27 19:00:52 shifulong 程序员俱乐部我要评论(0)

摘要：处理一个HTML网页的时候，需要把所有的HTML标签去除，想到了正则：正确的String[]args=content.split("<([^>]*)>");//匹配HTML便签在"^>"中"^"是"非"的意思，并不是"开始"标记，"^"只有放到开头的地方时才表示"开始"错误的String[]args=content.split("<([\\d\\D]*)>");//匹配HTML便签刚开始在网上找的，结果试了半天不对，纠结了好久才明白。\d\D把">
标签：正则表达式表达式正则

处理一个HTML网页的时候，需要把所有的HTML标签去除，想到了正则：

正确的

class="java" name="code">
String[] args = content.split("<([^>]*)>");// 匹配HTML便签

在"^>" 中 "^"是"非"的意思，并不是 "开始"标记，"^"只有放到开头的地方时才表示"开始"

错误的

String[] args = content.split("<([\\d\\D]*)>");// 匹配HTML便签

刚开始在网上找的，结果试了半天不对，纠结了好久才明白。
\d\D 把">"也包括了，结果根本找不到右边界，匹配不到结果。

网上说"<([^>]*)>" 并不能匹配完全，有待验证。

发表评论

用户名: 匿名

html标签的正则表达式_JAVA_编程开发_程序员俱乐部