html标签的正则表达式_JAVA_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > JAVA > html标签的正则表达式

html标签的正则表达式

 2014/10/27 19:00:52  shifulong  程序员俱乐部  我要评论(0)
  • 摘要:处理一个HTML网页的时候,需要把所有的HTML标签去除,想到了正则:正确的String[]args=content.split("<([^>]*)>");//匹配HTML便签在"^>"中"^"是"非"的意思,并不是"开始"标记,"^"只有放到开头的地方时才表示"开始"错误的String[]args=content.split("<([\\d\\D]*)>");//匹配HTML便签刚开始在网上找的,结果试了半天不对,纠结了好久才明白。\d\D把">
  • 标签:正则表达式 表达式 正则

处理一个HTML网页的时候,需要把所有的HTML标签去除,想到了正则

正确的
class="java" name="code">
String[] args = content.split("<([^>]*)>");// 匹配HTML便签

在"^>"  中 "^"是"非"的意思,并不是 "开始"标记,"^"只有放到开头的地方时才表示"开始"

错误
String[] args = content.split("<([\\d\\D]*)>");// 匹配HTML便签

刚开始在网上找的,结果试了半天不对,纠结了好久才明白。
\d\D 把">"也包括了,结果根本找不到右边界,匹配不到结果。

网上说"<([^>]*)>" 并不能匹配完全,有待验证。
发表评论
用户名: 匿名