处理一个HTML网页的时候,需要把所有的HTML标签去除,想到了
正则:
正确的
class="java" name="code">
String[] args = content.split("<([^>]*)>");// 匹配HTML便签
在"^>" 中 "^"是"非"的意思,并不是 "开始"标记,"^"只有放到开头的地方时才表示"开始"
错误的
String[] args = content.split("<([\\d\\D]*)>");// 匹配HTML便签
刚开始在网上找的,结果试了半天不对,纠结了好久才明白。
\d\D 把">"也包括了,结果根本找不到右边界,匹配不到结果。
网上说"<([^>]*)>" 并不能匹配完全,有待验证。