javascript 正则表达式特殊字符列表

2017-04-29 tech javascript regex 8 mins 2870 字

本文来自 MDN(Mozilla Developer Network)，做了一些整理和压缩。

概念

正则表达式是用于匹配字符串中字符组合的模式，其由包含在斜杠之间的模式组成，如下所示：

/*
   /pattern/flags 
*/

const regex = /ab+c/;

const regex = /^[a-zA-Z]+[0-9]*\W?_$/gi;

当正则表达式保持不变时，使用这种方法可获得更好的性能。或者临时生成一个正则表达式：

/* 
    new RegExp(pattern [, flags])
*/

let regex = new RegExp("ab+c");

let regex = new RegExp(/^[a-zA-Z]+[0-9]*\W?_$, "gi");

let regex = new RegExp("^[a-zA-Z]+[0-9]*\W?_$", "gi");

正则表达式中的特殊字符

常用：

字符	含义
` \ `	在非特殊字符之前的反斜杠表示下一个字符是特殊的，不能从字面上解释。或将其后的特殊字符，转义为字面量。
` ^ `	匹配输入的开始。如果多行标志被设置为true，那么也匹配换行符后紧跟的位置。
`$`	匹配输入的结束。如果多行标示被设置为true，那么也匹配换行符前的位置。
`*`	匹配前一个表达式0次或多次。等价于 {0,}。
`+`	匹配前面一个表达式1次或者多次。等价于 {1,}。
`?`	匹配前面一个表达式0次或者1次。等价于 {0,1}。如果紧跟在任何量词 `*、 +、? 或 {}` 的后面，将会使量词变为非贪婪的（匹配尽量少的字符），和缺省使用的贪婪模式（匹配尽可能多的字符）正好相反。例如： `"123abc"` 应用 `/\d+/` 将会返回 `"123"`，如果使用 `/\d+?/`,那么就只会匹配到 `"1"`。
` . `	（小数点）匹配除换行符之外的任何单个字符。
`x \| y`	匹配‘x’或者‘y’。
`{n}`	n是一个正整数，匹配了前面一个字符刚好发生了n次。
`{n,m}`	n 和 m 都是正整数。匹配前面的字符至少n次，最多m次。如果 n 或者 m 的值是0，这个值被忽略。
`[xyz]`	一个字符集合。匹配方括号的中任意字符，包括转义序列。可以使用破折号`（-）`来指定一个字符范围。对于点`（.）`和星号`（*）`这样的特殊符号在一个字符集中没有特殊的意义。他们不必进行转义，不过转义也是起作用的。
`[^xyz]`	一个反向字符集。也就是说，它匹配任何没有包含在方括号中的字符。你可以使用破折号`（-）`来指定一个字符范围。任何普通字符在这里都是起作用的。
`\d`	匹配一个数字。等价于`[0-9]`。
`\D`	匹配一个非数字字符。
`\s`	匹配一个空白字符，包括空格、制表符、换页符和换行符。
`\S`	匹配一个非空白字符。
`\w`	匹配一个单字字符（字母、数字或者下划线）。等价于[A-Za-z0-9_]。
`\W`	匹配一个非单字字符。等价于[^A-Za-z0-9_]。

进阶：

字符	含义
`\f`	匹配一个换页符 (U+000C)。
`\n`	匹配一个换行符 (U+000A)。
`\r`	匹配一个回车符 (U+000D)。
`\t`	匹配一个水平制表符 (U+0009)。
`\v`	匹配一个垂直制表符 (U+000B)。
`[\b]`	匹配一个退格(U+0008)。（不要和\b混淆了。）
`\b`	匹配一个词的边界。一个词的边界就是一个词不被另外一个词跟随的位置或者不是另一个词汇字符前边的位置。例子： /\bm/匹配“moon”中得‘m’； /oo\b/并不匹配”moon”中得’oo’，因为’oo’被一个词汇字符’n’紧跟着。 /oon\b/匹配”moon”中得’oon’，因为’oon’是这个字符串的结束部分。这样他没有被一个词汇字符紧跟着。
`\B`	匹配一个非单词边界。他匹配一个前后字符都是相同类型的位置：都是单词或者都不是单词。一个字符串的开始和结尾都被认为是非单词。例如，/\B../匹配”noonday”中得’oo’, 而/y\B./匹配”possibly yesterday”中得’ye‘
`(x)`	匹配 ‘x’ 并且记住匹配项，就像下面的例子展示的那样。括号被称为捕获括号。
`(?:x)`	匹配 ‘x’ 但是不记住匹配项。这种叫作非捕获括号，使得你能够定义为与正则表达式运算符一起使用的子表达式。
`x(?=y)`	匹配’x’仅仅当’x’后面跟着’y’.这种叫做正向肯定查找。
`x(?!y)`	匹配’x’仅仅当’x’后面不跟着’y’,这个叫做正向否定查找。
`\cX`	当X是处于A到Z之间的字符的时候，匹配字符串中的一个控制符。
`\n`	当 n 是一个正整数，一个返回引用到最后一个与有n插入的正值表达式(counting left parentheses)匹配的副字符串。
`\0`	匹配 NULL (U+0000) 字符，不要在这后面跟其它小数，因为 \0 是一个八进制转义序列。
`\xhh`	与代码 hh 匹配字符（两个十六进制数字）
`\uhhhh`	与代码 hhhh 匹配字符（四个十六进制数字）。
`\u{hhhh}`	(仅当设置了u标志时) 使用Unicode值hhhh匹配字符 (十六进制数字).