1. Reference

2. 工具

3. 元字符

^ 、\d 及 $ 等这些符号，代表了特定的匹配意义，我们称之为元字符，常用的元字符如下：

.    匹配除换行符意外的任意字符
\w    匹配字母或数字或下划线
\s    匹配任意的空白符
\d    匹配数字
\b    匹配单词的开始或结束
^    匹配字符串的开始
$    匹配字符串的结束
[x]    匹配x字符，如匹配字符串中的 a、b 和 c 字符
\W    \w的反义，即匹配任意非字母，数字，下划线和汉字的字符
\S    \s的反义，即匹配任意非空白符的字符
\D    \d的反义，即匹配任意非数字的字符
\B    \b的反义，即不是单词开头或结束的位置
[^x]    匹配除了 x 意外的任意字符，如 [^abc] 匹配除了 abc 这几个字母之外的任意字符

当我们要匹配这些元字符的时候，我们需要用到字符转义功能，同样正则表达式里面用 \ 来表示转义，如要匹配 . 符号，则需要用 . ，否则 . 会被解释成“除换行符外的任意字符”。当然，要匹配 \ ，则需要写成 \

连续的数字或字母可以用 – 符号连接起来，如匹配所有的小写字母，[1-5] 匹配 1 至 5 这 5 个数字

4. 重复

正则表达式用一些重复规则来表达循环匹配。

*    重复零次或更多次
+    重复 1 次或更多次
?    重复零次或 1 次
{n}    重复 n 次
{n,}    重复 n 次或更多次
{n,m}    重复 n 到 m 次

5. 分支

分枝是指制定几个规则，如果满足任意一种规则，则都当作匹配成功。

具体来说就是用 | 符号把各种规则分开，且条件从左至右匹配

分枝规定，只要匹配成功，就不再对后面的条件加以匹配

6. 分组

在正则表达式中，可以用小括号将一些规则括起来当作分组，分组可以作为一个元字符来看待。

# 匹配正确的 IP 地址
((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)

该规则关键之处在于确定 IP 地址每一段范围为 0-255 ，然后再重复 4 次即可。

25[0-5]|2[0-4]\d|[01]?\d\d?

用分枝首先确定了 250-255 和 200-249 。 [01]?\d\d? 则确定了 0-199 的范围，综合起来就是 0-255

7. 贪婪与懒惰

正则表达式默认的情况下，会在满足匹配条件下尽可能的匹配更多内容。如 a.*b，用他来匹配 aabab ，它会匹配整个 aabab ，而不会只匹配到 aab 为止，这就是贪婪匹配。与贪婪匹配对应的是，在满足匹配条件的情况下尽可能的匹配更少的内容，这就是懒惰匹配。

上述例子对应的懒惰匹配规则为：

a.*?b

如果用该表达式去匹配 aabab ，那么就会得到 aab 和 ab 这样两个匹配结果。

常用的懒惰限定符如下：

*?    重复任意次，但尽可能少重复
+?    重复 1 次或更多次，但尽可能少重复
??    重复 0 次或 1 次，但尽可能少重复
{n,}    重复 n 次以上，但尽可能少重复
{n,m}    重复 n 到 m 次，但尽可能少重复

8. 模式修正符

模式修正符是标记在整个正则表达式之外的，可以看着是对正则表达式的一些补充说明。

常用的模式修正符如下：

i    模式中的字符将同时匹配大小写字母
m    字符串视为多行
s    将字符串视为单行，换行符作为普通字符
x    将模式中的空白忽略
e    preg_replace() 函数在替换字符串中对逆向引用作正常的替换，将其作为 PHP 代码求值，并用其结果来替换所搜索的字符串。
A    强制仅从目标字符串的开头开始匹配
D    模式中的 $ 元字符仅匹配目标字符串的结尾
U    匹配最近的字符串
u    模式字符串被当成 UTF-8

9. 常用正则表达式

9.1. 表单验证匹配

验证账号，字母开头，允许 5-16 字节，允许字母数字下划线：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
验证账号，不能为空，不能有空格，只能是英文字母：^\S+[a-z A-Z]$
验证账号，不能有空格，不能非数字：^\d+$
验证用户密码，以字母开头，长度在 6-18 之间：^[a-zA-Z]\w{5,17}$
验证是否含有 ^%&',;=?$\ 等字符：[^%&',;=?$\x22]+
匹配Email地址：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配腾讯QQ号：[1-9][0-9]{4,}
匹配日期，只能是 2004-10-22 格式：^\d{4}\-\d{1,2}-\d{1,2}$

# 匹配形式如 010-12345678 或 0571-12345678 或 0831-1234567
匹配国内电话号码：^\d{3}-\d{8}|\d{4}-\d{7,8}$

匹配中国邮政编码：^[1-9]\d{5}(?!\d)$

# 中国的身份证为 15 位或 18 位
匹配身份证：\d{14}(\d{4}|(\d{3}[xX])|\d{1})

不能为空且二十字节以上：^[\s|\S]{20,}$

9.2. 字符匹配

匹配由 26 个英文字母组成的字符串：^[A-Za-z]+$
匹配由 26 个大写英文字母组成的字符串：^[A-Z]+$
匹配由 26 个小写英文字母组成的字符串：^[a-z]+$
匹配由数字和 26 个英文字母组成的字符串：^[A-Za-z0-9]+$
匹配由数字、26个英文字母或者下划线组成的字符串：^\w+$
匹配空行：\n[\s| ]*\r
匹配任何内容：[\s\S]*
匹配中文字符：[\x80-\xff]+ 或者 [\xa1-\xff]+
只能输入汉字：^[\x80-\xff],{0,}$
匹配双字节字符(包括汉字在内)：[^\x00-\xff]

9.3. 匹配数字

只能输入数字：^[0-9]*$
只能输入n位的数字：^\d{n}$
只能输入至少n位数字：^\d{n,}$
只能输入m-n位的数字：^\d{m,n}$
匹配正整数：^[1-9]\d*$
匹配负整数：^-[1-9]\d*$
匹配整数：^-?[1-9]\d*$
匹配非负整数（正整数 + 0）：^[1-9]\d*|0$
匹配非正整数（负整数 + 0）：^-[1-9]\d*|0$
匹配正浮点数：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$
匹配负浮点数：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$
匹配浮点数：^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
匹配非负浮点数（正浮点数 + 0）：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
匹配非正浮点数（负浮点数 + 0）：^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

9.4. 其他

匹配HTML标记的正则表达式（无法匹配嵌套标签）：<(\S*?)[^>]*>.*?</\1>|<.*? />
匹配网址 URL ：[a-zA-z]+://[^\s]*
匹配 IP 地址：((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)
匹配完整域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?

上述正则表达式通常都加了 ^ 与 $ 来限定字符的起始和结束，如果需要匹配的内容包括在字符串当中，可能需要考虑去掉 ^ 和 $ 限定符。

正则匹配