正则表达式教程pdf(正则表达式教程pdf:学会提取文本数据的必备技能)
正则表达式教程pdf:学会提取文本数据的必备技能
什么是正则表达式
正则表达式(Regular Expression),简称正则,是文本模式的描述工具,是一种文本模式匹配工具,用来匹配字符串,特别是用来检查字符串是否符合某种模式的工具。
基本语法和模式
正则表达式由普通字符(包括大小写字母、数字和标点符号)和特殊字符(元字符)组成。在正则表达式中,我们通常使用以下几种元字符:
.
:匹配除换行符以外的任意字符。^
:匹配字符串开头。$
:匹配字符串结尾。*
:重复零次或多次。+
:重复一次或多次。?
:重复零次或一次。{n}
:重复n次。{n,}
:重复n次以上。{n,m}
:重复n到m次。[abc]
:匹配a、b、c其中任意一个字符。[a-z]
:匹配英文字母a到z之间的任意一个字符。[^abc]
:匹配除了a、b、c之外的任意一个字符。(...)
:匹配括号内的正则表达式并捕获到分组中。
类别匹配
正则表达式中还有一些关于匹配所给字符的类别,比如所有数字、所有字母、所有空白符等,这些类别可以帮助我们快速匹配相应的字符。
\\d
:任意数字。\\D
:任意非数字。\\w
:任意字母数字字符。\\W
:任意非字母数字字符。\\s
:任意空白符。\\S
:任意非空白符。\\b
:单词边界。\\B
:非单词边界。
常用正则表达式例子
以下是一些常见的正则表达式的例子,可以帮助我们快速解决相应的问题:
- 匹配手机号:
/^1[3-9]\\d{9}$/
- 匹配邮箱:
/^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$/
- 匹配身份证:
/^\\d{15}|\\d{18}$/
- 匹配URL:
/^(ht|f)tps?:\\/\\/[^\\s]+$/
- 匹配中文:
/^[\\u4e00-\\u9fa5]+$/