博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
正则表达式
阅读量:5144 次
发布时间:2019-06-13

本文共 3923 字,大约阅读时间需要 13 分钟。

(转自:https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&mid=2247488336&idx=2&sn=d0daa527c8c81adb37c386e9b02f5200&chksm=97ea3935a09db023a99377ac5fa94dbe60417c17b39a14d46aa6c772c8d9bfe7338f2375b45c&mpshare=1&scene=23&srcid=#rd)

正则表达式(regex 或 regexp)对于从文本中抽取信息极其有用,它一般会搜索匹配特定模式的语句,而这种模式及具体的 ASCII 序列或 Unicode 字符。从解析/替代字符串、预处理数据到网页爬取,正则表达式的应用范围非常广。

基本语句

锚点:^ 和 $

^The        匹配任何以“The”开头的字符串 -> Try it! (https://regex101.com/r/cO8lqs/2) end$        匹配以“end”为结尾的字符串 ^The end$   抽取匹配从“The”开始到“end”结束的字符串 roar        匹配任何带有文本“roar”的字符串

数量符:*、+、?和 {}

abc*        匹配在“ab”后面跟着零个或多个“c”的字符串 -> Try it! (https://regex101.com/r/cO8lqs/1) abc+        匹配在“ab”后面跟着一个或多个“c”的字符串 abc?        匹配在“ab”后面跟着零个或一个“c”的字符串 abc{
2}      匹配在“ab”后面跟着两个“c”的字符串 abc{
2,}     匹配在“ab”后面跟着两个或更多“c”的字符串 abc{
2,5}    匹配在“ab”后面跟着2到5个“c”的字符串 a(bc)*      匹配在“a”后面跟着零个或更多“bc”序列的字符串 a(bc){
2,5}  匹配在“a”后面跟着2到5个“bc”序列的字符串

或运算符:| 、 []

a(b|c)     匹配在“a”后面跟着“b”或“c”的字符串 -> Try it! (https://regex101.com/r/cO8lqs/3) a[bc]      匹配在“a”后面跟着“b”或“c”的字符串

字符类:d、d、s 和 .

d         匹配数字型的单个字符 -> Try it! (https://regex101.com/r/cO8lqs/4) w         匹配单个词字(字母加下划线) -> Try it! (https://regex101.com/r/cO8lqs/4) s         匹配单个空格字符(包括制表符和换行符)  .          匹配任意字符 -> Try it! (https://regex101.com/r/cO8lqs/5)

使用「.」运算符需要非常小心,因为常见类或排除型字符类都要更快与精确。d、w 和s 同样有它们各自的排除型字符类,即D、W 和S。例如D 将执行与d 完全相反的匹配方法:

D         匹配单个非数字型的字符 -> Try it! (https://regex101.com/r/cO8lqs/6)

为了正确地匹配,我们必须使用转义符反斜杠「」定义我们需要匹配的符号「^.[$()|*+?{」,因为我们可能认为这些符号在原文本中有特殊的含义。

$d       匹配在单个数字前有符号“$”的字符串 -> Try it! (https://regex101.com/r/cO8lqs/9)

注意我们同样能匹配 non-printable 字符,例如 Tab 符「 」、换行符「 」和回车符「 」

Flags

我们已经了解如何构建正则表达式,但仍然遗漏了一个非常基础的概念:flags。

正则表达式通常以/abc/这种形式出现,其中搜索模式由两个反斜杠「/」分离。而在模式的结尾,我们通常可以指定以下 flag 配置或它们的组合:

  • g(global)在第一次完成匹配后并不会返回结果,它会继续搜索剩下的文本。

  • m(multi line)允许使用^和$匹配一行的开始和结尾,而不是整个序列。

  • i(insensitive)令整个表达式不区分大小写(例如/aBc/i 将匹配 AbC)。

    中级语句

    分组和捕获:() 

    a(bc)           圆括弧会创建一个捕获性分组,它会捕获匹配项“bc” -> Try it! (https://regex101.com/r/cO8lqs/11) a(?:bc)*        使用 “?:” 会使捕获分组失效,只需要匹配前面的“a” -> Try it! (https://regex101.com/r/cO8lqs/12) a(?
    bc)     使用 “?
    ” 会为分组配置一个名称 -> Try it! (https://regex101.com/r/cO8lqs/17)

    捕获性圆括号 () 和非捕获性圆括弧 (?:) 对于从字符串或数据中抽取信息非常重要,我们可以使用 Python 等不同的编程语言实现这一功能。从多个分组中捕获的多个匹配项将以经典的数组形式展示:我们可以使用匹配结果的索引访问它们的值。

    如果需要为分组添加名称(使用 (?<foo>...)),我们就能如字典那样使用匹配结果检索分组的值,其中字典的键为分组的名称。

    方括弧表达式:[]

    [abc]            匹配带有一个“a”、“ab”或“ac”的字符串 -> 与 a|b|c 一样 -> Try it! (https://regex101.com/r/cO8lqs/7) [a-c]            匹配带有一个“a”、“ab”或“ac”的字符串 -> 与 a|b|c 一样 [a-fA-F0-9]      匹配一个代表16进制数字的字符串,不区分大小写 -> Try it! (https://regex101.com/r/cO8lqs/22) [0-9]%           匹配在%符号前面带有0到9这几个字符的字符串 [^a-zA-Z]        匹配不带a到z或A到Z的字符串,其中^为否定表达式 -> Try it! (https://regex101.com/r/cO8lqs/10)

    记住在方括弧内,所有特殊字符(包括反斜杠)都会失去它们应有的意义。

    Greedy 和 Lazy 匹配

    数量符(* + {})是一种贪心运算符,所以它们会遍历给定的文本,并尽可能匹配。例如,<.+> 可以匹配文本「This is a <div> simple div</div> test」中的「<div>simple div</div>」。为了仅捕获 div 标签,我们需要使用「?」令贪心搜索变得 Lazy 一点:

    <.+?>            一次或多次匹配 “<” 和 “>” 里面的任何字符,可按需扩展 -> Try it! (https://regex101.com/r/cO8lqs/24)

    注意更好的解决方案应该需要避免使用「.」,这有利于实现更严格的正则表达式:

    <[^<>]+>         一次或多次匹配 “<” 和 “>” 里面的任何字符,除去 “<” 或 “>” 字符 -> Try it! (https://regex101.com/r/cO8lqs/23)

    高级语句

    边界符: 和 B

    abc          执行整词匹配搜索 -> Try it! (https://regex101.com/r/cO8lqs/25)

    如插入符号那样表示一个锚点(它与$和^相同)来匹配位置,其中一边是一个单词符号(如w),另一边不是单词符号(例如它可能是字符串的起始点或空格符号)。

    它同样能表达相反的非单词边界「B」,它会匹配「」不会匹配的位置,如果我们希望找到被单词字符环绕的搜索模式,就可以使用它。

    BabcB          只要是被单词字符环绕的模式就会匹配 -> Try it! (https://regex101.com/r/cO8lqs/26)

    前向匹配和后向匹配:(?=) 和 (?<=)

    d(?=r)       只有在后面跟着“r”的时候才匹配“d”,但是“r”并不会成为整个正则表达式匹配的一部分 -> Try it! (https://regex101.com/r/cO8lqs/18) (?<=r)d      只有在前面跟着“r”时才匹配“d”,但是“r”并不会成为整个正则表达式匹配的一部分 -> Try it! (https://regex101.com/r/cO8lqs/19)

    我们同样能使用否定运算子:

    d(?!r)       只有在后面不跟着“r”的时候才匹配“d”,但是“r”并不会成为整个正则表达式匹配的一部分 -> Try it! (https://regex101.com/r/cO8lqs/20) (?
    * **Try it!* (https://regex101.com/r/cO8lqs/21)

转载于:https://www.cnblogs.com/bitterain/p/10383083.html

你可能感兴趣的文章
基于wxPython的python代码统计工具
查看>>
淘宝JAVA中间件Diamond详解(一)---简介&快速使用
查看>>
一种简单的数据库性能测试方法
查看>>
如何给JavaScript文件传递参数
查看>>
Struts2(十三)国际化-internationalization
查看>>
经典SQL语句基础50题
查看>>
vs2010 无法加载 asp.net mvc2 项目标解决规划
查看>>
REST API disable / enable service auto start by API
查看>>
[转] 17个自适应风格html5网页模板
查看>>
robotframework实战二---Jenkins连用
查看>>
鼠标事件记录
查看>>
Jquery IE 缓存问题
查看>>
站立会议09(冲刺二)
查看>>
linux 安装nginx
查看>>
BZOJ 1798: [Ahoi2009]Seq 维护序列seq
查看>>
开始写博客,学习Linq
查看>>
斜率优化dp
查看>>
Virtual box 虚拟机 不可使用的一种解决方法
查看>>
android异常总结一 :res\layout\OtherActivity.xml: Invalid file name: must contain only [a-z0-9_.]...
查看>>
C++ socket programming in Linux
查看>>