shell中的正则表达式和通配符
shell中的正则表达式和通配符

Directory

shell中的正则表达式和通配符

正则表达式

正则表达式包含以下一个或多个组成部分

字符集:一组字符

锚:表领了正则表达式在文本中要匹配的位置。例如^和$

修饰符:用于展开或者缩小正则表达式匹配文本行的范围。例如*,(),\。

正则表达式主要的内容

星号*

匹配前一个字符任意多次(含0)。

例如:“123*”表示匹配12+任意多次的3

点.

匹配除了换行以外的任意一个字符

例如:“12.”会匹配12+任意一个字符(包括空格),但不匹配12,因为这个位置少了一个字符

^

匹配一行的开头。也有可能表示否定一个字符集。

$

匹配行尾。

因此可知“^$”可以用于匹配空行

方括号[]

表示匹配括号中的一个字符。

例如:

“[xyz]”会匹配字符x或者y或者z

“[c-n]”匹配从字符c到n之间的任意一个字符

“[B-Pk-y]” 匹配从B到P 或从k到y的任意一个字符.

“[a-z0-9]” 匹配任意小写字母或数字.

”[^b-d]” 匹配除了从b到d范围内所有的字符. 这是正则表达式中反转意思或取否的一个例子。

反斜杠\

转义字符,使一个字符表示其字面上的意思。

尖角号(须转义)\<\>

表示单词的边界。

例如:“\<the\>”会匹配单词the,但是不会匹配them等。

正则表达式的扩展符号

问号?

匹配0个或者1个前面的字符

加号+

匹配1个或者多个前面的字符。与*相似,但是不匹配0个字符。

大括号\{\}(须转义)

指示前面正则表达式的匹配的次数。

例如“[0-9]\{5\}”精确匹配5个数字。

圆括号()

括起一组正则表达式用于做或操作之类。

竖线|

或操作,用于匹配一组字符。

例如:

“(0-5) | (a-c)”会匹配一个0-5的数字或者a-c的字母。

POSIX字符类

[:alnum:] 匹配字母和数字.等同于A-Za-z0-9.

[:alpha:] 匹配字母. 等同于A-Za-z.

[:blank:] 匹配一个空格或是一个制表符(tab).

[:cntrl:] 匹配控制字符.

[:digit:] 匹配(十进制)数字. 等同于0-9.

[:graph:](可打印的图形字符). 匹配 ASCII 码值的33 - 126之间的字符. 这和下面提到的[:print:]一样,但是不包括空格字符.

[:lower:] 匹配小写字母. 等同于a-z.

[:print:] (可打印字符). 匹配 ASCII码值 32 - 126之间的字符. 这和上面提到的[​:graph:​] 一样,但是增多一个空格字符。

[:space:] 匹配空白字符 (空格符和水平制表符).

[:upper:] 匹配大写字母. 等同于A-Z.

[:xdigit:] 匹配十六进制数字. 等同于0-9A-Fa-f.

通配符

Bash本身没有正则表达式的功能.在脚本里,使用正则表达式的是命令和软件包,例如sed和awk,它们可以解释正则表达式.

Bash所做的是展开文件名扩展,这就是所谓的通配(globbing) ,但它不是使用标准的正则表达式. 而是使用通配符. 通配解释标准的通配符:和?, 方括号括起来的字符,还有其他的一些特殊的字符(比如说^用来表示取反匹配).然而通配机制的通配符有很大的局限性. 包含有号的字符串将不会匹配以点开头的文件,例如.bashrc另外,通配机制的? 字符和正则表达式中表示的意思不一样.

通配符种类

星号*

匹配 0 或多个字符

问号?

匹配任意一个字符,但是必须有一个字符。

[list]

匹配 list 中的任意单一字符。注意只能有一个。

[!list]

匹配除了 list 中的任意单一字符。注意只能有一个。

[a-c]

匹配a到c的任一个字符

{string1,string2…}

匹配括号里面的任一个字符串。