1. 文本处理的工具sed

1. 文本处理的工具sed

  • Stream EDitor, 行编辑器

sed是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环

如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。

功能:主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写转换程序等

参考: http://www.gnu.org/software/sed/manual/sed.html

1.1. 用法:

sed [option]... 'script' inputfile...

1.2. 常用选项:

-n 不输出模式空间内容到屏幕,即不自动打印 -e 多点编辑 -f /PATH/SCRIPT_FILE inputfile:从指定文件中读取script来对后面的inputfile进行处理 -r 支持使用扩展正则表达式 -i 直接个修改原文件,批量,不备份(比较危险,不建议这么使用) -i[SUFFIX] 比如-i.bak,备份文件并原处编辑,相当于把修改后的内容存到原文件中修改它,把没有修改之前的原文件加个.bak后缀备份一份在原处。(注意使用的时候是相当于把sed要输出到标准输出的内容重定向到原文件中,因此不要用-n选项和p命令)

1.3. script格式:

'地址 命令'

1.4. 地址定界:

(1) 不给地址:对全文进行处理 (2) 单地址: #:指定的行,$:最后一行 /regular expression/:被此处模式所能够匹配到的每一行,注意它是正则表达式 其中如果表达式中包含/符号,则需要进行转义\/,避免和地址定界的两边的/符号混淆. (3) 地址范围: #,# #,+# /pat1/,/pat2/ #,/pat1/ (4) ~:步进 1~2 奇数行 2~2 偶数行

1.5. 编辑命令:

d 删除模式空间匹配的行,并立即启用下一轮循环 p 打印当前模式空间内容,追加到默认输出之后 a [\]text **在指定行后面的下一行**追加文本,支持使用\n实现多行追加 i [\]text **在行前面的前一行**插入文本 c [\]text **替换当前行**为单行或多行文本 w /path/file 保存模式匹配的行至指定文件 r /path/file 读取指定文件的文本至模式空间中匹配到的行后 = 为模式空间中的行打印行号: 注意它也用在地址定界后面,在每一行的前面一行打印出来行号,后面跟上p命令无效,要分成两个'地址命令(script)'才可,注意如果分成两个了 匹配的地址定界一定也要写上并相同。 ! 模式空间中匹配行取反处理: 注意它用在地址定界后面

1.5.1. 简单注意点

  1. sed命令不加任何编辑命令的时候它也是默认打印一遍文件全文到屏幕(stdout)上面的
    • 此时如果加了p的编辑命令,那么会打印两遍到屏幕上
    • 例如,sed 'p' file ,会把file的每一行打印两边(紧挨着重复的两行)到屏幕上。其中一遍是默认的sed行为,一遍是p的编辑命令。
  2. 接上面1中所说,sed命令加上了脚本(地址命令)的时候 ,只是说针对匹配到的地址行执行命令,而没有匹配到的行,由于sed命令的执行逻辑和过程,(一行一行从上到下处理),它也会默认打印出来到屏幕上。
    • 由此可见 -n 选项十分常用
    • 比如说 sed '2p' passwd 此命令会把passwd文件全部打印一遍,第二行打印两边
    • sed -n '2p' passwd 此命令则只会把passwd的第二行打印一遍,其他行由于-n命令不打印。
  3. w相当于重定向> ,但重定向命令时是把当前要打印出来的行写入文件中,根据加不加-n p 判断要输出到屏幕上的行来判断真正写入文件中的内容。而w命令即使加了-n ,不输出到屏幕,只要匹配到了这一行,仍然会重定向到文件中。 例如:
seq 10 |sed -n "1,10w sedtest" seq 10 |sed "1,10w sedtest" 以上两个命令都会把1到10输入到sedtest文件中,只是第一个不打印出来到屏幕,第二个会在屏幕也打印一下。 但是如果 seq 10 |sed -n "" >sedtest 则sedtest文件内为空,因为没有打印到屏幕,屏幕为空,重定向只是重定向屏幕中的内容 seq 10 |sed -n "p" >sedtest 则sedtest文件内有1到10这10行数字 下面两个命令相同功能: sed '1,10w filename' Originalfile cat Originalfile |sed -n '1,10p' >filename
  1. 注意sed后面的“script" 如果跟了地址定界,后面必须跟命令,否则报错缺失命令

1.6. s/// 查找替换,它也属于编辑命令

  • 由于它也是编辑命令,前面当然也可用地址定界以及正则表达式来先匹配行数,再进行搜索替换。
  • 支持使用其它分隔符,比如s@@@,s###等等
  • &符号表示被匹配到的所有内容,\1~\9则是后项引用前面的分组
    - 替换标记: g 行内全局替换,和vim相同,如果不加g只替换每一行第一个搜索到的partern p 显示替换成功的行 w /PATH/FILE 将替换成功的行保存至文件中

1.6.1. 需要注意的点:

  1. sed命令默认是每一个匹配的行找到之后都会打印一遍,用-n选项取消默认打印(写在script外面),用p命令控制打印(写在script里面的命令里)。
    • 要注意如果没有-n选项,但后面有命令处理的的话,默认则是处理当模式空间行之后再打印当前模式空间的行,比如d命令就会删除当前行,删除之后再打印也是空行,就相当于此行不打印了。
    • 例子:
sed '' passwd : 相当于把passwd显示一遍 sed 'p' passwd: 相当于把passwd每行显示两边 swd -n 'p' passwd : 相当于和第一个一样,每一行打印一遍
  1. 它要用单引号引起来,并前面是地址定界,后面是命令
  2. 命令,sed -nr '/^a/,/^o/p' file ,这个命令的执行逻辑是,只要找到a开头的行,sed命令就进行打印,然后一直打印每一行直到找到o开头的行;
    • 如果在上面的过程中,先找到了a开头的行但是后面没有o开头的行,那么sed就会把整个file打印一遍
    • 如果在上面的过程中,文件中有多个a开头和后面有o开头的行的段落,那么sed就会把这些符合条件的段落部分都打印出来
    • 如果在上面的过程中o开头的行在a开头的行的前面,且a开头的行后面没有了o开头的行,则sed会把a开头的行后面的所有部分打印出来
    • 如果在上面的过程中o开头的行在a开头的行的前面,且a开头的行后面有o开头的行(只有一次),则sed会把a开头的行到它后面o开头的行中间部分给打印出来。
    • 更多的情况就是这个意思,明白就行
  3. sed命令的一个script里面可以跟多个地址命令,中间用分号隔开。其执行的时候的逻辑是从左往右一个分号一个分号执行。
    • 先判断第一个分号内的,当前模式空间的行是否符合地址定界,符合便执行命令,然后判断后一个分号内的,当前行是否属于其地址定界,然后决定是否执行命令。
    • 相当于对一行进行多次处理,
    • 当然sed也可以在每个script前面加上-e进行多个script的编辑,和这个没有区别
    • 它处理过程都是针对一行判断所有脚本的地址定界和命令,而不是先从头搜索到尾执行一个script, 然后从头到尾再执行另一个script。
  4. sed支持标准输入,因此可以用管道,也可用xargs将每一个文件都放到参数位置来进行多个文件的相同的处理
  5. !命令用在地址定界的后面,表示非,也就是对除了前面地址定界之外的行进行处理
  6. -i[SUFFIX] 执行的时候相当于是把本来要显示在默认输出的内容存入并覆盖掉原文件中,因此如果要修改原文件内容,前面不要加-n ,命令里面也不要加p.
  7. sed中地址定界的模式匹配范围,它是从匹配到前面partern的行然后到匹配到后面partern的行给选中,然后后面的内容再从匹配到前面partern的行到匹配到后面partern的行给选中,一直到最后。如果只匹配到前面的partern的行,到最后没匹配到包含后面的partern的行,则会把前面partern的行后面的行全部当做匹配到的地址定界的行。
  8. 追加文本的a i c 后面可以用反斜线界定输入起始范围,这样后面最开始输入的的空格也能追加进去了,可以用\n 换行。
  9. sed命令中想要使用外面变量内的内容(变量扩展)和命令结果(命令替换)
    1. 如果sed的script使用的是双引号,则变量直接用 $符号 引用即可,命令结果则使用两个反引号或者 $() 引用;这和前面所说的单双引号的效果是一致的。
    2. 如果sed的script使用的是单引号,则变量引用的外面要加上一层单引号,也就是用'"$var"'的方式,命令的话也是同样在命令替换外面加上一层单引号即可。
  10. 一定要注意重定向是把要打印到屏幕的显示内容存到文件中,就像-i -i.bak选项本质就是重定向,而w命令虽然本质也是重定向,但是只管匹配到的行,而且忽略sed打印不打印-np 选项。需要谨记
  11. 注意替换命令的三个///都需要加上,不能缺少任何一个,后面可以跟g之后再跟其他的命令比如p两个同时加上。如果用扩展的正则表达式前面的选项要加上-r(也可以控制地址定界正则表达式)

1.6.2. 重中之重复习:

  • 除了find的regex需要全部路径匹配之外,sed ,vim,grep,locate都只需要部分匹配(包含或者含有)即可。

  • 注意vim的查找和替换与sed里面的查找替换非常类似

  • 但是注意sed如果替换的并且打印的话,它打印的是整个行,因此如果目的是为了取其中一部分内容,则替换的时候最好把整行给替换,要多用^.*[partern].*$等匹配到整行然后分组(尤其用了后向引用的时候),这样打印的时候才不会留下某些不被替换的部分。(有点类似整行全部匹配的find -regex 方式,但这里sed其原理并非是全部匹配,只是为了我们的目的取其中一部分打印出来,为了不留其他字符,才这样整行替换的做法)

    • 比如sed取基名和目录名,如果不把最后面的斜线/?加上前面被匹配的内容内的话,虽然搜索替换之后结果是对的,但是sed命令的结果是打印出整个行,而不是我们误认为的取搜索替换后面的被替换的内容,搜索替换只是对这个行进行一个操作而已,sed命令的最终结果是对整个处搜索替换理后的行进行打印(最后面的斜线没有被替换,这样就会留下来了。
    • 所以使用sed命令的时候最好是多用^.*EXP.*$这种方式进行匹配,然后取分组,看需要保留哪些内容都保留下来,不需要的替换掉,剩下的整行内容sed最后再进行一次打印,这才是我们想要的结果。
  • 同时从例子中可以看出,多次对一行处理的时候从左往右(-e或者;),然后处理后的结果重新存入模式空间当做原来的内容的当前行,后面继续处理的时候一定要注意地址定界匹配(行号或者模式匹配),不然会匹配到其他行或者其他问题。

  • 搜索替换中可用&符号替换s///,中前面搜索中的所有内容,不需要加\。 例子:

------------------------------------ 1.在某一行后面添加内容: sed -r '/要匹配的行/s@(.*)@\1 要添加的内容@' ------------------------------------ 2.在某一行中间添加内容: sed -r '/要匹配的行/s@^(pattern1)(pattern2)$@\1 要添加的内容 \2@' ------------------------------------ 3.找出基名和目录名: echo /data/scripts/ttt/ | sed -nr 's@(^.*/)([^/]+)/?$@\1@p' 目录名 echo /data/scripts/ttt/ | sed -nr 's@(^.*/)([^/]+)/?$@\2@p' 基名 echo /data/scripts/ttt/ | sed -r 's@(^.*)/([^/]+)/?$@\1@' 目录名 echo /data/scripts/ttt/ | sed -r 's@(^.*)/([^/]+)/?$@\2@' 基名 ------------------------------------ 4.找出ipv4地址 ifconfig ens33 | sed -nr '2s/.*inet //p' | sed -r 's/ .*//' 或者 11:55[root@centos7 /data]# ifconfig ens33 | sed -nr -e '2s/.*inet //p' -e '2s/ .*//p' 192.168.36.102 netmask 255.255.255.0 broadcast 192.168.36.255 192.168.36.102 11:55[root@centos7 /data]# ifconfig ens33 | sed -nr -e '2s/.*inet //' -e '2s/ .*//p' 192.168.36.102 11:57[root@centos7 /data]# ifconfig ens33 | sed -nr '2s/.*inet //p ; 2s/ .*//p' 192.168.36.102 netmask 255.255.255.0 broadcast 192.168.36.255 192.168.36.102 11:56[root@centos7 /data]# ifconfig ens33 | sed -nr '2s/.*inet // ; 2s/ .*//p' 192.168.36.102 或者搜索替代: 12:02[root@centos7 /data]# ifconfig ens33 | sed -nr '2s/^[^0-9]+([0-9.]+).*/\1/p' 192.168.36.102

附加:ifconfig中的网卡名修改,需要改/boot/grub2/grub.cfg 文件中的 linux16 这两行的最后都加上 net.ifnames=0 ,便可将centos7中的 ens33 改为eth0

# sed -nr '/linux16/p' /boot/grub2/grub.cfg linux16 /vmlinuz-3.10.0-957.el7.x86_64 root=UUID=fe52cb5a-c690-43e7-a830-b31f3ba7cd57 ro crashkernel=auto rhgb quiet LANG=en_US.UTF-8 net.ifnames=0 linux16 /vmlinuz-0-rescue-77888ea49ac54db891160345c9275da3 root=UUID=fe52cb5a-c690-43e7-a830-b31f3ba7cd57 ro crashkernel=auto rhgb quiet net.ifnames=0 # sed -r -i.bak '/linux16/s/.*/& net.ifnames=0/' /boot/grub2/grub.cfg

1.7. Sed更多用法

P: 打印模式空间开端至\n内容,并追加到默认输出之前 h: 把模式空间中的内容覆盖至保持空间中 H:把模式空间中的内容追加至保持空间中 g: 从保持空间取出数据覆盖至模式空间 G:从保持空间取出内容追加至模式空间 x: 把模式空间中的内容与保持空间中的内容进行互换 n: 读取匹配到的行的下一行覆盖至模式空间 N:读取匹配到的行的下一行追加至模式空间 d: 删除模式空间中的行 D:如果模式空间包含换行符,则删除直到第一个换行符的模式空间中的文本,并不会读取新的输入行,而使用合成的模式空间重新启动循环。如果模式空间不包含换行符,则会像发出d命令那样启动正常的新循环

1.8. 自己测试一下结果:

sed -n 'n;p' FILE sed '1!G;h;$!d' FILE sed‘N;D’ FILE sed '$!N;$!D' FILE sed '$!d' FILE sed ‘G’ FILE sed ‘g’ FILE sed ‘/^$/d;G’ FILE sed 'n;d' FILE sed -n '1!G;h;$p' FILE
最后修改日期: 2021年7月7日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。