文本解析显神威:for /f 用法详解

来源:互联网 发布:mac版ps2017快捷键 编辑:程序博客网 时间:2024/05/01 20:47

转自http://bbs.bathome.cn/thread-2189-1-1.html

    前言

  for /f 是个十分强大的家伙。
  如果说,for语句是批处理中最强大的语句的话,那么,for /f 就是精华中的精华。
  for /f 的强大,和它拥有众多的开关密切相关。因为开关众多,所以用法复杂,本章将分成若干小节,为大家逐一介绍强大的 for /f 语句。

    (一) 为解析文本而生:for /f 的基本用法

  所有的对象,无论是文件、窗体、还是控件,在所有的非机器语言看来,无外乎都是形如"c:/test.txt"、"CWnd"之类的文本信息;而所有的对象,具体的如ini文件中的某条配置信息、注册表中的某个键值、数据库中的某条记录……都只有转化为具有一定格式的文本信息,方可被代码识别、操控。可以说,编程的很大一部分工作,都是在绞尽脑汁想方设法如何提取这些文本信息。
  而提取文本信息,则是for /f的拿手好戏:读取文件内容;提取某几行字符;截取某个字符片段;对提取到的内容再切分、打乱、杂糅……只要你所能想到的花样,for /f 都会想方设法帮你办到,因为,for /f 就是被设计成专门用于解析文本的。
  先来看个例子。
  假如有个文本文件test.txt,内容如下:
[txt1]
引用:
论坛的目标是:不求最大,但求最好,做最实用的批处理论坛。
论坛地址:bbs.bathome.cn。
这里是:新手晋级的福地,高手论剑的天堂。
  那么,将如下代码保存为test.cmd,并放在test.txt同一目录下运行,将会在屏幕上原样显示test.txt的内容:
[code4]
复制内容到剪贴板
代码:
@echo off
for /f %%i in (test.txt) do echo %%i
pause
  这段代码,主要是让你树立这样一种观念:读取文本文件的内容,请使用 for /f 语句!

  进阶话题:for /f 语句是把整个test.txt一次性显示出来的?
  在这段代码中,虽然执行结果是把test.txt中的所有内容都显示出来了,貌似 for /f 语句是把整个test.txt一次性显示到屏幕上,实际上并非如此。
  无论for语句做何种变化,它的执行过程仍然遵循基本的for流程:依次处理每个元素,直到所有的元素都被处理为止。只不过在for /f语句中,这里的元素是指文件中的每一行,也就是说,for /f 语句是以行为单位处理文本文件的。这是一条极为重要的规则,在上一章中也强调过它的重要性,希望在接下来的学习过程中,你能时刻牢记这一原则,那么,很多问题将会迎刃而解。以下是验证这一说法的演示代码(在[code4]的基础上添加了&pause语句):
[code5]
复制内容到剪贴板
代码:
@echo off
for /f %%i in (test.txt) do echo %%i&pause
pause
    (二) 切分字符串的利器:delims=

  也许你对[code4]这段代码不屑一顾:不就是把test.txt的内容显示出来了么?好像用处不大啊。
  好吧,我们来玩个魔术。
  还是[txt1]这段文本,把[code4]改造一下:
[code6]
复制内容到剪贴板
代码:
@echo off
for /f "delims=," %%i in (test.txt) do echo %%i
pause
  再次运行test.cmd,看到什么变化了吗?!
[result2]
复制内容到剪贴板
代码:
论坛的目标是:不求最大
论坛地址:bbs.bathome.cn。
这里是:新手晋级的福地
请按任意键继续...
  结果,你惊奇地发现,每行第一个逗号之后的所有内容都不见了(如果有不存在逗号的行,则保留原样),也就说,你成功地提取到了每行第一个逗号之前的所有内容!
  试想一下,这段代码会有什么用呢?
  如果别人给了你一个软件清单,每行都是"英文软件名(逗号)中文软件名"的格式,而你却只想保留英文名的时候,这段代码将是多么有用啊!再假设,有这么一个IP文件,第一列是数字格式的IP地址,第二列是具体的空间地址,列与列之间用逗号分隔,而你想提取其中数字格式的IP,呵呵,我不说你也知道该怎么办了吧?
  要是文本内容不是以逗号分隔,而是以其他符号分隔,那么,把"delims=,"的逗号换成相应的符号就可以了。
  在这里,我们引入了一个新的开关:"delims=,",它的含义是:以逗号作为被处理的字符串的分隔符号。
  在批处理中,指定分隔符号的方法是:添加一个形如 "delims=符号列表" 的开关,这样,被处理的每行字符串都会被符号列表中罗列出来的符号切分开来。
  需要注意的是:如果没有指定"delims=符号列表"这个开关,那么,for /f 语句默认以空格键或跳格键作为分隔符号。请把[txt1]中不同位置上的标点符号改为空格或跳格,再运行[code4]试试。

  进阶话题:如果我要指定的符号不止一个,该怎么办?
  在上面的讲解中,我提到了指定分隔符号的方法:添加一个形如"delims=符号列表"的开关。不知道你注意到没有,我的说法是"符号列表"而非"符号",这是大有讲究的,因为,你可以一次性指定多个分隔符号!
  还是以[txt1]为例,把[code6]再改造一下:
[code7]
复制内容到剪贴板
代码:
@echo off
for /f "delims=.," %%i in (test.txt) do echo %%i
pause
  结果显示:
[result3]
复制内容到剪贴板
代码:
论坛的目标是:不求最大
论坛地址:bbs
这里是:新手晋级的福地
请按任意键继续...
  这样,第一个点号或第一个逗号之前的内容都被提取出来了。
  [code7]的执行过程是:逐行读取test.txt中的内容,以点号和逗号切分每一行的内容(不存在点号和逗号的行,则不再切分,为了描述的方便,我们把被点号或逗号切分的一个一个的字符串片段,称之为节),然后,for /f 会提取第一节的内容作为最终结果,显示在屏幕上。需要注意的是,在这里,所有行的字符串被切分成了两个以上的节,但是,[code7]的代码只会提取第一节字符串的内容,因为 for /f 语句默认只提取第一节的符串。

    (三) 定点提取:tokens=

  上一节在讲解 delims= 的时候,我一再强调 for /f 默认只能提取到第一节的内容,现在我们来思考一个问题:如果我要提取的内容不在第一节上,那怎么办?
  这回,就该轮到 tokens= 出马了。
  tokens= 后面一般跟的是数字,如 tokens=2,也可以跟多个,但是每个数字之间用逗号分隔,如 tokens=3,5,8,它们的含义分别是:提取第2节字符串、提取第3、第5和第8节字符串。注意,这里所说的“节”,是由 delims= 这一开关划分的,它的内容并不是一成不变的。
  下面来看一个例子:
[txt2]
复制内容到剪贴板
代码:
尺有所短,寸有所长,学好批处理没商量,考虑问题复杂化,解决问题简洁化。
  对[txt2]这段文本,假设它们保存在文件test.txt中,如果我想提取“学好批处理没商量”这句话,该如何写代码呢?
  我们稍微观察一下[txt2]就会发现,如果以逗号作为切分符号,就正好可以把“学好批处理没商量”化为单独的一“节”,结合上一节的讲解,我们知道,"delims=," 这个开关是不可缺少的,而要提取的内容在以逗号切分的第3节上,那么,tokens= 后面的数字就应该是3了,最终的代码如下:
[code8]
复制内容到剪贴板
代码:
@echo off
for /f "delims=, tokens=3" %%i in (test.txt) do echo %%i
pause
  如果我们现在要提取的不只一个“节”,而是多个,那又怎么办呢?比如,要提取以逗号切分的第2节和第5节字符串,是写成这样吗?
[code9]
复制内容到剪贴板
代码:
@echo off
for /f "delims=, tokens=2,5" %%i in (test.txt) do echo %%i
pause
  运行批处理后发现,执行结果只显示了第2节的内容。
  原来,echo 后面的 %%i 只接收到了 tokens=2,5 中第一个数值2所代表的那个字符串,而第二个数值5所代表的字符串因为没有变量来接收,所以就无法在执行结果中显示出来了。
  那么,要如何接收 tokens= 后面多个数值所指代的内容呢?
  for /f 语句对这种情况做如下规定:
  如果 tokens= 后面指定了多个数字,如果形式变量为%%i,那么,第一个数字指代的内容用第一个形式变量%%i来接收,第二个数字指代的内容用第二个形式变量%%j来接收,第三个数字指代的内容用第三个形式变量%%k来接收……第N个数字指代的内容用第N个形式变量来接收,其中,形式变量遵循字母的排序,第N个形式变量具体是什么符号,由第一个形式变量来决定:如果第一个形式变量是%%i,那么,第二个形式变量就是%%j;如果第一个形式变量用的是%%x,那么,第二个形式变量就是%%y。
  现在回头去看[code9],你应该知道如何修改才能满足题目的要求了吧?修改结果如下:
[code10]
复制内容到剪贴板
代码:
@echo off
for /f "delims=, tokens=2,5" %%i in (test.txt) do echo %%i %%j
pause
  如果有这样一个要求:显示[txt2]中的内容,但是逗号要替换成空格,如何编写代码?
  结合上面所学的内容,稍加思索,你可能很快就得出了答案:
[code11]
复制内容到剪贴板
代码:
@echo off
for /f "delims=, tokens=1,2,3,4,5" %%i in (test.txt) do echo %%i %%j %%k %%l %%m
pause
  写完之后,你可能意识到这样一个问题:假如要提取的“节”数不是5,而是10,或者20,或者更多,难道我也得从1写到10、20或者更多吗?有没有更简洁的写法呢?
  答案是有的,那就是:如果要提取的内容是连续的多“节”的话,那么,连续的数字可以只写最小值和最大值,中间用短横连接起来即可,比如 tokens=1,2,3,4,5 可以简写为 tokens=1-5 。
  还可以把这个表达式写得更复杂一点:tokens=1,2-5,tokens=1-3,4,5,tokens=1-4,5……怎么方便就怎么写吧。
  大家可能还看到一种比较怪异的写法:
[code12]
复制内容到剪贴板
代码:
for /f "delims=, tokens=1,*" %%i in (test.txt) do echo %%i %%j
pause
  结果,第一个逗号不见了,取代它的是一个空格符号,其余部分保持不变。
  其中奥妙就在这个星号上面。
  tokens=后面所接的星号具备这样的功能:字符串从左往右被切分成紧跟在*之前的数值所表示的节数之后,字符串的其余部分保持不变,整体被*所表示的一个变量接收。
  理论讲解是比较枯燥的,特别是为了严密起见,还使用了很多限定性的修饰词,导致句子很长,增加了理解的难度,我们还是结合[code12]来讲解一下吧。
  [txt2] 的内容被切分,切分符号为逗号,当切分完第一节之后,切分动作不再继续下去,因为 tokens=1,* 中,星号前面紧跟的是数字1;第一节字符串被切分完之后,其余部分字符串不做任何切分,整体作为第二节字符串,这样,[txt2]就被切分成了两节,分别被变量%%i和变量%%j接收。
  以上几种切分方式可以结合在一起使用。不知道下面这段代码的含义你是否看得懂,如果看不懂的话,那就运行一下代码,然后反复揣摩,你一定会更加深刻地理解本节所讲解的内容的:
[code13]
复制内容到剪贴板
代码:
@echo off
for /f "delims=, tokens=1,3-4,*" %%i in (test.txt) do echo %%i %%j %%k %%l
pause
原创粉丝点击