挑战:数据提取(2016tabfun面试题)

来源:互联网 发布:淘宝热线人工服务电话 编辑:程序博客网 时间:2024/05/20 10:23

linux数据提取(grep命令的简单应用)

介绍

小明在做数据分析的时候需要提取文件中关于数字的部分,同时还要提取用户的邮箱部分,但是有的行不是数组也不是邮箱,现在需要你在data2这个文件中帮助他用正则表达式匹配出数字部分和邮箱部分。

下面给出下载地址

http://labfile.oss.aliyuncs.com/courses/1/data2

(提示:使用wget命令下载文件)

将下载的data2保存在/home/kwx/data2

目标

  1. 在文件data2中匹配数字开头的行,结果写入/home/kwx/num中
  2. 在文件data2中匹配出正确格式的邮箱,结果写入/home/kwx/mail的文件中
提示

    1.邮箱的格式
    2.注意符号.的处理
答案
1.使用grep命令  '^[0-9]' ^符号表示匹配行开始的字符,

[0-9]表示匹配数字.

2.使用grep命令  '.*@.*\.com'  开头'.*'表示匹配前面的任

意多个字符,第二个'.*'同理。


总结:答案很简单,但粗心就很容易出错.

扩展: 请匹配邮箱服务器名称为非字符的行,并输出

到/home/kwx/servnochar文件中


原创粉丝点击