那些年我们在Python掉进的坑——清除不想要的字符

来源:互联网 发布:淘宝篮球鞋店推荐 编辑:程序博客网 时间:2024/05/17 01:04
起因,在spark运行的时候出现了这个错误

打开ipython用pandas检查的时候发现后面几条是这个样子
In [1]: import pandas as pd

In [2]: df = pd.read_csv("name_address.csv",sep=',',encoding='utf8')

In [3]: df.keys()
Out[3]: Index([u'name', u'address'], dtype='object')

In [4]: df['address']
Out[4]:
0 珠海市斗门区龙山工业区黄杨大道2004号
1 杭州市西湖区黄姑山路29号颐高创业园
2 北京市北京经济技术开发区科创14街99号33幢D座二层D203室
3 北京市东城区贡院西街6号E栋10层1007室
4 北京市海淀区中关村东路84-7号
5 北京市东城区忠实里南街甲6号楼410室
6 北京市海淀区魏公村小区13号楼2门1
7 北京市朝阳区北苑路168号1号楼9层909号
8 北京市海淀区天秀路10号中国农大国际创业园1号楼B632室
9 北京市昌平区政法大学东侧松园小区
10 北京市朝阳区霄云路21号1幢三层(麦子店孵化器0650号)
11 北京市海淀区广源闸5号1幢7层701-031
12 北京市海淀区花园北路14号院内综合楼二层东侧办公楼
13 北京市海淀区蓝靛厂金源时代购物中心B区2#B座1707室
14 北京市海淀区马甸东路19号9层1021
15 北京市石景山区古城北路甲3号
16 北京市北京经济技术开发区经海2路29号院7号楼202-6
17 北京市密云县溪翁庄镇环湖路66号镇政府1号楼110室-465
18 北京市朝阳区小红门乡南四环成寿寺路308号城外诚商务楼四层2071号
19 北京市朝阳区管庄乡1号1幢2层2088号
20 北京市昌平区东小口镇天通东苑一区33号楼8内2层205
21 北京市密云县古北口镇古御路外街11号镇政府办公楼212室-772
22 北京市朝阳区望京西路甲50号1号楼7层(新企航孵化器203号)
23 北京市北京经济技术开发区文化园西路8号院24号楼11层1202
24 北京市朝阳区小红门乡南四环成寿寺路308号城外诚商务楼四层1198号
25 北京市顺义区南法信镇金关北二路2号院1号楼636室
26 北京市平谷区镇罗营镇镇罗营东街5号
27 北京市平谷区镇罗营镇镇罗营东街5号
28 北京市朝阳区小红门乡南四环成寿寺路308号城外诚商务楼四层1393号
29 北京市丰台区南四环西路188号十五区5号楼603
...
5747765 CQkJICAgCQkJCQkJCQkJCQkgICAJCQnljZflroHluILpgp...
5747766 CQkJICAgCQkJCQkJCQkJCQkgICAJCQnljqbpl6jluILpm4...
5747767 5Y2X5a6B5biC5YW05a6B5Yy65LiK5rW36LevOOWPt+ebm+...
5747768 5Y2X5a6B5biC5YW05a6B5Yy65Lic5bee6LevMuWPt+S4re...
5747769 5Y2X5a6B5biC6Z2S56eA5Yy66YeR5rmW6LevMjjlj7flko...
5747770 5Y2X5a6B5biC5YW05a6B5Yy65pyb5bee5Y2X6LevMTg45Y...
5747771 5Y2X5a6B5biC5YW05a6B5Yy66ZW/5YW06LevMTDlj7flkI...
5747772 5Y2X5a6B5biC5Lq65rCR5Lic6Lev77yS77yR77yQ5Y+356...
5747773 5Y2X5a6B5biC5pyd6Ziz6LevNDnlj7c=
5747774 5Y2X5a6B5biC6Z2S56eA5Yy65ruo5rmW6Lev77yR5Y+35Y...
5747775 5Zub5bed55yB6LWE6Ziz5biC5LmQ6Iez5Y6/5a2U6ZuA5L...
5747776 6LS15bee55yB6LS16Ziz5biC5Y2X5piO5Yy66b6Z5rSe5a...
5747777 5q2m5rGJ5biC5rGf5bK45Yy65LqM5LiD6Lev5Lic56uL5Z...
5747778 5Y2X5a6B5biC54Gr54Ks5LiA5pSv6LevMTDlj7fpk7bovr...
5747779 5Y2X5a6B5biC6Z2S56eA5Yy65paw5rCR6Lev77yR77yN77...
5747780 5Y2X5a6B5biC6Z2S56eA5Yy65qGC6ZuF6LevMTblj7fkuJ...
5747781 5Y2X5a6B5biC6auY5paw5Yy66auY5paw5LiD6LevMuWPt+...
5747782 5Y6m6Zeo5biC5rmW6YeM5Yy65Y2O6I2j6LevMTk45Y+35L...
5747783 6KGi5bee5biC5p+v5Z+O5Yy65paw5paw6KGX6YGT56ul5p...
5747784 5Y2X5a6B5biC57uP5byA5Yy66YeR5Yev6LevOTjlj7c=
5747785 CQkJICAgCQkJCQkJCQkJCQkgICAJCQnlsbHkuJznnIHmtY...
5747786 5YyX5Lqs5biC5Liw5Y+w5Yy66YCg55Sy6KGXMTEw5Y+3Mu...
5747787 6LS15riv5biC6I235Z+O6LevMTEwMuWPt+mYs+WFiemDve...
5747788 5Y2X5a6B5biC6Z2S56eA5Yy66Z2S5bGx6LevMTDlj7fmvr...
5747789 5Y2X5a6B5biC5aSn5a2m5Lic6LevMTc05Y+35bm/6KW/5Y...
5747790 5Y2X5a6B5biC5Y2O5L6o5oqV6LWE5Yy65q2m5L6o5aSn6Y...
5747791 5YyX5Lqs5biC5rW35reA5Yy65b+X5paw5Lic6LevOOWPt+...
5747792 5rex5Zyz5biC56aP55Sw5Yy65Y2O5by65YyX6KGX6YGT5o...
5747793 CQkJICAgCQkJCQkJCQkJCQkgICAJCQnljZflroHluILopb...
5747794 山东省德州市禹城市高新技术开发区东街延长线东首路南
Name: address, Length: 5747795, dtype: object

后面的地址都是英文字符,不能用“,”来分隔
In [7]: def is_alpabet(uchar):
...: uchar = uchar.decode('utf8')
...: if (uchar >=u'\u0041' and uchar <=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
...: return True
...: else:
...: False
...:
定义一个函数来区分英文字母
In [11]: def is_alpabet(uchar):
...: if type(uchar) != type(u'u\0041'):
...: uchar = uchar.decode('utf8')
...: if (uchar >=u'\u0041' and uchar <=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
...: return True
...: else:
...: False
...:

In [12]: f = lambda x: is_alpabet(x)

In [13]: df['address'].apply(f)
Out[13]:
0 None
1 None
2 None
3 None
4 None
5 None
6 None
7 None
8 None
9 None
10 None
11 None
12 None
13 None
14 None
15 None
16 None
17 None
18 None
19 None
20 None
21 None
22 None
23 None
24 None
25 None
26 None
27 None
28 None
29 None
...
5747765 True
5747766 True
5747767 None
5747768 None
5747769 None
5747770 None
5747771 None
5747772 None
5747773 None
5747774 None
5747775 None
5747776 None
5747777 None
5747778 None
5747779 None
5747780 None
5747781 None
5747782 None
5747783 None
5747784 None
5747785 True
5747786 None
5747787 None
5747788 None
5747789 None
5747790 None
5747791 None
5747792 None
5747793 True
5747794 None
Name: address, Length: 5747795, dtype: object
用apply传递lambda函数好像没啥用

In [16]: for i in df['address']:
...: if is_alpabet(i) is True:
...: print i
...:
null
null
a
null
null
G昌邑市柳疃镇长胡同村
hangzhou
MATTHIAS
null
null
null
jiangong-zhh2008@163.com
mgy174@163.com
wjzs008@126.com
SF8638185@163.com
kgxsgs_ztjyb@ynkg.com
QQ@2678614785
deng2100@126.com
fcbangongshi@163.com
cjsc.bgs@163.com
dgwzgs@126.com
skj35911@126.com
ynztch@126.com
ctjlsj@126.cpm
fcbangongshi@163.com
www.409729937@qq.com
a827511483@qq.com
LZH_651122@163.COM
wxycjyh@126.com
lijunxue@cgws.com
xinanfuwu@163.com
lw@hetral.com
tyn321@126.com
husongtao0870@126.com
hjztzy@creditharmony.cn
skj35911@126.com
xy930618@163.com
liumin03@taikanglife.com
gyswgsfgs@126.com
mengtianedu@163.com
fcbangongshi@163.com
yongan9916@163.com
cjsc.bgs@163.com
yaoli1987228@126.com
jianzhuang2016yn@163.com
cjsc.bgs@163.com
www.65620432@qq.com
xqh854151840@qq.com
ynxpztb@qq.com
selina009@sina.com
aosidili@foxmail.com
tcmzcp@163.com
dnky121@tom.com
ynztxdyw@163.com
at087001@homeinns.com
jumky@qq.com
dgxycgs@126.com
acejiaoyu@126.com
ynhljt@163.com
wulei@picclife.cn
hv72fg63az@163.com
http2002@163.com
yjtk01@126.com
yuhong@taikang.com
qiyi1960@sina.com
tongtjun1832697363@foxmail.com
dgxycgs@126.com
ynztqs@163.com
hui5686@126.com
ynwt@qq.com
skj35911@126.com
angelycss@163.com
fenk@qq.com
work@zttdjt.com
dhawk@vip.qq.com
ma8881@126.com
yn32024@seniorlife.com.cn
chenzehai110@163.com
fdyhztzxzh@163.com
chinky@vip.qq.com
dgwzgs@126.com
pjb8888@qq.com
cjsc.bgs@163.com
ynhljt@163.com
lzh_651122@163.com
cjsc.bgs@163.com
YNZTL@163.com
shishaoneng-pyn@sinosig.com
dgxiaozhongqin@163.com
scp7333@163.com
mick@ejsoft.com.cn
yn.zjd@163.com.cn
yongan9916@163.com
dgxycgs@126.com
fenk@qq.com
yngmzt@126.com
yuhongyu520@163.com
fzq200808@163.com
gyswxzb@126.com
www.yn.ztyl@163.com
yongan9916@163.com
ynkmxyj@126.com
wl2868889@163.com
aizai189@qq.com
angelycss@163.com
cjsc.bgs@163.com
aizai189@qq.com
kmcszt@126.com
xuanzecaiwu@163.com
www.2501829201@qq.com
jtgw08708633988@163.com
cjsc.bgs@163.com
www.hsk700424@126.com
yxdnzgs1226@yahoo.cn
xs88@126.com
sfgs2011@126.com
jjq520ni@163.com
mxt9818@163.com
cjsc.bgs@163.com
lili708@pingan.com.cn
BLyiqiutian@163.com
shyocean@126.com
rlzyb3@163.com
xuyu558@pingan.com.cn
dgxycgs@126.com
qiyi1960@sina.com
yaitai1974@126.com
gmynzt@126.com
pjb8888@qq.zcom
raofei222222@163.com
wyhwyh1979@126.com
cjsc.bgs@163.com
angang92@qq.com
ylztz2@163.com
LZH_651122@163.COM
yao160160@126.com
yaitai1974@126.com
wsd03@waichontat.com
fcbangongshi@163.com
xiedefu@163.com
kmwerc@126.com
ynztbn@qq.com
kaichanghao@163.com
dgxycgs@126.com
mh136054478@126.com
ldxian168@126.com
hssnbz2011@163.com
yuxi97@aliyun.com
skj35911@126.com
wenyannan_tn_zt@163.com
cjsc.bgs@163.com
dlzyd@163.com
skj35911@126.com
lxzhoushang@qq.com
pjb8888@qq.com
yjtk01@126.com
ynztwabo@163.com
liumin03@taikanglife.com
qq@1157198609
SF863818500@163com
ynjp@163.com
www.253249959@qq.com
yongan9916@163.com
cjsc.bgs@163.com
kunhuahuagong@126.com
dj8321@126.com
gonghaoming@yunn.picc.com.cn
www.385845804@qq.com
typ1@163.com
www.454474998@qq.com
nfhztsfh@163.com
LWY19841129@163.COM
ynryzb@163.com
www.285009057@qq.com
ynztzl@qq.com
cjsc.bgs@163.com
azaazalg@qq.com
liguanghua819728@163com
www.hsk700424@126.com
lengyuzhanglin@163.com
pjb8888@qq.com
www.454474998@qq.com
ldxian168@126.com
jcj9688@163.com
jiangyinglei@126.com
Dgxiaozhongqin@163.com
ynhljt@163.com
ynztwabo@163.com
cjsc.bgs@163.com
kgk2238654@126.com
ynztryzs@163.com
ynztzl@qq.com
ynztwabo@163.com
chenyaa@chinazxt.com
ligang25882588@126.com
pengxu1972@163.com
hu_wanpin@qq.com
yts2009@126.com
pengyong_999@163.com
elliottseng@hotmail.com
li313653942@126.com
fcbangongshi@163.com
ynztldg@qq.com
yongan9916@163.com
tfjkp@126.com
fcbangongshi@163.com
dgxycgs@126.com
qiyi1960@sina.com
wanhefood@126.com
mali@tpyzq.com
ishell@163.com
mxt9818@163.com
chj0659@163.com
wangshanzhi@huaxincem.com
nvcysj016@126.com
sspdz@163.com
aizai189@qq.com
ldxian168@126.COM
yilbl@qq.com
cawa2002@qq.com
dgxycgs@126.com
fzq200808@163.com
hkswzxyxzrgs@126.com
fenk@qq.com
m18314172252@163.com
dgxycgs@126.com
hualinhuoyun@sina.com
WWW.872743035@QQ.COM
aizai189@qq.com
YNZTLIAOYURONG@163.CMO
licanjiao7@163.com
wxycjyh@126.com
ff8598@126.com
aizai189@qq.com
hxfhuyu2008@163.com
dyzhengjianhua@163.com
dbkjwj@126.com
C昌邑市天水路北首
A3昌邑市岩山路南首
A3岩山路南首
D昌邑市区西首206国道北
K昌邑市宋庄镇址(下小路以西)
G昌邑市柳疃镇张家车道村
N昌邑市北孟镇李家埠村西
I昌邑市卜庄镇
K昌邑市宋庄镇(西黄埠村南下小路东侧)
D昌邑市区西王耨泵站北
H昌邑市夏店镇址
I昌邑市卜庄镇
I卜庄镇大闫村北
C昌邑市区东于家山下
H夏店镇(辛沙路北下小路西)
L昌邑市石埠镇
K昌邑市宋庄镇下小路以西
D昌邑市烟汕路王耨村路段路北
L昌邑市石埠镇崇德屯村南309国道280公里处
V昌邑市丈岭镇驻地
A3昌邑市区利民街南岩山路东
N昌邑市北孟镇址
O太保庄乡址
L昌邑市流河乡址
M昌邑市饮马镇址
D昌邑市山前街26号
null
N0 .14水上服务区(108号黑浮下100米)
ynlddt@163.com
ynwxtx@163.com
D昌邑市北海路451号
hzdxh6999@163.com
G205蒙阴县夏家庄子路段(原蒙阴县中运加油站)
C昌邑市交通街北奎聚路西
E昌邑市都昌街办双台工业园
I昌邑市卜庄镇经济开发区
D昌邑市北海路北首(寓新花园1、2号)
E昌邑市双台工业园
A昌邑市新兴街29号
A昌邑市富昌街北(北苑小区沿街1号楼)
J昌邑市围子镇辛隅村
A昌邑市奎聚街办开发区
A昌邑市天水路南首路东烟汕路北
C昌邑经济开发区
J昌邑市围子镇工业园
I昌邑市沿海经济开发区
A昌邑市奎聚街办郝家城后村
G昌邑市柳疃镇青乡北
H昌邑市卜庄镇夏店街
M昌邑市饮马镇山阴村
D昌邑市利民街西首
K昌邑市宋庄镇址(下小路32公里处路东)
C昌邑市利民街西首
A昌邑市解放路467号
A2昌邑市中台村
G昌邑市青乡邮政公司东邻
F昌邑市龙池农行对面
A3利民街702号
C昌邑市北海路与交通街交叉路口以东、三角公园对面的银河购物广场
C昌邑市文山中学院内
I昌邑市沿海经济开发区
C昌邑市都昌街道山前社区居委会
J昌邑市鲁东铸造工业园(游龙面业南邻)
xujianhua1123@163.con
A3昌邑市岩山路与利民街交汇处
C昌邑市新昌路北首
APEC科技工业园
F昌邑市龙池镇北
G柳疃镇青阜村
U济青高速公路饮马段228KM处
xceg@263.net
huaihailab@126.com
yzhenry@126.com
assistant@measurechina.com
www.2508137396@qq.com
A昌邑市新兴街东首
simei9688@sina.com
jschtdb@163.com
A2-2德馨大厦622号
A2-2德馨大厦173131号
null
tadcjcyxgs@163.com
com
andersonliuqi@sina.com
andersonliuqi@sina.com
andersonliuqi@sina.com
andersonliuqi@sina.com
xinxingyaoye@163.com
wudizhenyuan@163.com
APEC烟台芝罘科技工业园兴宾路6号
APEC中国烟台芝罘科技工业园华泰路15号
APEC科技工业园
APEC中国烟台(芝罘)科技工业园冰轮路9号
APEC中国烟台(芝罘)科技工业园芝水工业园
APEC中国烟台(芝罘)科技工业园区化工路99号
APEC中国烟台(芝罘)科技工业园冰轮路51号
APEC科技工业园楚玉路金鑫工业园
APEC科技工业园只楚汽车零部件园
APEC中国烟台(芝罘)科技工业园
APEC科技工业园金鑫工业园A区1号
APEC科技工业园汇宾路8-10号
APEC科技工业园汇宾路8-19号
APEC工业园区南仓西路
APEC科技工业园化工路中段
D昌邑市南逄乡政府驻地
APEC科技工业园冰轮路39号
APEC中国烟台(芝罘)科技工业园宫家岛241号
APEC科技工业园芝水工业园
APEC烟台(芝罘)科技工业园宫家岛北街267号
APEC中国烟台(芝罘)科技工业园
APEC科技工业园金鑫工业园
APEC科技工业园楚玉路68号
APEC科技工业园冰轮路58号
APEC科技工业园冰轮路2号
APEC中国烟台(芝罘)工业科技园楚玉路中段金鑫工业园5号
APEC科技工业园芝水工业园
APEC科技工业园楚玉路11号
APEC中国烟台(芝罘)科技工业园冰轮西路5号
yanchengxinya@sina.com
wang@asha-ad.com
com
com
com
com
com
qiaoyu_jie@126.com
com
hszc2001@163.com
no
e河区机务段单身宿舍楼门面房
e河区神州唐三彩工艺城院内大门西侧
G107路北鄂豫皖纪念馆对面
no
no
no
A昌邑利众商厦有限责任公司佳家福购物中心一楼
no
no
A昌邑市利民街101号
no
V丈岭镇塔耳堡村
J昌邑市围子镇张家村
no
no
no
no
no
null
A昌邑市北海路382号
no
no
I昌邑市卜庄镇
C昌邑市区交通街北昌盛路西
no
no
no
no
no
no
no
V塔耳堡镇址
U昌邑市錾秸蚝笳虐倩屯村
no
no
no
no
no
no
g头镇大众中路16号
g头镇开放西路2号
no
e河区爽明街52号
no
no
t阳镇北关村
no
e河区北关村常平北街27号
no
CA1511哈尔滨哈西服装城一层五厅15号
N口镇白石坑村
no
M昌邑市饮马镇黄家官庄村
e河区古仓街42号院内
CQkJICAgCQkJCQkJCQkJCQkgICAJCQnljJfkuqzluILpgJrlt57ljLropb/pm4bplYfmlL/lupzlpKfooZczMjblj7cKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICA=
CQkJICAgCQkJCQkJCQkJCQkgICAJCQnkuIrmtbfluILpl7XooYzljLrlhYnljY7ot681OTjlj7cy5bmiQTExMTblrqQKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICA=
CQkJICAgCQkJCQkJCQkJCQkgICAJCQnlrqPmganljr/kuIflr6jkuaHkvI3lrrblj7DmnZHlha3nu4QKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICA=
CQkJICAgCQkJCQkJCQkJCQkgICAJCQnkuIrmtbfluILlpYnotKTljLrmlrDlm5vlubPlhazot680NjjlvIQyMOW5ojTlsYI2OOWupAoJCQkJICAgICAgICAgICAgICAgIAkJCSAgIAkJCQk=
CQkJICAgCQkJCQkJCQkJCQkgICAJCQnljJfkuqzluILmtbfmt4DljLrkuIflr7/ot68yN+WPt+eUteWtkOWkp+WOpgogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIA==
LQ==
CQkJICAgCQkJCQkJCQkJCQkgICAJCQnkuIrmtbfluILmnajmtabljLrljIXlpLTot68xMTM15byEM+WPtzIwNDDlrqQKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICA=

一条一条打印,是可以正常匹配出来的,但是怎么把这些去掉呢
In [20]: for i in df['address']:
...: if is_alpabet(i) is True:
...:
...: df.drop(0,inplace=True)
...:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-20-38fcea8a37c8> in <module>()
2 if is_alpabet(i) is True:
3
----> 4 df.drop(0,inplace=True)
5

/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in drop(self, labels, axis, level, inplace, errors)
2159 new_axis = axis.drop(labels, level=level, errors=errors)
2160 else:
-> 2161 new_axis = axis.drop(labels, errors=errors)
2162 dropped = self.reindex(**{axis_name: new_axis})
2163 try:

/usr/lib64/python2.7/site-packages/pandas/core/indexes/base.pyc in drop(self, labels, errors)
3622 if errors != 'ignore':
3623 raise ValueError('labels %s not contained in axis' %
-> 3624 labels[mask])
3625 indexer = indexer[~mask]
3626 return self.delete(indexer)

ValueError: labels [0] not contained in axis

In [21]:

In [21]: for i in df['address']:
...: if is_alpabet(i) is True:
...:
...: df.drop(0)
...:
...:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-21-8cb0b8ec452f> in <module>()
2 if is_alpabet(i) is True:
3
----> 4 df.drop(0)
5
6

/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in drop(self, labels, axis, level, inplace, errors)
2159 new_axis = axis.drop(labels, level=level, errors=errors)
2160 else:
-> 2161 new_axis = axis.drop(labels, errors=errors)
2162 dropped = self.reindex(**{axis_name: new_axis})
2163 try:

/usr/lib64/python2.7/site-packages/pandas/core/indexes/base.pyc in drop(self, labels, errors)
3622 if errors != 'ignore':
3623 raise ValueError('labels %s not contained in axis' %
-> 3624 labels[mask])
3625 indexer = indexer[~mask]
3626 return self.delete(indexer)

ValueError: labels [0] not contained in axis
用了几个删除命令都不行,于是我决定把没有特殊字符的数据另外提取出来
In [54]: df[df.address.map(is_alpabet)]
Out[54]:
name \
174753 瓜州县常捷棉业有限责任公司雁湖籽棉收购点
181894 湖口顺丰物流运输有限公司兰州分公司
580521 如东县生产资料服务公司
614729 南宁市澳特包装机械有限公司
615393 潮州市泽盛展陶瓷有限公司
633823 昌邑市翔达实业有限公司
650103 上海环五电子科技有限公司
852180 美最时洋行(上海)有限公司
857616 湖北三新硅业有限责任公司瓜州县分公司
858988 兰州玛雅驾驶员培训服务有限公司小西湖店
888612 湖南五川锦和营销策划管理有限公司兰州分公司
1159272 江西省建工集团有限责任公司上海分公司
1960731 _0277f2a316b03aa3750ba4d11884cbc6.txt
1960735 _02b2013c02fc06f0c2aec60a3b511ded.txt
1960754 _055148af445401d72278385cbee03e9e.txt
1960778 _089b9036d4f5a130da3e9b087b72e964.txt
1960787 _09aa4d4ed8c4512d57375cc222f917b0.txt
1960788 _09f4d1b2799a1ec8e984a7180d4e9347.txt
1960797 _0aaf5246aac6052d1db8fc7674cf22ad.txt
1960798 _0ac34e6a97a4ea746d3f6b7e859857d6.txt
1960800 _0ae6283a995162227a498cf467dfe993.txt
1960807 _0bb06c400e7480454ba7a2b7ceadf888.txt
1960828 _0d3841940968de1524c60f07d2948e5d.txt
1960833 _0dc67525d11afb03c4aba42d169d9375.txt
1960852 _0fa9d3c9d6bc269eeb70f4ce8039cdda.txt
1960861 _1041cf3f2014c5bf0c0dd721beb9bfc5.txt
1960870 _115f66cf598a20178cc08b21d60f9099.txt
1960871 _119cef964ff80c6817ca3f1660b99da0.txt
1960878 _125b82bee25080e5859cb55febeb3adb.txt
1960891 _136ecdbe2cf57e5d8505ace834ab3e79.txt
直接用语句可以匹配出来所有相符合的,问题是怎么把这些删掉。
In [108]: df[~(df.address.map(lambda x:np.any(map(is_alpabet,x))))]
Out[108]:
name address
1 亿茂物业管理有限公 杭州市西湖区黄姑山路29号颐高创业园
4 中国大恒(集团)有限公司北京图文设计制作第一分公司 北京市海淀区中关村东路84-7号
5 北京麦思奇高科技有限公司 北京市东城区忠实里南街甲6号楼410室
6 北京市捷特派努软件开发中心分部 北京市海淀区魏公村小区13号楼2门1
7 海之语(北京)信息技术有限公司 北京市朝阳区北苑路168号1号楼9层909号
9 北京奥科物联信息科技有限公司 北京市昌平区政法大学东侧松园小区
10 上海恒瑞网络信息有限公司北京分公司 北京市朝阳区霄云路21号1幢三层(麦子店孵化器0650号)
11 北京贸促通国际资讯有限公司 北京市海淀区广源闸5号1幢7层701-031
12 北京中视华业网络技术有限公司 北京市海淀区花园北路14号院内综合楼二层东侧办公楼
14 北京海华通信有限责任公司 北京市海淀区马甸东路19号9层1021
15 北京侯氏图文设计制作有限公司石景山分公司 北京市石景山区古城北路甲3号
16 北京中金易联科技有限公司 北京市北京经济技术开发区经海2路29号院7号楼202-6
17 北京宗宇图文设计有限公司 北京市密云县溪翁庄镇环湖路66号镇政府1号楼110室-465
18 北京宏盛世纪货物运输有限公司 北京市朝阳区小红门乡南四环成寿寺路308号城外诚商务楼四层2071号
19 北京强立顺达货物运输服务有限公司 北京市朝阳区管庄乡1号1幢2层2088号
20 北京京北兄弟搬家服务有限公司 北京市昌平区东小口镇天通东苑一区33号楼8内2层205
21 北京天拓道路养护有限公司 北京市密云县古北口镇古御路外街11号镇政府办公楼212室-772
22 北京宣联停车服务有限责任公司朝阳分公司 北京市朝阳区望京西路甲50号1号楼7层(新企航孵化器203号)
23 北京飞天下票务服务有限公司 北京市北京经济技术开发区文化园西路8号院24号楼11层1202
24 北京汇通天下货运代理有限公司 北京市朝阳区小红门乡南四环成寿寺路308号城外诚商务楼四层1198号
25 北京赛普瑞丝国际物流有限责任公司 北京市顺义区南法信镇金关北二路2号院1号楼636室
26 北京顺宇通达货运代理有限公司 北京市平谷区镇罗营镇镇罗营东街5号
27 北京中通货运代理有限公司 北京市平谷区镇罗营镇镇罗营东街5号
28 北京顺世丰达货运代理有限公司 北京市朝阳区小红门乡南四环成寿寺路308号城外诚商务楼四层1393号
29 北京福睿兄弟搬家服务有限公司 北京市丰台区南四环西路188号十五区5号楼603
32 北京天缘顺心搬家有限公司 北京市昌平区沙河镇松兰堡村西北京金沙河酒店1层8137
33 北京德邦货运代理有限公司海淀第一分公司 北京市海淀区上庄镇上庄村甲2号一层2号
35 北京豪泰畅顺物流有限公司 北京市北京经济技术开发区文化园西路8号院33号楼23层2703
36 北京中智隆兴物流有限公司 北京市昌平区城南街道凉水河路1号院2号楼7层713
38 北京聚银兴装卸服务有限公司 北京市顺义区张镇北营村东路13号
... ... ...
5723295 太原华为技术有限公司 未公开
5723296 鄂州市华为科技咨询有限公司 鄂州市孙权路弘华园东侧裙楼2-44号门面
5723297 夏新春 洲头乡下夹村
5723298 夏新生421122600376268 红安县觅儿寺镇中分湾村
5723299 黄夏新 上海市崇明县长兴镇上海丁丰电器厂
5723300 夏新科技有限责任公司 厦门市软件园观日路22号4楼
5723301 温州星威春兰贸易有限公司 温州市城南大道银都花苑现代小区5幢107-108室
5723303 深圳市春兰交家电有限公司 深圳市龙岗区布吉下水径二区7巷5号106(办公住所)
5723304 青岛西兰花文化传媒有限公司 山东省青岛市城阳区正阳路196号国际商务港522室【151104】(集中办公区)
5723305 青岛啤酒股份有限公司长春分公司 长春市绿园区乐园小区3号楼
5723306 青岛啤酒股份有限公司市北销售分公司 青岛市市北区登州路56号综合楼205室
5723307 青岛啤酒股份有限公司沈阳分公司 沈阳市和平区砂山街20号
5723308 青岛啤酒股份有限公司青岛啤酒一厂 未公开
5723309 青岛啤酒股份有限公司海口分公司 海口市华海经贸大厦首层
5723310 青岛啤酒集团有限公司 青岛市市南区香港中路五四广场青啤大厦
5723311 贵州茅台酒厂(集团)绿生有机肥有限责任公司 贵州省遵义市播州区鸭溪镇金刀村
5723312 贵州茅台酒厂(集团)物流有限责任公司 贵州省遵义市仁怀市坛厂镇工业园区
5723313 中国贵州茅台酒厂(集团)文化旅游有限责任公司 贵州省贵安新区湖潮乡湖潮乡集镇
5723314 德隆国际战略投资有限公司 上海市浦东新区源深路1155号
5723315 北京团河创维物业管理中心 北京市大兴区团河路33号
5723316 北京易车酷科技有限公司 北京市平谷区平谷镇府前西街40号205室
5723318 南京苏宁易购超市有限公司采购分公司 南京市雨花台区龙藏大道2号
5723319 海南人人医疗设备有限公司 海南省海口市美兰区南宝路3号南宝电脑城732房
5723320 深圳市人人投资担保有限公司 深圳市宝安区沙井街道北环路新桥综合大楼鸿安商业中心4-12楼7楼709
5723324 广州人人管理咨询有限公司 广州市天河区黄埔大道西路120号27层2701(仅限办公用途)
5723325 大兴安岭人人微店电子商务有限公司 黑龙江省大兴安岭地区加格达奇区曙光生态家园27号楼西5单元一层西
5723327 广西人人催科技有限公司 钦州市新兴街46号华坚青城中央广场第5幢809号
5723328 上海人人咨询服务有限公司 上海松江洞泾私营经济开发区
5723329 湖南巨人网络科技有限责任公司 湖南省株洲市天元区泰山西路智商科技大厦1楼开放式办公区25号
5747794 禹城市富华樱食品有限公司 山东省德州市禹城市高新技术开发区东街延长线东首路南

[4958009 rows x 2 columns]

In [109]: df1=df[~(df.address.map(lambda x:np.any(map(is_alpabet,x))))]

In [110]: df1.to_csv("name_address.txt",sep='|',encoding='utf8')
利用这个方式来吧没有英文字的匹配出来,有几个要点:
1.“~”符号表示“非”的意思
2.map表示传递lambda匿名函数
3.numpy的any表示只要有一个元素相等就可以反回True,any里面的参数类似一个列表 列表每个元素都是True or False,map函数返回的结果恰好是个列表
4.x是lambda的形式参数
原创粉丝点击