Python 数据处理实践(1)--遍历文件和map()函数

来源:互联网 发布:淘宝宝贝名称规则 编辑:程序博客网 时间:2024/06/03 03:50

遍历文件

这个函数可以用来列出给出路径下所有的文件

def itgf(basicDir): #输入文件路径       list = os.listdir(basicDir)      fileList = []   #使用一个列表存储当前路径下所有的文件              for i in range(0, len(list)):        path = os.path.join(basicDir,list[i])        if(os.path.isfile(path)):                fileList.append(path)        elif(os.path.isdir(path)):             fileList.extend(itgf(path))    return fileList

获取文件路径对应的文件名:

name = os.path.basename(path)

关于os.path , 可以参考os.path

pandas库在数据处理当中非常有用。

对于pandas中的dataFrame,如果要进行大规模的类似的操作,使用for循环进行操作会使得代码块看起来太过繁杂。

因此,使用map函数很有用:
例如,对整列的数据进行操作

#df是一个dataFrame,df['xxx']存储了文件名(含有后缀)df['xxx'].map(lambda x: ''.join(x.split('.')[:-1]))

这个函数可以获取df[‘xxx’]存储文件名对应不含后缀的文件名