Python3学习笔记7-文件的读写

来源:互联网 发布:解压缩软件密码破解 编辑:程序博客网 时间:2024/05/22 12:50

搜索Python文件的读写。发现一篇文章,介绍了
Comma-separated values(CSV)
XLSX
ZIP
Plain Text (txt)
JSON
XML
HTML
Images
Hierarchical Data Format
PDF
DOCX
MP3
MP4
文件类型和Python对这些文件的读写。

CSDN上kevinelstri作者的译文:
使用python读取数据科学最常用的文件格式
http://blog.csdn.net/kevinelstri/article/details/61921812

原文地址:
How to read most commonly used file formats in Data Science (using Python)?
https://www.analyticsvidhya.com/blog/2017/03/read-commonly-used-formats-using-python/

CSDN上有好多好文章,天哪

以后会经常用到的文件读写应该是CSV文件,XLSX文件,TXT文件JSON文件
HTML文件。

pandas( powerful Python data analysis toolkit)模块可以实现CSV,XLSX,JSON文件类型的读写等操作。
pandas官方文档:http://pandas.pydata.org/pandas-docs/stable/

HTML文件是爬虫的目标。urllib,BeautifulSoup,Scrapy等模块都可是实现HTML文件的读写等操作。

Python爬虫一般需要掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术;了解多线程、多进程、网络通信编程相关知识,有分布式爬虫架构,数据挖掘经验; 使用scrapy等爬虫框架;

以后系统学习爬虫再好好整理学习笔记。

最近赶紧看Web开发,学好flask,MySQL,bootstrap这些。
赶紧找到工作啊啊啊啊

Beginner’s guide to Web Scraping in Python (using BeautifulSoup)
https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/

Scrapy documentation:
https://docs.scrapy.org/en/latest/

Github repository
scrapy
https://github.com/scrapy/scrapy

原创粉丝点击