Python3学习笔记7-文件的读写

来源：互联网发布：解压缩软件密码破解编辑：程序博客网时间：2024/05/22 12:50

搜索Python文件的读写。发现一篇文章，介绍了
Comma-separated values(CSV)
XLSX
ZIP
Plain Text (txt)
JSON
XML
HTML
Images
Hierarchical Data Format
PDF
DOCX
MP3
MP4
文件类型和Python对这些文件的读写。

CSDN上kevinelstri作者的译文：
使用python读取数据科学最常用的文件格式
http://blog.csdn.net/kevinelstri/article/details/61921812

原文地址：
How to read most commonly used file formats in Data Science (using Python)?
https://www.analyticsvidhya.com/blog/2017/03/read-commonly-used-formats-using-python/

CSDN上有好多好文章，天哪

以后会经常用到的文件读写应该是CSV文件，XLSX文件，TXT文件JSON文件
HTML文件。

pandas( powerful Python data analysis toolkit)模块可以实现CSV，XLSX，JSON文件类型的读写等操作。
pandas官方文档：http://pandas.pydata.org/pandas-docs/stable/

HTML文件是爬虫的目标。urllib，BeautifulSoup，Scrapy等模块都可是实现HTML文件的读写等操作。

Python爬虫一般需要掌握网页抓取原理及技术，了解基于Cookie的登录原理，熟悉基于正则表达式、XPath、CSS等网页信息抽取技术；了解多线程、多进程、网络通信编程相关知识，有分布式爬虫架构，数据挖掘经验；使用scrapy等爬虫框架；

以后系统学习爬虫再好好整理学习笔记。

最近赶紧看Web开发，学好flask，MySQL，bootstrap这些。
赶紧找到工作啊啊啊啊

Beginner’s guide to Web Scraping in Python (using BeautifulSoup)
https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/

Scrapy documentation:
https://docs.scrapy.org/en/latest/

Github repository
scrapy
https://github.com/scrapy/scrapy

阅读全文

0 1