python爬虫入门
来源:互联网 发布:软件开发xyhlrj 编辑:程序博客网 时间:2024/05/16 16:19
1. 从guthub项目地址下载项目源码,请支持作者本人。
2. 安装提到的各种库。
Python爬虫入门八之Beautiful Soup的用法
.Python之lxml库学习笔记一
安装libxml2-python-2.7.7.win32-py2.7.exe
安装request
顺便学习一下beautiful soup的用途:Beautiful Soup 4.2.0 文档¶
3. 安装mysql
安装MYSQL,net start mysql 启动报错:
报错1,系统找不到指定的文件。
解决方案:根据错误日志,修改注册表。
因为解压版没有像安装版 那样指定目录,所以需要更改注册表:把注册表里的路径改为自己解压缩后Mysqld.exe所在的文件路径。
修改注册表有三种方式:怎么修改注册表。我选择用windows的注册表修改器--regedit.exe:
HKEY_LOCAL_MACHINE-SYSTEM-CurrentControlSet-services-mysql(服务名)-ImagePath
更改为:"C:\Program Files\MySQL\bin\mysqld" --defaults-file="C:\Program Files\MySQL\my.ini" mysql
显示:MySQL 服务正在启动 ..MySQL 服务已经启动成功。成功解决。
配置环境变量:将c:\mysql\bin 路径加入path,可以直接启动mysql。
MySQL服务的启动、停止与卸载
启动: net start MySQL
停止: net stop MySQL
设置密码:mysql> set password='XXX';
报错2:ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number
问题原因:你输入的密码是明文。不允许这么输入。
解决办法:用select password('你想输入的密码');查询出你的密码对应的字符串,然后用这个字符串在创建用户命令中替换你的密码。
--本地连接 :mysql –uroot -p
--远程连接 :mysql –uwgb –hXXX.XXX.XXX.XXX –p
安装python-mySQl:MySQL-python 1.2.3 for Windows and Python 2.7, 32bit and 64bit versions
4. 直接粗暴地获取cookie
5. 修改config.ini文件,运行init.sql文件:mysql>source d:\test\ss.sql 或者 mysql>\. d:\test\ss.sql
6. 报错3:ConfigParser MissingSectionHeaderError: File contains no section headers.
需要修改配置文件中的数据库连接等相关信息,修改后执行程序,调试程序后发现文件头部被追加了信息:\xef\xbb\xbf,然后ConfigParser解析出错
google了下\xef\xbb\xbf,
解决:替换开头。在window下面用记事本编辑文件的时候,如果保存为UNICODE或UTF-8,分别会在文件的开头加上两个字节“\xFF\xFE”和三个字节“\xEF\xBB\xBF”。
content = open('BaseConfig.cfg').read() #Window下用记事本打开配置文件并修改保存后,编码为UNICODE或UTF-8的文件的文件头 #会被相应的加上\xff\xfe(\xff\xfe)或\xef\xbb\xbf,然后再传递给ConfigParser解析的时候会出错 #,因此解析之前,先替换掉 content = re.sub(r"\xfe\xff","", content) content = re.sub(r"\xff\xfe","", content) content = re.sub(r"\xef\xbb\xbf","", content) open('BaseConfig.cfg', 'w').write(content)
7.报错4:解决UnicodeEncodeError: 'ascii' codec can't encode characters in position问题
解决方案:在开头加上:
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
- Python爬虫 | Python爬虫入门
- python爬虫入门简单爬虫
- Python爬虫入门
- Python爬虫入门
- Python爬虫入门基础
- 如何入门 Python 爬虫?
- python 爬虫入门
- 如何入门 Python 爬虫?
- Python 爬虫入门《上》
- Python 爬虫入门《中》
- Python爬虫入门 《下》
- python 爬虫入门
- python爬虫入门
- Python爬虫入门
- Python 爬虫入门实例
- 爬虫入门:Python
- 如何入门 Python 爬虫?
- [Python]爬虫入门
- jsp中request传递参数汉字乱码
- java 生成条形码
- Android EditText imeOptions属性详解
- jquery删除、清空<div>之间的内容---empty()与remove()区别
- c语言中内存的划分
- python爬虫入门
- 第八周
- CentOS防火墙中打开指定的端口
- 0014完整的单链表节点类声明
- XMPP框架 微信项目开发之CoreData学习——CoreData的基本使用
- 第十一周 项目1 层次遍历算法
- 几个常用的tomcat bat命令
- 20151102 oracle sga管理,oracle临时表
- [DB那些事]数据库加密