python爬虫入门

来源:互联网 发布:软件开发xyhlrj 编辑:程序博客网 时间:2024/05/16 16:19

1. 从guthub项目地址下载项目源码,请支持作者本人。

2. 安装提到的各种库。

Python爬虫入门八之Beautiful Soup的用法

.Python之lxml库学习笔记一

安装libxml2-python-2.7.7.win32-py2.7.exe

安装request

顺便学习一下beautiful soup的用途:Beautiful Soup 4.2.0 文档¶

3. 安装mysql 

安装MYSQL,net start mysql   启动报错:

报错1,系统找不到指定的文件。

解决方案:根据错误日志,修改注册表。

因为解压版没有像安装版 那样指定目录,所以需要更改注册表:把注册表里的路径改为自己解压缩后Mysqld.exe所在的文件路径。

修改注册表有三种方式:怎么修改注册表。我选择用windows的注册表修改器--regedit.exe:

HKEY_LOCAL_MACHINE-SYSTEM-CurrentControlSet-services-mysql(服务名)-ImagePath

更改为:"C:\Program Files\MySQL\bin\mysqld" --defaults-file="C:\Program Files\MySQL\my.ini" mysql

显示:MySQL 服务正在启动 ..MySQL 服务已经启动成功。成功解决。

配置环境变量:将c:\mysql\bin 路径加入path,可以直接启动mysql。

MySQL服务的启动、停止与卸载

启动: net start MySQL

停止: net stop MySQL

设置密码:mysql> set password='XXX'; 

报错2:ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number

问题原因:你输入的密码是明文。不允许这么输入。

解决办法:用select password('你想输入的密码');查询出你的密码对应的字符串,然后用这个字符串在创建用户命令中替换你的密码。

--本地连接  :mysql –uroot -p  

--远程连接  :mysql –uwgb –hXXX.XXX.XXX.XXX –p 

安装python-mySQl:MySQL-python 1.2.3 for Windows and Python 2.7, 32bit and 64bit versions

4. 直接粗暴地获取cookie

5. 修改config.ini文件,运行init.sql文件:mysql>source d:\test\ss.sql 或者 mysql>\. d:\test\ss.sql

6. 报错3:ConfigParser MissingSectionHeaderError: File contains no section headers.

需要修改配置文件中的数据库连接等相关信息,修改后执行程序,调试程序后发现文件头部被追加了信息:\xef\xbb\xbf,然后ConfigParser解析出错 
google了下\xef\xbb\xbf,

解决:替换开头。在window下面用记事本编辑文件的时候,如果保存为UNICODE或UTF-8,分别会在文件的开头加上两个字节“\xFF\xFE”和三个字节“\xEF\xBB\xBF”。 

    content = open('BaseConfig.cfg').read()    #Window下用记事本打开配置文件并修改保存后,编码为UNICODE或UTF-8的文件的文件头    #会被相应的加上\xff\xfe(\xff\xfe)或\xef\xbb\xbf,然后再传递给ConfigParser解析的时候会出错    #,因此解析之前,先替换掉    content = re.sub(r"\xfe\xff","", content)    content = re.sub(r"\xff\xfe","", content)    content = re.sub(r"\xef\xbb\xbf","", content)    open('BaseConfig.cfg', 'w').write(content)

7.报错4:解决UnicodeEncodeError: 'ascii' codec can't encode characters in position问题

解决方案:在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

0 0
原创粉丝点击