python网络数据采集-单选按钮、复选框和其他输入

来源:互联网 发布:mac值是麻醉中什么 编辑:程序博客网 时间:2024/05/29 18:12

       显然,并非所有的网页表单都只是一堆文字字段和一个提交按钮。HTML标准里提供了大量可用的表单字段:单选按钮、复选框和下拉选框等。在HTML5里面,还有其他控件,向滚动条(范围输入字段),邮箱、日期等。自定义的JavaScript字段可谓无所不能,可以实现取色器(Colorpicker)、日历以及开发者能想到的任何功能。

       无论表单的字段看起来多么复杂,仍然有两件事是需要关注的:字段名称和值。字段名称可以通过查看源代码寻找name属性轻易获得。而字段的值有时会比较复杂,有可能在表单提交之前通过JavaScript生成的。取色器就是一个比较奇怪的表单字段,它可能会用类似#F03030这样的值。

       如果你不确定一个输入字段值的数据格式,有一些工具可以跟踪浏览器正在通过网站发出或接受的GET或POST请求的内容。之前提到过,跟踪GET请求效果最好也是最直接的手段就是查看网站的URL。如果URL的链接如下所示:

http://domainname.com?thing1=foo&thing2=bar
你就明白了请求就是下面这种表单:

<form method="GET" action="someProcessor.php"><input type="someCrazyInputType" name="thing1" value="foo"/><input type="anotherCrazyInputType" name="thing2" value="bar"/><input type="submit" value="Submit"/></form>
对应的Python参数是:

{'thing1':'foo','thing2':'bar'}

       如果你遇到了一个看着比较复杂的POST表单,并且想看浏览器向服务器传递了那些参数,最简单的方法就是用Chrome浏览器的审查元素(inspector)或开发者工具查看。

       Chrome浏览器的开发者工具可以在菜单中通过更多工具->开发者工具打开(快捷键F12)。它提供了浏览器与网站交互时产生的所有请求细节,是一种查看请求参数的好方法。



原创粉丝点击