python分析数据的处理过程及总结

来源：互联网发布：算法工程师英文编辑：程序博客网时间：2024/06/06 02:02

从昨天开始，老大给我们布置了一个抓取autohome的网页中车的数据的任务。这个任务作为我们学习正则表达式的实践作业，在学习之后再去以小组为单位设计抓取网页的软件的框架。

昨天上午我调试通过了javascript、ajax的代码，使得网页具有通过后台检测用户名是否可用的功能。这样用掉一上午的时间后，下午开始学习正则表达式。刚开始看的时候，只是浏览了几遍包含的符号要素，初步产生这个内容包括哪些要素的印象。之后开始对数据进行分析。起初程序没有办法反馈给我结果。我就不知道什么原因！在那乱改问题，之后的结果证明我这段时间完全是没有改对地方。后来突然来了感觉，觉得自己应该用独立的测试用例去测试每个代码段，然后定位问题修改问题，将内容搞定了。

今天去抓autohome的数据，我一直在用http的协议在抓数据，然后有一个点就很麻烦，在url之外还要去写get语句。我正纠结的时候，有个朋友过来告诉我这边有个简单的方法可以解决这个问题，用python中自带的urllib这个包就可以解决问题。我瞬间就无语了，这尼玛。后来才知道，在前期调研的时候，就应该把所有的相关功能的要素扫描一遍，不能遗漏任何要素，下次再遇到问题去查找的时候，脑中就大致有个查找的范围和地图，这样不至于被一些错误的信息干扰，走弯路。

在之前就一直在优化代码，把代码写成函数啊之类的，这违反了学习阶段但要素尝试探索的原则啊。学习阶段就应该往程序里堆代码，把功能实现了，知道有哪些要素或函数可以对这个结果产生影响了。然后再根据这些要素的具体影响，去合理的优化代码，用设计模式来搞定。如果都不知道有哪些要素会影响到代码，而提前的去优化的话，结果发现新内容要素的时候，还得重新优化。这样之前的时间就浪费了啊。注意到这个习惯。

致于性能优化，和某些方法出现问题的原因，得功能实现了，所有的影响要素都找到了和所有要素的影响方法都找到了，此时再去处理效果才好。因为，如果没有考虑到某些要素，可能现在优化所做的工作与之后出现的某些要素冲突。这样现在优化好了，之后新要素加入后又会出现很多问题，这样又要重新优化，造成之前的工作时间大大浪费。节约时间，并提高性能才是学习的最终目标。先优化后功能产生的代码结构，不稳定，没有办法处理新要素加入时的情况。因而得逐步稳定的搭建，从功能实现到代码优化。

经过这次问题应该注意到一些习惯性的问题。并加以改正。在全神贯注投入到任务当中的时候，很难跳出这个任务范围内包含的要素去考虑范围外的要素对当前程序或结构具有的影响。基于这个假设，应该在全神贯注投入之前，有一个全面的调研，将所有的要素均浏览一遍，这样有利于全神贯注后跳出当前程序去思考范围之外的要素对其产生的影响。

data=r'aaaa'

在这里字符串前的字母r，貌似代表的是读的类型；如果是u的话，则代表编码格式（待确认）

网上的某个大神写的相关内容：

http://www.360doc.com/content/12/0317/00/820209_195045894.shtml