python爬虫进阶(十一):分布式数据库架构分析、优化及要点

来源:互联网 发布:云计算优点图片 编辑:程序博客网 时间:2024/06/05 04:25

说明:本篇主要是概念性的东西,主要是课程内容。


一、数据库常见概念


1、锁


(1)表级锁:表锁是开销最小的锁策略,会锁定整张被访问到的表。写之前要获得写锁,会阻塞其它所有的读写操作;读锁属于共享锁,读互相之间不阻塞;写锁的优先级高于读锁,也就是说在排队序列中,写的操作会被插入到读之前。

(2)行级锁:行锁可以最大程度支持并发处理,但同时增大了锁开销。行级锁只在存储层实现。

例如:InnoDB支持行级锁,更安全,myisam只支持表级锁。


2、事务


事务是数据库中的原子操作,不管要操作的数据在一个或多个数据库中。事务中所有语句的结果要么全部提交(操作正常),要么全部回滚(操作失败,不改变原来状态)。

Atomicity:原子性。一个事务被视为一个不可分割的最小单元。

Consistency:一致性。数据库总是从一个已知悉状态转换到另一个一致性状态,例如执行过程崩溃,数据库的状态并不会发生变化。

Isolation:隔离性。一个事务所做的修改在最终提交前,对其它事务是不可见的。

Durability:持久性。一旦事务提交,则其所有的修改就会永久保存到数据库,此时即使系统崩溃,数据也不会丢失。


3、死锁


死锁是指的多个事务在同一资源上相互占用,并请求锁定对方占用的资源,例如以下两个事务:



如果正好第一行被执行完,并导致行被锁,那么彼此第二行都无法运行。InnoDB有很强的机制来检测,但我们必须意识到这样的问题是可能出现的。


4、AUTOCOMMIT


MySQL默认采用自动提交,也就是默认把每个没有显示声明为事务的查询,当成一个一个独立的事务执行提交。

show variables like ‘AUTOCOMMIT’

如果设置为AUTOCOMMIT = 0,那么所有查询都在同一个事务中,必须使用commit提交或者rollback回滚。


二、MySQL的数据存储结构


1、InnoDB存储框架




(1)一张表存储在一个或多个文件里

(2)表包含多个segment,索引、数据、回滚记录等都是独立的segment

(3)每个segment包含多个extent

(4)extent包含64个page

(5)每个page包含若干row

(6)每个row包含了数据域


2、InnoDB


(1)主键索引既存储索引值,又在叶子中存储行的数据

(2)如果没有主键,则会unique key 做主键

(3)如果没有unique,则系统生成一个内部的rowid做主键

(4)次索引需要同时存主键ID

(5)像InnoDB中,主键的索引结果中,既存储了主键值,又存储了行数据,这种结构称为“聚簇索引”

(6)对主键查询有极高的性能,但是二级索引必须包含主键列,因此如果主键列很大,其它的索引都会很大

(7)支持事务,行级锁,颗粒度小,并发好,但是加锁过程更复杂

(8)崩溃后可以安全恢复


3、myisam


(1)不支持事务,不能安全恢复

(2)表级锁,读的时候所有读到的表加共享锁,写的时候加排他锁

(3)加锁效率高,并发支持效率低

(4)支持前文索引(基于分词),可以支持复杂字段

(5)可以延迟更新索引键,如何设置了delay_key_write,每次修改完成时不会立即将修改的索引数据写入磁盘,而是会写入缓冲区,因此能提高性能,但是崩溃的时候索引会被损坏。

(6)设计简单,数据紧密格式存储,某些场景下性能很好


4、选择合适引擎


(1)默认应选择InnoDB

(2)一般不应使用混合引擎存储

(3)如果需要事务,InnoDB是最稳定的;如果主要是select或者insert,那么myisam也许更合适,例如日志类型的应用

(4)需要热备份的话,应该用InnoDB

(5)重要数据应该InnoDB存储(能恢复),myisam崩溃后损坏概率比InnoDB大得多

(6)大多数情况下,InnoDB远远比myisam要快

(7)只读的表,优先考虑myisam,会快很多


5、char / varchar


(1)char会分配固定长度的空间,使得结构更加固定,尤其是在update的时候,没有额外的开销,对于很长的字符串,用char会造成空间的浪费

(2)varchar可以分配变长的空间,因为空间更加紧凑,根据实际需要来,但是当一个页满的情况下,update更新会造成很大的负担,myisam会把行拆成不同的片段拆成,而InnoDB则会分页

(3)varchar(5)比varchar(200):如果都存储hello这个字符串,空间开销一样,但是更长的列会消耗更多的内存,尽量按照实际需求来设计


6、Schema设计要点


(1)避免太多的列:存储引擎API需要在服务器层与存储引擎层通过行缓冲格式拷贝数据,然后在服务器层讲缓冲内容解码成各个列。从行缓冲中奖编码过的列转换成行数据结构的代价是非常高的,它依赖列的数量

(2)太多的关联:MySQL限制了最多关联为61张表

(3)避免使用null:对于索引列使用null,会带来存储以及大量优化问题

(4)汇总表:把一些历史汇总数据,离线或定时汇总,最后总的结果是汇总结果加上当前的结果。例如个人的消费总额,可以把过去每个月的汇总,然后加上本月从1号到现在的sum,这样的计算量会极大的减小。代价是写的速度会变慢,每个人的数据都需要定期被更新,但是读的性能得到了极大的提升。在数据库设计的时候,类似的冗余数据、统计结果的缓存往往是必要的


7、B+ Tree



8、多列索引



多列索引可以看成是把多个列拼接在一起后,再排序的数组。


多列索引可以看成是把多个列拼接在一起后,再排序的数组,所以对于and过滤是有用的,而对于or过滤是无用的;

多列索引的顺序对最终的索引有影响,索引首先是按照最左列进行排序(上面例子从左到右是lastname、firstname)。


三、MySQL的查询过程


1、查询流程




》》》客户端发送一条查询给服务器

》》》服务器检查缓存(第一次查询后都会缓存,除非数据更新),如果命中则直接返回

》》》服务器进行SQL解析,预处理

》》》交给优化器生成执行计划

》》》根据优化器生成的执行计划,调用存储引擎API执行查询

》》》结果返回


2、通信协议


(1)半双工的方式通信,意味着任意时刻,要么服务端发送数据,要么服务端接收请求

(2)服务端必须接收完整请求,客户端也必须接收完整结构

(3)很多时候,客户端驱动会先读完数据,缓存到自己的缓存,然后应用层代码从本地驱动缓存读取,这样可能会导致性能降低,可以使用 unbuffered_read 来直接从服务端读取,这样能减少本地驱动层的内存缓存使用,针对特别大的数据结果集会有用


3、查询缓存


(1)缓存是通过一个大小敏感的hash查找实现的,必须完整匹配

(2)如果命中,仍然要检查权限,权限本身也是缓存的

(3)如果都通过,会直接返回结果


4、优化处理


(1)对关键字做SQL解析,生成一棵“解析树”

(2)优化器会尝试多种查询执行方式,来预测执行计划的成本,因此语句要尽量帮助正确预测,否则可能会使用最糟糕的查询方案来执行,有很多的因素,比如并发、统计信息错误、索引预判错误等,导致优化预判不准确

(3)优化器是非常复杂的组件,一般会对关联表的顺序、排序方法、min()、max()、count()等表达式做优化,比如myisam维护了一个变量来存放表的行数,因此count(*)就能直接返回,而不用一个一个去累加


5、错误的优化


当我们要查询多条数据时,会用到 in 操作,然而上面这句并不会先执行划线部分的子查询,而是先执行主查询,然后每次调用子查询。


6、执行及返回


(1)执行阶段只是简单根据执行计划给出的指令逐步执行

(2)如果查询结果可以被缓存,那么在执行完成后结果会放到查询缓存(更新后会消失,直到重新得到缓存)

(3)执行过程中,临时数据集会放到临时结果表,例如关联查询得到的结果,会缓存到一个文件里,然后等到其它关联结果出来后,开始进一步合并、过滤

(4)结果返回给客户端是一个增量的、逐步返回的过程,比如select被命中的结果,如果不需要排序,那么从命中的第一条结果就开始返回给客户端


四、深翻页及优化


1、深翻页查询过程


数据库查询,会优先通过where条件过滤,如果没有设置limit参数,会全部扫描全部数据;一般情况,如果不是GROUP by、sum、count这一类的聚合操作,当limit限制达到后就立即返回不再查询,如果没有limit限制,查询结果会被缓存下来,然后再写入一个缓存文件,然后会对这样的缓存文件再进行归并。



2、深翻页优化


(1)在查询的时候尽量避免这样的深翻页,一般人类的行为不会需要进行深翻页

(2)如果不得不做深翻页,比如skip前800个结果,尽量考虑增加冗余列,例如用冗余列来标记当前结果的ID好,然后通过where来帮助过滤,或者用时间来做偏移量的分割等,总之,使用参数来帮助过滤




原创粉丝点击