Essential SICP Primer

来源:互联网 发布:台湾bgo有假货吗 知乎 编辑:程序博客网 时间:2024/04/27 16:53

综述
本书以Lisp语言本身为例,完整而辨证的讲述了“计算机程序”的各种形而上形而下的问题:

  • 程序语言本身的要素(原语、组合手段、抽象手段)
  • 程序的计算模型(代换模型、环境模型,迭代、递归)
  • 程序的世界观(对象式、函数式)
  • 程序如何繁殖进化(元语言抽象)
  • 程序如何执行(编译、解释)

同时阐述了程序设计中常用的几大关键技术:

  • 寄存器与堆栈的使用(目前多数计算机的基本抽象)
  • 数据导向与通用型计算(涉及高阶过程,数据与过程的统一)
  • 并发程序设计(模型与时序的冲突)
  • 历史记忆法(即缓存)
  • 应用序与正则序,及背后的惰性求值/延时求值方法论
  • 迭代与尾递归的转换

后两种看似只是一种优化技术,实际上不止如此,它们牵扯到程序的合法性,运行结果的可预期性

还有几种特殊的程序设计技术:

  • 模拟时间分叉的非确定性计算
  • 模拟逻辑推理的逻辑程序设计
  • 模拟数学公式的约束系统设计

一、语言要素
每一种强有力的语言都提供了三种机制:

  • 基本表达形式,用于表示语言所关心的最简单的个体
  • 组合的方法,通过它们可以从较简单的东西出发构造出复合的元素
  • 抽象的方法,通过它们可以为复合对象命名,并将它们当作单元去操作

二、数据与过程的统一
第一级元素的特权:

  • 可以用变量命名
  • 可以提供给过程作为参数
  • 可以由过程作为结果返回
  • 可以包含在数据结构中

Lisp给了“过程”完全的第一级状态,而一般而言,我们可以将数据定义为:

  • 一组适当的构造函数(必选)和选择函数(必选)及改变函数(可选)
  • 为使这些函数成为一套合法表示,它们就必须满足的一组特定条件

这样,数据与过程在Lisp中就完全统一了

三、并发、时间与通信
并发的基本现象是共享状态在不同进程间的同步,或迫使进程间通信所产生的事件按照某种特定的顺序进行;

从本质上看,在并发控制中,任何时间概念都必然与通信有内在的联系;

有意思的是,时间与通信之间的这种联系也出现在相对论里,在那里的光速(可能用于同步事件的最快信号)是与时间和空间有关的基本常量;

在处理时间和状态时,我们在计算模型领域所遭遇的复杂性,事实上可能就是物理世界中最基本的复杂性的一种反映

四、对象模型与函数式模型
从一个复杂过程中的一部分的观点出发,其它的部分看起来正在随时间变化,它们有着隐蔽的随时间变化的局部状态;

如果我们希望去写程序,在计算机里用某种结构去模拟现实世界中的这类自然分解,那么就会做出一些不是函数式的对象--它们必须随着时间不断变化;

我们用局部状态变量去模拟状态,用对这些变量的赋值模拟状态的变化;

在这样做的时候,就是在用计算执行中的时间去模拟我们所在的世界里的时间,也就是把“对象”弄进了计算机。

用对象来做模拟是威力强大的,也很直观,这一情况的主要根源,就在于它非常符合我们对自己身处其中并与之交流的世界的看法;

然而,正如我们已经反复看到的这种模型也产生了对于事件的顺序的依赖,以及同步多个进程的棘手问题

避免这些问题的可能性推动着“函数式程序设计语言”的开发,这类语言里根本不提供赋值或者变动对象,在这样的语言里,所有过程实现的都是它们参数上的定义良好的数学函数,其行为不会变化;

物理世界中也有这样的例子,当我们观察一个正在移动的粒子时,我们说该粒子的位置(状态)正在变化,然而,从粒子的世界线的观点看,这里根本就不涉及任何变化。

然而,如果我们贴近观察,就会看到与时间有关的问题也潜入了函数式模型中,原因在于函数式模型与时间无关的特性是将提供时态、时序的责任推给用户方实现的,当用户方无法提供时态时,又要重新引入函数式风格致力消除的同一个问题。

我们可以将这一世界模拟为一集相互分离的,受时间约束的,有局部状态的,相互交流的对象,或者也可以将世界看作一个大函数,是单一的,无时间的,无状态的统一体

对象模型对世界的近似在于将其分割为独立的片断,函数式模型则不是沿着对象间的边界去做模块化。

当对象间不共享的状态远远大于它所共享的状态时,对象模型就特别好用。

这种对象观点失效的一个地方是量子力学,在那里将物体看作独立的粒子就会导致悖论和混乱。

将对象观点和函数观点统一起来可能与程序设计关系不大,而是与基本认识论有关。

每种观点都有其强有力的优势,但就其自身而言,又没有一种方式能够完全令人满意,我们还在期待着一个大统一的出现。

五、元语言抽象与通用机器
这里的深刻思想是,任一求值器都能模拟其它的求值器;

这样,有关“原则上说什么可以计算”的概念(忽略掉所有有关时间和空间的实践性问题)就是与语言或计算机无关的了;

它反映的是一个有关“可计算性”的基本概念;

这一思想第一次是由图灵阐述的;

图灵给出了一种简单的计算模型--现在被称为图灵机--并声称,任何“有效过程”都可以描述为这种机器的一个程序;

图灵而后实现了一台通用机器,即一台图灵机,其行为就像是所有图灵机程序的求值器。

六、编译与解释
编译可以大大提高程序执行的效率,解释则为程序开发和排除错误提供了一个更强大的环境,因为被执行的源代码在运行期间都是可用的,可用去检查和修改,此外,由于整个基本操作的库都在那里,我们可以在排除错误的过程中构造新程序,随时把它们加入系统中;

由于看到了编译和解释的互补优势,现代程序开发环境很推崇一种混合的策略,使得解释性程序和编译性程序可以互相调用;

这就使程序员可以编译那些自己认为已经排除了错误的部分,从而取得编译方式的效率优势,而让那些正在进行交互式开发和排错的,还在不断变化的程序部分的执行仍然维持在解释模式中;

还可以使程序员根据实际问题选择最合适的语言。


---------------------------------------------

 

1,John Locke:有关人类理解的随笔,1690

心智的活动,除了尽力产生各种简单的认识外,主要表现在如下三个方面:

1)将若干简单的认识组合为一个复合认识,由此产生出各种复杂的认识;

2)将两个认识放在一起对照,不管它们如何简单或者复杂,在这样做时并不将它们合而为一;由此得到有关它们的相互关系的认识;

3)将有关认识与那些在实际中和它们同在的所有其它认识隔离开,这就是抽象,所有具有普遍性的认识都是这样得到的。

呵呵,和面向对象者爱引用的差不多:
在大英百科全书关于“分类学理论”中提出:

人类在认识和理解现实世界的过程中,普遍运用着三个构造法则:

区分对象及其属性,例如,区分一棵树和树的大小或空间位置。

区分整体对象及其组成部分,例如,区分一棵树和树枝。

不同对象类的形成及区分,例如,所有树的类和所有石头的类的形成和区分 

2,(+ (* 3 5) (- 10 6) )

虽然与人们的习惯相背,但却几乎是对解释器来说最容易实现的一种语法,形式完全统一;

没有优先级,括号是唯一的优先级;

任何复杂的表达式都可以由最简单的表达式组合(Composite)而成;

在主流高级语言中,只能通过函数对象来模拟得到类似的表达式

 

3,甚高级语言

说明性描述和行动性描述有着内在联系,就像数学和计算机科学有着内在联系一样;

有一个当前在程序设计语言设计领域中很重要的问题,那就是所谓的甚高级语言,在这种语言里,编程就是写说明性的语句;

这里的想法是将解释器做的足够复杂,程序员描述了需要“做什么”的知识后,这种解释器就能自动产生出“如何做”的知识;

一般而言这是不可能做到的,但在这一领域已经取得了巨大进步;

DSL有一定的联系

 

1,线性迭代(尾递归),线性递归,树型递归

2,lambda

匿名过程,直接以过程体表示过程,可用于以更加自然的方式来表示表达式

3,第一级元素的特权

可以用变量命名
可以提供给过程作为参数
可以由过程作为结果返回
可以包含在数据结构中

Lisp给了“过程”完全的第一级状态,C++则给了函数指针、函数对象完全的第一级状态

4,数据抽象

将数据对象的表示或说实现,与对数据对象的使用分开

 

1,闭包

是否可理解为Lisp对Composite Pattern的显式支持

2,基础通用结构

list,tree;tree可以看作list的composite

3,基础通用操作

参数形式上的统一,使定义通用操作成为可能;返回值形式上的统一,使定义操作序列成为可能(Pipe Pattern)

统一的参数和返回值形式是list(C++里则是iterator的区间)

数据的序列用list表示,操作序列是否也可以用list表示?或许前文已经提到了我忘记了,或许后文还会说明;C++标准库尚未提供对操作的composite的支持,boost里有所涉及,但在Lisp里面,估计是很自然的支持

目前涉及的通用操作已经有filter,map,accumulate,foreach等;filter和map可用在Pipe中间,但accumulate的返回值不保证是list,所以可能只能用在Pipe的末端;foreach干脆就没有返回值

———————————————————— 

1,语言要素

在描述一种语言时,应将注意力集中到语言的基本原语,它的组合手段,以及它的抽象手段,这是最重要的;

2,强健设计的语言层次

分层设计:一个复杂的系统应该通过一系列的层次构造出来,每个层次上所用的语言都提供了一些基本元素、组合手段、还有对该层次的细节做抽象的手段,即每个层次都为表述系统的特征提供了一套独特词汇,以及一套修改这一系统的方式;

正交设计:分层是因为目前的语言提供的连接手段是“调用”,如果语言能够提供“调用”之外的其它手段,如“织入”,则可能在分层的体系结构之外出现正交的体系结构;

3,Huffman编码与二叉树

待解决问题与所选数据结构的完美搭配

4,begin

即序列求值,C++中则是逗号表达式

5,树结构的缺点

叶子只能属于一个分支

6,函数式程序设计与命令式程序设计

不用任何赋值的程序设计称为函数式程序设计;与之相对应的,广泛采用赋值的程序设计被称为命令式程序设计

7,引用透明性与别名

如果一个语言支持在表达式里“同一的东西可以相互替换”的概念,这样替换不会改变有关表达式的值,这个语言就称为是具有“引用透明性”;一个计算对象可以通过多个名字访问的现象称为“别名”

8,同一与等价

“同一”在实现中往往是指向同一块存储的多个别名;“等价”则往往是指向多块存储的不同对象,但它们在计算中可以相互替换而不影响表达式的值;同一比等价更为严格

9,引用对象与值对象

在系统计算中需要必须是“同一”对象的,往往用引用对象来实现,此时对象有全局唯一ID,缺省即存储地址;

在系统计算中需要“等价”对象即可的,往往用值对象来实现,此时对象的存储地址无关紧要,这类对象常见有货币等

10,有状态与无状态

内部状态随时间变化的,称为有状态,反之为无状态;

时间是本质问题,有状态对象在并发系统中存在严重缺陷

有状态对象往往需要“同一性”,无状态对象往往“等价”即可

11,过程与数据

真实的情况是,在一个可以将过程当作对象的语言里,在“过程”和“数据”之间并没有本质性的差异,因此我们可以自由选择自己所需的语法糖衣,以便按自己选定的风格去做程序设计

 

1,并发

有共享资源的系统中,不可避免的问题

串行化只是解决并发的一种方法,并且会带来不可避免的死锁问题

2,流

概念上不同于表,实现上可以看作是采用了“延时求值”的表

3,状态

可以表示为值的“没有时间”的流

4,流的应用

替换迭代模型,替换局部状态,无穷流,表列(即流的流的流...)

5,流与状态

无状态的流可构造出有状态的系统,原因在于将提供时态的责任推给了用户方

6,对象与函数式

一种将世界模拟为一集相互分离的,受时间约束的,有局部状态的,相互交流的对象

一种将世界看作一个大函数,是单一的,无时间的,无状态的统一体

 

1,应用序与正则序

惰性求值/延时求值不止带来性能上的优化,更带来行为本质上的变化

2,非确定性计算

将选择与回溯机制隐藏在语言内部,可轻松解决诸如21点之类的问题,因为“描述即解”

3,规则

一条规则就是一个逻辑蕴含:如果对所有模式变量的一个赋值满足规则的体,那么它就满足其结论;规则的体可以看作一组条件的组合,规则的结论可以看作对满足这组条件的实例进行的描述

4,合一

模式匹配的一种推广,即为了找出查询时应该使用哪条规则,而找出规则结论与查询条件能够模式匹配的那条规则

5,逻辑程序设计的目标

为程序员提供一种技术,它能将计算问题分解为两个相互分离的问题:“什么”需要计算,以及“如何”进行这一计算;通常“如何”进行计算便是一组规则,“什么”需要计算便是规则的结论,从使用者的角度来说,对规则的“描述即解”,SQL应该是一种典型的应用

6,not

逻辑程序设计语言里的not反映了一种所谓的“封闭世界假说”,它认为所有有关的知识都已经包含在所用的数据库里了

 

1,receive返回多个值

采用了多个容器做参数的方式

2,垃圾收集

停止并复制法,标记并清除法

3,尾递归

与惰性求值一样,尾递归的优化并不止是一种优化,而可能改变运行时行为,如使用常量空间,否则可能耗尽系统空间

4,编译与解释

编译可以大大提高程序执行的效率,解释则为程序开发和排除错误提供了一个更强大的环境,因为被执行的源代码在运行期间都是可用的,可用去检查和修改,此外,由于整个基本操作的库都在那里,我们可以在排除错误的过程中构造新程序,随时把它们加入系统中;

由于看到了编译和解释的互补优势,现代程序开发环境很推崇一种混合的策略,使得解释性程序和编译性程序可以互相调用;这就使程序员可以编译那些自己认为已经排除了错误的部分,从而取得编译方式的效率优势,而让那些正在进行交互式开发和排错的,还在不断变化的程序部分的执行仍然维持在解释模式中;还可以使程序员根据实际问题选择最合适的语言

 

原创粉丝点击