Essential SICP Primer

来源：互联网发布：台湾bgo有假货吗知乎编辑：程序博客网时间：2024/04/27 16:53

综述
本书以Lisp语言本身为例，完整而辨证的讲述了“计算机程序”的各种形而上形而下的问题：

程序语言本身的要素（原语、组合手段、抽象手段）
程序的计算模型（代换模型、环境模型，迭代、递归）
程序的世界观（对象式、函数式）
程序如何繁殖进化（元语言抽象）
程序如何执行（编译、解释）

同时阐述了程序设计中常用的几大关键技术：

寄存器与堆栈的使用（目前多数计算机的基本抽象）
数据导向与通用型计算（涉及高阶过程，数据与过程的统一）
并发程序设计（模型与时序的冲突）
历史记忆法（即缓存）
应用序与正则序，及背后的惰性求值/延时求值方法论
迭代与尾递归的转换

后两种看似只是一种优化技术，实际上不止如此，它们牵扯到程序的合法性，运行结果的可预期性

还有几种特殊的程序设计技术：

模拟时间分叉的非确定性计算
模拟逻辑推理的逻辑程序设计
模拟数学公式的约束系统设计

一、语言要素
每一种强有力的语言都提供了三种机制：

基本表达形式，用于表示语言所关心的最简单的个体
组合的方法，通过它们可以从较简单的东西出发构造出复合的元素
抽象的方法，通过它们可以为复合对象命名，并将它们当作单元去操作

二、数据与过程的统一
第一级元素的特权：

可以用变量命名
可以提供给过程作为参数
可以由过程作为结果返回
可以包含在数据结构中

Lisp给了“过程”完全的第一级状态，而一般而言，我们可以将数据定义为：

一组适当的构造函数（必选）和选择函数（必选）及改变函数（可选）
为使这些函数成为一套合法表示，它们就必须满足的一组特定条件

这样，数据与过程在Lisp中就完全统一了

三、并发、时间与通信
并发的基本现象是共享状态在不同进程间的同步，或迫使进程间通信所产生的事件按照某种特定的顺序进行；

从本质上看，在并发控制中，任何时间概念都必然与通信有内在的联系；

有意思的是，时间与通信之间的这种联系也出现在相对论里，在那里的光速（可能用于同步事件的最快信号）是与时间和空间有关的基本常量；

在处理时间和状态时，我们在计算模型领域所遭遇的复杂性，事实上可能就是物理世界中最基本的复杂性的一种反映

四、对象模型与函数式模型
从一个复杂过程中的一部分的观点出发，其它的部分看起来正在随时间变化，它们有着隐蔽的随时间变化的局部状态；

如果我们希望去写程序，在计算机里用某种结构去模拟现实世界中的这类自然分解，那么就会做出一些不是函数式的对象－－它们必须随着时间不断变化；

我们用局部状态变量去模拟状态，用对这些变量的赋值模拟状态的变化；

在这样做的时候，就是在用计算执行中的时间去模拟我们所在的世界里的时间，也就是把“对象”弄进了计算机。

用对象来做模拟是威力强大的，也很直观，这一情况的主要根源，就在于它非常符合我们对自己身处其中并与之交流的世界的看法；

然而，正如我们已经反复看到的这种模型也产生了对于事件的顺序的依赖，以及同步多个进程的棘手问题；

避免这些问题的可能性推动着“函数式程序设计语言”的开发，这类语言里根本不提供赋值或者变动对象，在这样的语言里，所有过程实现的都是它们参数上的定义良好的数学函数，其行为不会变化；

物理世界中也有这样的例子，当我们观察一个正在移动的粒子时，我们说该粒子的位置（状态）正在变化，然而，从粒子的世界线的观点看，这里根本就不涉及任何变化。

然而，如果我们贴近观察，就会看到与时间有关的问题也潜入了函数式模型中，原因在于函数式模型与时间无关的特性是将提供时态、时序的责任推给用户方实现的，当用户方无法提供时态时，又要重新引入函数式风格致力消除的同一个问题。

我们可以将这一世界模拟为一集相互分离的，受时间约束的，有局部状态的，相互交流的对象，或者也可以将世界看作一个大函数，是单一的，无时间的，无状态的统一体；

对象模型对世界的近似在于将其分割为独立的片断，函数式模型则不是沿着对象间的边界去做模块化。

当对象间不共享的状态远远大于它所共享的状态时，对象模型就特别好用。

这种对象观点失效的一个地方是量子力学，在那里将物体看作独立的粒子就会导致悖论和混乱。

将对象观点和函数观点统一起来可能与程序设计关系不大，而是与基本认识论有关。

每种观点都有其强有力的优势，但就其自身而言，又没有一种方式能够完全令人满意，我们还在期待着一个大统一的出现。

五、元语言抽象与通用机器
这里的深刻思想是，任一求值器都能模拟其它的求值器；

这样，有关“原则上说什么可以计算”的概念（忽略掉所有有关时间和空间的实践性问题）就是与语言或计算机无关的了；

它反映的是一个有关“可计算性”的基本概念；

这一思想第一次是由图灵阐述的；

图灵给出了一种简单的计算模型－－现在被称为图灵机－－并声称，任何“有效过程”都可以描述为这种机器的一个程序；

图灵而后实现了一台通用机器，即一台图灵机，其行为就像是所有图灵机程序的求值器。

六、编译与解释
编译可以大大提高程序执行的效率，解释则为程序开发和排除错误提供了一个更强大的环境，因为被执行的源代码在运行期间都是可用的，可用去检查和修改，此外，由于整个基本操作的库都在那里，我们可以在排除错误的过程中构造新程序，随时把它们加入系统中；

由于看到了编译和解释的互补优势，现代程序开发环境很推崇一种混合的策略，使得解释性程序和编译性程序可以互相调用；

这就使程序员可以编译那些自己认为已经排除了错误的部分，从而取得编译方式的效率优势，而让那些正在进行交互式开发和排错的，还在不断变化的程序部分的执行仍然维持在解释模式中；

还可以使程序员根据实际问题选择最合适的语言。

---------------------------------------------

1，John Locke：有关人类理解的随笔，1690

心智的活动，除了尽力产生各种简单的认识外，主要表现在如下三个方面：

1）将若干简单的认识组合为一个复合认识，由此产生出各种复杂的认识；

2）将两个认识放在一起对照，不管它们如何简单或者复杂，在这样做时并不将它们合而为一；由此得到有关它们的相互关系的认识；

3）将有关认识与那些在实际中和它们同在的所有其它认识隔离开，这就是抽象，所有具有普遍性的认识都是这样得到的。

呵呵，和面向对象者爱引用的差不多：
在大英百科全书关于“分类学理论”中提出：

人类在认识和理解现实世界的过程中，普遍运用着三个构造法则：

区分对象及其属性，例如，区分一棵树和树的大小或空间位置。

区分整体对象及其组成部分，例如，区分一棵树和树枝。

不同对象类的形成及区分，例如，所有树的类和所有石头的类的形成和区分

2，(+ (* 3 5) (- 10 6) )

虽然与人们的习惯相背，但却几乎是对解释器来说最容易实现的一种语法，形式完全统一；

没有优先级，括号是唯一的优先级；

任何复杂的表达式都可以由最简单的表达式组合（Composite）而成；

在主流高级语言中，只能通过函数对象来模拟得到类似的表达式

3，甚高级语言

说明性描述和行动性描述有着内在联系，就像数学和计算机科学有着内在联系一样；

有一个当前在程序设计语言设计领域中很重要的问题，那就是所谓的甚高级语言，在这种语言里，编程就是写说明性的语句；

这里的想法是将解释器做的足够复杂，程序员描述了需要“做什么”的知识后，这种解释器就能自动产生出“如何做”的知识；

一般而言这是不可能做到的，但在这一领域已经取得了巨大进步；

和DSL有一定的联系

1，线性迭代（尾递归），线性递归，树型递归

2，lambda

匿名过程，直接以过程体表示过程，可用于以更加自然的方式来表示表达式

3，第一级元素的特权

可以用变量命名
可以提供给过程作为参数
可以由过程作为结果返回
可以包含在数据结构中

Lisp给了“过程”完全的第一级状态，C++则给了函数指针、函数对象完全的第一级状态

4，数据抽象

将数据对象的表示或说实现，与对数据对象的使用分开

1，闭包

是否可理解为Lisp对Composite Pattern的显式支持

2，基础通用结构

list，tree；tree可以看作list的composite

3，基础通用操作

参数形式上的统一，使定义通用操作成为可能；返回值形式上的统一，使定义操作序列成为可能（Pipe Pattern）

统一的参数和返回值形式是list（C++里则是iterator的区间）

数据的序列用list表示，操作序列是否也可以用list表示？或许前文已经提到了我忘记了，或许后文还会说明；C++标准库尚未提供对操作的composite的支持，boost里有所涉及，但在Lisp里面，估计是很自然的支持

目前涉及的通用操作已经有filter，map，accumulate，foreach等；filter和map可用在Pipe中间，但accumulate的返回值不保证是list，所以可能只能用在Pipe的末端；foreach干脆就没有返回值

————————————————————

1，语言要素

在描述一种语言时，应将注意力集中到语言的基本原语，它的组合手段，以及它的抽象手段，这是最重要的；

2，强健设计的语言层次

分层设计：一个复杂的系统应该通过一系列的层次构造出来，每个层次上所用的语言都提供了一些基本元素、组合手段、还有对该层次的细节做抽象的手段，即每个层次都为表述系统的特征提供了一套独特词汇，以及一套修改这一系统的方式；

正交设计：分层是因为目前的语言提供的连接手段是“调用”，如果语言能够提供“调用”之外的其它手段，如“织入”，则可能在分层的体系结构之外出现正交的体系结构；

3，Huffman编码与二叉树

待解决问题与所选数据结构的完美搭配

4，begin

即序列求值，C++中则是逗号表达式

5，树结构的缺点

叶子只能属于一个分支

6，函数式程序设计与命令式程序设计

不用任何赋值的程序设计称为函数式程序设计；与之相对应的，广泛采用赋值的程序设计被称为命令式程序设计

7，引用透明性与别名

如果一个语言支持在表达式里“同一的东西可以相互替换”的概念，这样替换不会改变有关表达式的值，这个语言就称为是具有“引用透明性”；一个计算对象可以通过多个名字访问的现象称为“别名”

8，同一与等价

“同一”在实现中往往是指向同一块存储的多个别名；“等价”则往往是指向多块存储的不同对象，但它们在计算中可以相互替换而不影响表达式的值；同一比等价更为严格

9，引用对象与值对象

在系统计算中需要必须是“同一”对象的，往往用引用对象来实现，此时对象有全局唯一ID，缺省即存储地址；

在系统计算中需要“等价”对象即可的，往往用值对象来实现，此时对象的存储地址无关紧要，这类对象常见有货币等

10，有状态与无状态

内部状态随时间变化的，称为有状态，反之为无状态；

时间是本质问题，有状态对象在并发系统中存在严重缺陷

有状态对象往往需要“同一性”，无状态对象往往“等价”即可

11，过程与数据

真实的情况是，在一个可以将过程当作对象的语言里，在“过程”和“数据”之间并没有本质性的差异，因此我们可以自由选择自己所需的语法糖衣，以便按自己选定的风格去做程序设计

1，并发

有共享资源的系统中，不可避免的问题

串行化只是解决并发的一种方法，并且会带来不可避免的死锁问题

2，流

概念上不同于表，实现上可以看作是采用了“延时求值”的表

3，状态

可以表示为值的“没有时间”的流

4，流的应用

替换迭代模型，替换局部状态，无穷流，表列（即流的流的流...）

5，流与状态

无状态的流可构造出有状态的系统，原因在于将提供时态的责任推给了用户方

6，对象与函数式

一种将世界模拟为一集相互分离的，受时间约束的，有局部状态的，相互交流的对象

一种将世界看作一个大函数，是单一的，无时间的，无状态的统一体

1，应用序与正则序

惰性求值/延时求值不止带来性能上的优化，更带来行为本质上的变化

2，非确定性计算

将选择与回溯机制隐藏在语言内部，可轻松解决诸如21点之类的问题，因为“描述即解”

3，规则

一条规则就是一个逻辑蕴含：如果对所有模式变量的一个赋值满足规则的体，那么它就满足其结论；规则的体可以看作一组条件的组合，规则的结论可以看作对满足这组条件的实例进行的描述

4，合一

模式匹配的一种推广，即为了找出查询时应该使用哪条规则，而找出规则结论与查询条件能够模式匹配的那条规则

5，逻辑程序设计的目标

为程序员提供一种技术，它能将计算问题分解为两个相互分离的问题：“什么”需要计算，以及“如何”进行这一计算；通常“如何”进行计算便是一组规则，“什么”需要计算便是规则的结论，从使用者的角度来说，对规则的“描述即解”，SQL应该是一种典型的应用

6，not

逻辑程序设计语言里的not反映了一种所谓的“封闭世界假说”，它认为所有有关的知识都已经包含在所用的数据库里了

1，receive返回多个值

采用了多个容器做参数的方式

2，垃圾收集

停止并复制法，标记并清除法

3，尾递归

与惰性求值一样，尾递归的优化并不止是一种优化，而可能改变运行时行为，如使用常量空间，否则可能耗尽系统空间

4，编译与解释

编译可以大大提高程序执行的效率，解释则为程序开发和排除错误提供了一个更强大的环境，因为被执行的源代码在运行期间都是可用的，可用去检查和修改，此外，由于整个基本操作的库都在那里，我们可以在排除错误的过程中构造新程序，随时把它们加入系统中；

由于看到了编译和解释的互补优势，现代程序开发环境很推崇一种混合的策略，使得解释性程序和编译性程序可以互相调用；这就使程序员可以编译那些自己认为已经排除了错误的部分，从而取得编译方式的效率优势，而让那些正在进行交互式开发和排错的，还在不断变化的程序部分的执行仍然维持在解释模式中；还可以使程序员根据实际问题选择最合适的语言