语言和语义(一,什么是语言)

来源:互联网 发布:富途牛牛 mac 画线 编辑:程序博客网 时间:2024/05/16 11:25

    语言,是人类社会中极为复杂的一个现象或工具。目前为止,除人类日常生活所使用的自然语言(如汉语,英语,德语等)之外,各种人工语言(如计算机语言)也是常见的例子。虽然是生活中的一部分,但语言对于我们来讲仍然是神秘的;上帝在巴别塔所设的障碍,至今仍然存在。

作为一个信息行业的科学工作者,我们的确又无法在这个障碍面前止步。故本文也给出一些初步的探讨,谈一些对语言与概念不成熟的理解。

语言,宽泛的讲,可以有狭义和广义之分。狭义的语言,可做如下之定义:

语言L,是在某确定字符集合A上,遵循一定的规则R,所形成的字符串集合。

即:

L = < A; R >

为了对语言的研究和使用的方便,人们对语言L会设定一个划分体系,也就是说,L中存在一个等价关系,使得L形成一个划分:

                                                     L = { L1, L2, … , Ln }

其中,对于任意的sijLi,也可以称为在语言单位Li下的语言实例。

       举例说明,对于自然语言英语LE,可作类似的如下之对应:

                            AE = { 英文字母,标点符号,特殊字符 }

                            RE = 英语语法和使用约定集合

        s1j = hello

            s2j = Hello world!

         s1j是英语的单词实例,s2j是英语的句子实例。例子中的下标只作区别,没有任何根据。另外,显然它们都符合RE;否则在严格意义上讲,便不是英语语言。

当然,对于自然语言,R一般是在社会的自然发展中演化形成的,未必是一个完全精确的规则集。同样,由于自然语言的历时性,L也并不是完全不变的;所以上面的定义仅从静态的观点出发,也是为了研究的方便。事实上我们可以假定,在某一时间和空间点内,一个语言可做如上之定义。

这一说明,在人工语言中也是同样适用的。如计算机高级语言c语言,89标准与99标准是有很大不同的。

而广义的语言,则是难以界定的。比如,我们常说,音乐家的语言是声音,舞蹈家的语言是形体,画家的语言是色彩。这种意义上的语言,一般都有一个共性,即遵循一定的规则,并为表达某种主题而出现,且具有一定的形式(或可称为表达元素)。因此,我们可以对广义语言做如下说明:

广义语言,是一切具有较为固定的表达元素,并在一定规则上可形成某种表达主题的结构集合。在形式上看,一个结构就是一个广义语言的实例,它由表达元素在其规则上所生成。

这样来看,那么一幅画便是一个结构,是画家语言的一个实例。

对于狭义语言和广义语言之分,是我们对语言的一种限定。它可以近似的回答,什么是语言这一问题。但狭义语言和广义语言,又有什么关系呢?

对于此,我们给出如下假设:

公设1(狭义、广义语言同构假设)

任何广义语言,都必然存在一个狭义语言,使得二者同构。

在解释公设1之前,我们可能需要先给出语言同构的定义。为了给出这个定义,我们首先把广义语言的定义形式记为:

L* = < A* ; R* >

同样的,有

                            L* = { L*1 , L*2 , … , L*n  }

       对于LL*,其任意的

                         s = R( a1,a2,…,an ), 其中a1,a2,…,anA,

                            s* = R*( a1*,a2*,…,an*),其中a1*,a2*,…,an*A*

若存在一个一一映射λ,当

                            λ( ai ) = ai*, i = 1,2,…,n

而能够得到

                            λ( s )  = λ(R( a1,a2,…,an ) )

                                         = R*(λ( a1 ), λ( a2),…, λ( an ) )

                                         = s*

则称LL*满足同构关系λ,也称为语言LL*是同构的。

传统的精确意义上的同构关系,是一种理想的关系,一般常见于人工语言当中。但由于RR*本身就是复杂的规则(集),所以,这种精确性当以灵活的态度去看待。所谓灵活的态度,就是注意到语言的冗余性,RR*更多的受语义的限制,一一映射λ,也是映射的这种<语形;语义>的复合单位。

例如,在两种狭义语言,汉语和英语之间,机器翻译可作如下处理:

              英语文本: I love you so much baby !

MT =>

              汉语文本: 1)我是多么的喜欢你呀宝贝!

                               2)我非常的爱你宝贝!

这两种结果,一般都是可以接受的。机器翻译之所以可以进行研究,是因为大家基本上认可一个共同的假设:自然语言是基本同构的;可以信息无损的相互转化。虽然是假设,但这种假设也是建立在经验观察和理性思考的基础之上的,表现就为语句的相互转化和人类共同的自然性与社会性。也就是,在<语形;语义>的意义上来讲,自然语言——比如汉语和英语——之间是同构的。上面的例子中,汉语文本(1)和(2)仅从语形上来看,它们是不同的,但从<语形;语义>的角度来看,它们可以认为是基本相等的,所以这可以视为同构关系,只不过语义是什么,我们或许有些明白,但还不足以对它形式化。

这就是说,语言的同构定义,是超前的。逻辑上来讲我们应该先予定义一一映射的对象,然后再给出同构的定义,然而这里为了能继续向前,只好暂时如此了。

其中又提到信息和语义,遗憾的是为了解释一个概念,我们不得不用了一些新的概念。如前所述,如果语义可以形式化,且语义的定义不依赖于语言同构的概念,那么,我们自然可以心安理得的“超前”一下。

我们现在解释公设1

公设1来源于这样一个信念:物质世界的规律与活动,以及智能对象的规律与活动,都可以形式化。

也就是说,只要科学足够的发达,形式化的力量将可以渗透到世界的每一个角落。这或许有些刚愎自用,但需要解释的是,当科学深入研究语义和智能体的时候,它早已不仅仅是冷冰冰的钢铁和大炮,科学本身已经是既理性而又人文的东西。(当然,这本身对科学也提出了更高的要求)

这就是说,对于任意一个广义语言L*,虽然它有着自己的表达元素集合A*和规则集合R*,但我们一定可以建立一个形式化的语言系统L,使得同时LL*同构。

比如,某企业C的运行当中,有着自身的对象,活动和环境,并遵循自身的发展规律。这些客观的统一体,可视为一个广义语言LC*,一个语言的实体s*,即为一个发展过程(序列)。我们相信,对于LC*,一定存在一个狭义语言LC,也就是该企业的一个形式化系统,使得两者同构;我们的某软件系统LC,可以说在不断的逼近LC ,自然也就是一个狭义语言的特例。

当然,如前所述,我们自然也可以提出另外一个假设:

公设2(狭义语言同构假设)

任何狭义语言,都必然存在另外一个狭义语言,使得二者同构。

这一公设的一部分特例是可以证明的,而另外一部分,则仍然作为基本假设来使用。需要说明的是,由于这一公设依据的是对字符串集合之间可以相互转换的信念,所以更多的用于理论转换之中。

目前对于什么是语言,仍只是一个初步的回答。接下来将在更深入,更广泛,更具体的内容中,来探索语言的奥秘,试图分析上帝之障碍。J