从计算机机器语言的进化看中文的进化

b
babolat
楼主 (未名空间)


读诗经,看到古文对细微差别的东西有不同的字。比如有草木的山叫岵,没草木的山叫屺。再比如纯黑的马叫骊,赤黑的马叫驖,黑鬃黑尾的红马叫骝,等等。第一感是古文比现代中文精致,古代的文化人有品味。

再想想,发觉这个东西似曾相识:古代中文和现代中文的关系类似于计算机机器指令集里CISC(complex instruction set computer 复杂指令集计算机 - google的翻译)和
RISC(Reduced instruction set computer 精简指令集计算机)的关系。开始的计算
机,人们不知到应该有什么样指令,基本是硬件有什么功能就给它个指令。硬件有时能做很复杂的事,所以指令也可以很复杂。初始的机器语言设计都是CISC。一个语言要有生命力,既要好用(人用起来容易)又要能高效地描述复杂的东西。在计算机方面这种描述还要能被高效地执行。由此,原始初糙的CISC开始进化。

随着计算机机器语言经验的积累,人们发现那些复杂的指令很少被用到,用到了也很难用。机器指令的RISC设计思想开始形成。这种设计的最基本理念是废除复杂的指令,每个指令描述小单元的硬件功能(一条CISC指令要用多条RISC指令描述)。

CISC和RISC之争在计算机领域进行了很久。RISC的思想成熟时,CISC已经用了很久。当时的业界大佬Intel公司(也是现在的行业领袖)的已经广泛应用的x86 CPU是CISC的指令集。在用户第一的商界,这种用户基础广泛的界面是不可更改的。形而上的讨论当然也是各有优缺点。有Intel的撑腰,CISC的气很壮。

今天情况怎么样呢?RISC完胜CISC:现在几乎所有的计算机都采用RISC指令集。所有手机,苹果的机器。跑Windows的x86机器里的CISC界面被保留下来,但变成了前端。这些前端的指令要先翻译成后端的RISC指令才能在硬件里执行—x86也成了RISC的设计。

用CISC/RISC的眼光来看,古中文显然是CISC设计:一条复杂的“骊”指令描述纯黑的
马;一条“驖”指令描述赤黑的马。现代中文取消“骊”,“驖”这种复杂指令。代之以“纯黑的”,“赤黑的”,和“马”这种简单指令 — 是RISC的设计。中文从古代到现代的进化就是从原始的CISC到更先进的RISC的进化。古文不是精致,只是原始初糙而以。
c
chebyshev

这是个很有意思的主题。

历年来,我在程序员版我有大量的相关贴。欢迎批评指正。
实际上1956年简化中文之历史与lisp相若。

左传讲:言之不文,行而不远。
文就是美的意思。把美与实用联系起来,且把“文”放在前面,
这点是计算机语言里没有的。
语言之演化与生物之演化的形式规律很相似。其量化方面也有人
做研究。

其实最关紧的是covid走向如何。现在到了alpha,beta,gemma。
再往上怎么办?希腊以前是什么?
【 在 babolat (Aeropro) 的大作中提到: 】
: 读诗经,看到古文对细微差别的东西有不同的字。比如有草木的山叫岵,没草木的山叫
: 屺。再比如纯黑的马叫骊,赤黑的马叫驖,黑鬃黑尾的红马叫骝,等等。第一感是古文
: 比现代中文精致,古代的文化人有品味。
: 再想想,发觉这个东西似曾相识:古代中文和现代中文的关系类似于计算机机器指令集
: 里CISC(complex instruction set computer 复杂指令集计算机 - google的翻译)和
: RISC(Reduced instruction set computer 精简指令集计算机)的关系。开始的计算
: 机,人们不知到应该有什么样指令,基本是硬件有什么功能就给它个指令。硬件有时能
: 做很复杂的事,所以指令也可以很复杂。初始的机器语言设计都是CISC。一个语言要有
: 生命力,既要好用(人用起来容易)又要能高效地描述复杂的东西。在计算机方面这种
: 描述还要能被高效地执行。由此,原始初糙的CISC开始进化。
: ...................

c
chebyshev

刚查了网络。达尔文时代开始,确有人认为生物演化与语言演化是类似的,
并proposal用语言之研究来检查达尔文之理论是否正确(当时达尔文之学说并未被
普遍接受)。后来达尔文也写过一个笔记本讨论语言,后来出了本书。

【 在 chebyshev (......) 的大作中提到: 】
: 这是个很有意思的主题。
: 历年来,我在程序员版我有大量的相关贴。欢迎批评指正。
: 实际上1956年简化中文之历史与lisp相若。
: 左传讲:言之不文,行而不远。
: 文就是美的意思。把美与实用联系起来,且把“文”放在前面,
: 这点是计算机语言里没有的。
: 语言之演化与生物之演化的形式规律很相似。其量化方面也有人
: 做研究。
: 其实最关紧的是covid走向如何。现在到了alpha,beta,gemma。
: 再往上怎么办?希腊以前是什么?

p
pinfish

搞个数据库做点统计性研究?
J
Jefe

英文也有这个进化趋势, 复杂原生词或概念使用频率不高。平时用的都是拆解后能被
多数人理解运用的词句,继承跟通用功能也得到提高。虽然英文词句来源分散,但在各自可见区域内大体也符合这个趋势。

估计其它大语种也该是这样。

【 在 babolat (Aeropro) 的大作中提到: 】
: 读诗经,看到古文对细微差别的东西有不同的字。比如有草木的山叫岵,没草木的山叫
: 屺。再比如纯黑的马叫骊,赤黑的马叫驖,黑鬃黑尾的红马叫骝,等等。第一感是古文
: 比现代中文精致,古代的文化人有品味。
: 再想想,发觉这个东西似曾相识:古代中文和现代中文的关系类似于计算机机器指令集
: 里CISC(complex instruction set computer 复杂指令集计算机 - google的翻译)和
: RISC(Reduced instruction set computer 精简指令集计算机)的关系。开始的计算
: 机,人们不知到应该有什么样指令,基本是硬件有什么功能就给它个指令。硬件有时能
: 做很复杂的事,所以指令也可以很复杂。初始的机器语言设计都是CISC。一个语言要有
: 生命力,既要好用(人用起来容易)又要能高效地描述复杂的东西。在计算机方面这种
: 描述还要能被高效地执行。由此,原始初糙的CISC开始进化。
: ...................

g
guvest

中学毕业的东土汉人,大部分认读千年前之宋词毫无难度。

英语德语法语系统之文化延续性完全
不是一个档次。其本身历史很短。例如Kant写作的时期,
书面语才逐渐从拉丁文转德语。所以各国
有不同的规律。

好莱坞电影里面,读几句莎士比亚就算是讲古了。那是明朝的。

我不是说老的就是好的。而是说从人类学角度而言。汉语之延续性是世界各文化体系没有的。华夏之人乃是地球仅余之古人。这就是为什么海德格尔希望从希腊反演西方文明进路不可得之后,找台湾学者学道德经。

【 在 Jefe(El) 的大作中提到: 】
<br>: 英文也有这个进化趋势, 复杂原生词或概念使用频率不高。平时用的都
是拆解
后能被
<br>: 多数人理解运用的词句,继承跟通用功能也得到提高。虽然英文词句来源分散,
但在各
<br>: 自可见区域内大体也符合这个趋势。
<br>: 估计其它大语种也该是这样。
<br>

z
zhaoxhh

汉语的地域性还是挺明显的,相对来讲印欧语系分布的广泛的多
b
babolat


也用计算机科学的眼光看一看中文类的象形文字和印欧语系类的字母文字。

文字刚开始出现的时候,需要表达的内容很简单,一般是记数,和一些直观的东西。象形文字直观又够用。随着社会的发展,文字需要描述的内容越来越复杂。象形文字的缺点就显示出来。比如很多东西根本没有形:人的情感,抽象的东西如数学,看不见摸不着的物理化学里的分子原子等等。象形文字逐渐不能适应它需要描述的复杂性。

那么对付复杂性有什么好的方法呢?计算机科学在这方面有很多经验因为计算机科学从一开始就在面对复杂性的问题。一个实践证明极其有效的通用解决方案被表述在一个计算机领域的著名格言里:“All problems in computer science can be solved by
another level of indirection.” 当一个系统变得越来越复杂难以为继的时候,给它加一层abstraction就能解决问题。这个原理被用在计算机领域的很多地方,屡试不爽。

再回头来看象形文字和字母文字,字母文字显然是象形文字的abstraction。有了这个
abstraction,就可以有效地描述文字需要描述的各种内容而没有象形文字的困难。而
抽象化也必然会失去一些直观的东西。象形文字是文字1.0,字母文字是文字2.0。

【 在 zhaoxhh (ZhaoXH) 的大作中提到: 】
: 汉语的地域性还是挺明显的,相对来讲印欧语系分布的广泛的多

c
changjiang

中文1.0:象形文字
中文2.0:加入大量的形声字。表音+表意部,类似字母文字的radical+prefix造字法。中文3.0: 无穷无尽的组词。殚精竭虑,鞠躬尽瘁,义薄云天,够抽象了吧,这样的词
多得很,历史也够悠久。
中文4.0:莫名其妙的组词。鲁棒性,嘌呤,蓝瘦,香菇。
这样的系统还不够复杂?

【 在 babolat (Aeropro) 的大作中提到: 】
: 也用计算机科学的眼光看一看中文类的象形文字和印欧语系类的字母文字。
: 文字刚开始出现的时候,需要表达的内容很简单,一般是记数,和一些直观的东西。象
: 形文字直观又够用。随着社会的发展,文字需要描述的内容越来越复杂。象形文字的缺
: 点就显示出来。比如很多东西根本没有形:人的情感,抽象的东西如数学,看不见摸不
: 着的物理化学里的分子原子等等。象形文字逐渐不能适应它需要描述的复杂性。
: 那么对付复杂性有什么好的方法呢?计算机科学在这方面有很多经验因为计算机科学从
: 一开始就在面对复杂性的问题。一个实践证明极其有效的通用解决方案被表述在一个计
: 算机领域的著名格言里:“All problems in computer science can be solved by : another level of indirection.” 当一个系统变得越来越复杂难以为继的时候,给它
: 加一层abstraction就能解决问题。这个原理被用在计算机领域的很多地方,屡试不
爽。
: ...................

m
mlgbz

#Native American
#Indian massacre
#RacialGgapshttps://assets.documentcloud.org/documents/6130871/Missing-and-Murdered-
Indigenous-Women-and-Girls.pdf