2007-09-29

中文的數位 DNA


把中文文字系統中的科學結構

轉換成用現代的數學、邏輯言語表達出來

那麼就可以用數位化的方式來處理這些文字


字母拼音式的文字系統

其結構是字詞(word),而字詞之下是字母(alphabet)

這樣的文字系統,字母是個封閉集合(closed set),數量有限

所以用數學結構表達起來非常容易


中文是將日常生活中的事物與概念用象形表達出來

透過六書原則,又產生了語音與語意的部份

這樣的文字系統,比較接近開放集合(open set)


在電腦處理中文的發展沿革

很大的瓶項就是因為將中文系統的開放集合

放在以字母拼音式的封閉集合架構下


以構字式的角度切入,中文系統的開放集合可不斷繁衍

但在人類文化歷史的演進限制下

其實際的數量仍將在一定的範圍內

(因此用封閉集合也未必就一定不行)


以造字的元件(components)來看

古代曾將這些元件分為聲母與形母兩類,加起來約有幾千個

這類的統計與分類

主要可由東漢許慎的《說文解字》見之

(許慎處理了一萬一千多字)


朱邦復的漢字基因也有相似的想法

只是更加有機

並在後續的發展引入了奇想


P.S. 本文概念主要來自謝清俊先生,但已不盡相同。


意義的揭露是時間性的


意義的揭露是時間性的

在當下所顯現的只是一個馬賽克式的粗略影像

即使是意識清明的人

也只能在朝向未來的時間流中

讓思想逐漸聚焦


如果珍惜生命的整體

如果夠苦心孤詣

我們有機會發現

意義的種子原來在更早的時間裏

已埋下,一粒一粒 …

星羅的

生命藍圖



腦袋裏有個不太可靠的時間機器

我常常乘坐它

在幾十年的尺度裏往返穿梭

我的意識清明

其實是構築在這樣混沌的基礎上

如果語無倫次

很正常


意義的揭露是時間性的


意義的揭露是時間性的

在當下所顯現的只是一個馬賽克式的粗略影像

即使是意識清明的人

也只能在朝向未來的時間流中

讓思想逐漸聚焦


如果珍惜生命的整體

如果夠苦心孤詣

我們有機會發現

意義的種子原來在更早的時間裏

已埋下,一粒一粒 …

星羅的

生命藍圖



腦袋裏有個不太可靠的時間機器

我常常乘坐它

在幾十年的尺度裏往返穿梭

我的意識清明

其實是構築在這樣混沌的基礎上

如果語無倫次

很正常


意識到中南半島

簡單用 Google Map 做了張圖:


‧寮國(社會主義國家, 宋代時的真臘)

‧越南(社會主義國家,明代設郡縣置交趾布政司)

‧柬埔寨(君主立憲, 宋代時的真臘)

‧泰國(君主立憲, 古稱暹羅)

‧緬甸(軍政府國家, 元朝置緬甸行省)

‧馬來西亞(君主立憲, 聯邦, 古馬六甲王朝)

‧印尼(共和國, 總統制, 100多種民族)


原來,還有兩個社會主義國家,三個君主立憲國家,

以及一個奇怪的軍政府。


印象中,曾意識到

巴爾幹半島(因為希臘)及義大利半島(因為羅馬)存在的時間,

比中南半島長得多。