讓古老文字告別鉛與火,走進光與電的時代,是文字現(xiàn)代化、信息化的必然過程,被認為具有劃時代的意義。公眾熟知的王選,因發(fā)明漢字計算機激光照排技術,被譽為“當代畢昇”,推動了中國出版印刷行業(yè)的革命。
在彝文信息化的進程中,也有這么一位勇敢無畏的開創(chuàng)者,他就是彝族第一位博士生導師沙馬拉毅。他發(fā)明“沙馬拉毅輸入法”,推動了彝文信息處理有關國家標準及國際標準的建立。而今,他仍然奔忙不息,致力于推動彝文的規(guī)范化,使彝文信息處理技術不斷向前發(fā)展。
▲沙馬拉毅近照。 雷建攝
1讓彝文趕上信息時代
回首來時路,沙馬拉毅說,是一種責任感和使命感,推著自己與彝文信息處理結下不解之緣。
▲上世紀80年代,沙馬拉毅(右三)在教學。沙馬拉毅供圖
上世紀80年代初,沙馬拉毅在圖書館看到一篇文章,介紹我國的一種民族文字,被英國人拿去研制出編碼后輸入到計算機里,又把處理好的民族文字信息重新拿回中國測試與使用。這一事件讓沙馬拉毅寢食難安。彼時,他剛從西南民族學院(現(xiàn)西南民族大學)畢業(yè)留校任教不久。
沙馬拉毅想到了自己的母語。彝族人口眾多,分布區(qū)域大,彝語使用者超過800萬人。1975年,《彝文規(guī)范方案》試行,1980年由國務院批準正式推行?!拔沂且妥逯R分子,為什么不能自己研究彝文信息化的問題呢?”他想。當時,國內諸多學者也在討論,中國應該重視民族語言文字的計算機處理,不能讓這一技術掌握在外國人手中。這樣的反思與爭論激發(fā)了沙馬拉毅,從此,他義無反顧地投入彝文信息處理的研究中。
彝語方言多,彝族文字數(shù)量多,形體、繁簡不同,要實現(xiàn)信息化可謂困難重重。“我是學文科的,不懂計算機。那時候,我們沒有計算機課程。”沙馬拉毅騎著自行車跑遍了成都的書店,把與計算機有關的書籍都買了回來,總計37本。那段時間,沙馬拉毅天天看書、天天琢磨。兩三個月后,他就開始邊看書邊整理彝族文字。
文字的信息處理包含輸入和輸出兩方面,關鍵是要設計一套能方便對應每個字符的編碼方案。彝文也一樣,要為1165個字符找到一整套簡潔的編碼方案,這些編碼要形成一系列的計算機指令;在輸出時,要有彝文字庫,計算機的輸出指令對應著不同的彝文字形信息。
沙馬拉毅獨自面對的,無疑是一項浩大的工程。
他花高價買來一臺蘋果計算機,這臺機器僅具備計算能力。沙馬拉毅搭上所有的業(yè)余時間,開啟了艱辛的探索之旅。
為解決彝文的編碼問題,需要對每一個彝文字符進行數(shù)值換算。實際上就相當于在一個數(shù)字化的點陣中,計算出哪些點應該有脈沖信號,哪些沒有脈沖信號。因脈沖信號分布不同,一個獨特的字符就會顯現(xiàn)出來。
于是,沙馬拉毅找來數(shù)學演算坐標紙,把字描在坐標紙上,再計算出字符的對應數(shù)值。這一看似簡單的工作其實相當復雜,需要進行大量的計算。他足足耗費了超過3大麻袋的坐標紙。為節(jié)約坐標紙,沙馬拉毅想到先用火柴棍在坐標紙上擺成彝文,然后再輸入坐標,這樣,一張坐標紙可以多次使用。
1982年底,沙馬拉毅開發(fā)出彝文計算機處理系統(tǒng)。應用這個系統(tǒng),千百年來書寫在樹皮、草紙上的彝族文字顯示在計算機屏幕上。此時,這些彝文還不能打印輸出來,沙馬拉毅的工作僅完成了一小半。
1984年,在內蒙古召開了“全國首次少數(shù)民族語言文字信息計算機處理學術討論會”,沙馬拉毅作為代表參加了會議。5天的日程中,他一刻也沒有耽誤,不斷向專家學者討教有關硬件、軟件、信息處理等各方面的問題。討論會傳遞出一個信息,盡管民族文字信息處理尚處于起步階段,但全社會十分關注,這給了沙馬拉毅無窮的動力。
為真正補上計算機這一課,沙馬拉毅專門赴四川省計算機應用研究所進行了正規(guī)的培訓。從門外漢到信息處理領域的專家,沙馬拉毅完成了不可思議的轉變,后來撰寫出版了《計算機彝文信息處理》一書,對彝文信息處理進行了系統(tǒng)的總結。
在不斷努力下,1984年,沙馬拉毅研制出“微型計算機彝文處理系統(tǒng)YWCL”,獲四川省科技進步獎。1985年,彝文的計算機顯示和打印宣告成功。
讓彝文實現(xiàn)計算機顯示和打印輸出,這是彝文信息化的第一步。對于沙馬拉毅而言,他還要帶著彝文進入光電時代。這不僅是他個人的追求,也是時代的倒逼。
上世紀80年代,伴隨漢字激光照排系統(tǒng)的大量應用,新聞出版行業(yè)迅速摒棄了鉛字印刷,字模廠紛紛停業(yè)。與此同時,民族文字印刷因字模廠的關閉而陷入困境。沙馬拉毅清晰地記得,1986年,學校印刷廠為印刷彝文,要四處艱難地尋找字模。一年之后,幾乎所有的字模廠都退出了歷史舞臺。
要解決彝文印刷的問題,就要像漢字一樣開發(fā)出彝文激光照排系統(tǒng)。其中一項具體而繁重的工作,就是制作點陣字模。一開始就要制作15×16的點陣彝文字模,一種字體要1165個,而白體、黑體等4種字體要制作4660個。制作一個點陣字模就像繡一朵花,一個字符的筆畫高低、偏左或者偏右、筆畫字符大小,都影響最終的顯示效果。他對每個字符都精心計算、不斷改進,最終研制出彝文編輯排版系統(tǒng)。
1986年4月,沙馬拉毅迎來了高光時刻。當時的電子工業(yè)部和國家民委組織專家共同鑒定了沙馬拉毅研究出的“計算機激光彝文/漢文編輯排版系統(tǒng)”。王選在鑒定會上將沙馬拉毅發(fā)明的輸入法命名為“沙馬拉毅輸入法”。專家們評價,彝文激光照排系統(tǒng)的研究成功,為我國民族語言文字的計算機處理奠定了牢固的基礎,非常具有借鑒意義。王選將第一本漢字激光照排系統(tǒng)排版出版的書籍簽名贈送給沙馬拉毅,還說:“你的彝文也可以這樣印刷了?!?/p>
當年,沙馬拉毅的解決方案參加了全國計算機展覽,彝文輸入法被評為三等獎。那一年,沙馬拉毅年僅32歲。
2專利免費向公眾開放
沙馬拉毅的彝文編碼輸入方案可謂匠心獨運。他將彝文全拼編碼輸入法、簡拼編碼輸入法、筆畫編碼輸入法、詞匯輸入法巧妙結合,為1165個彝文字符的每一個字符編制了3種輸入碼。不僅如此,沙馬拉毅的彝文信息處理技術中的編碼輸入法,可以與漢字、英文等兼容輸入。
▲上世紀90年代,沙馬拉毅(左三)參加國際會議。 沙馬拉毅供圖
正是由于這些優(yōu)點,相關專家和機構非??粗厣绸R拉毅的彝文信息處理成果,決定以沙馬拉毅的成果為基礎,制定國家標準。
第一項國家標準是《信息交換用彝文編碼字符集》 。
第二項國家標準是《信息交換用彝文字符15×16點陣字模集及數(shù)據集》。
這兩項標準共收規(guī)范彝文819個,帶次高調符號彝文345個,加一個替音符號,共計1165個字符。標準經云南、貴州、廣西、四川等地的彝文專家及各界代表廣泛討論后通過,為彝文的規(guī)范化開啟了先河。其中的點陣字符集適用于彝文信息處理系統(tǒng)中的顯示設備,字形實用、美觀。
1994年,原國家電子工業(yè)部下達任務,要沙馬拉毅作為主要起草人,起草《信息交換用彝文字符24×24點陣字模集及數(shù)據集》。
3項國家標準由沙馬拉毅作為主要起草人,其易學、快速是根本原因。經實踐證明,他發(fā)明的彝文輸入法科學、規(guī)范。
同樣從事文字信息技術研究的專家錢玉趾認為,沙馬拉毅的彝文信息處理技術中的拼音類編碼,1165個字符都有相對應的編碼,而且聲、韻、調俱全,含有語音和詞義的因素,又有很好的唯一性。
“沙馬拉毅在彝文信息處理中,已經確定了‘信息處理彝語分詞規(guī)則’?!卞X玉趾說,分詞規(guī)則使彝文的輸入、輸出達到了方便、快速和高準確率的成效,為彝文的高層次信息處理奠定了基礎。
沙馬拉毅在論文《計算機彝文信息處理研究述論》中說:“計算機信息處理,已經不限于字符的簡單編輯加工,還包括詞語處理、句子和篇章分析;已經不限于詞法,還包括詞義和語義;已經不限于字形,還涉及字音、字義;已經不限于字符的錄入存儲,還包括識別、理解、轉換或翻譯……彝文信息處理,現(xiàn)在只是做了基礎性的工作,還有許多應用性的項目需要去做?!?/p>
正是有這樣的格局與思考,沙馬拉毅的研究從一開始就立足于彝文的現(xiàn)代化,為彝文找到與世界溝通的路徑。
1992年,國家有關部門需要更為精準的民族語文激光照排系統(tǒng)。沙馬拉毅到北京尋求與北大方正公司合作,結果辦公室的人員并不理睬。沙馬拉毅急了,對工作人員說:“我的輸入法是王選教授命名的,并認為值得推廣!”工作人員將信將疑,向王選當面詢問。參加了沙馬拉毅科研成果鑒定會的王選對他記憶猶新,回答:“有這件事!同意聯(lián)合開發(fā)?!?/p>
于是,沙馬拉毅在北京的一間地下室里,按照北大方正公司提出的技術要求,夜以繼日地修改、編制彝文編碼方案和彝文字模稿,餓了渴了就吃面包喝汽水。經過兩個多月的反復修改及上機試驗,最終開發(fā)出北大方正彝文激光照排系統(tǒng)。該系統(tǒng)建立了白體、宋體、黑體等矢量精密字庫,而鍵盤未作任何改動,成為當前國家機關、報社、出版社、印刷廠等主要使用的彝文計算機系統(tǒng)。這一系統(tǒng)讓彝文真正告別了鉛與火,邁進了光與電的時代,使古老的彝文浴火重生。
為保護知識產權,1999年,沙馬拉毅以《計算機彝文字輸入方法及其鍵盤》為名,申請了國家專利。國家知識產權局歷經4年多的嚴格審查后授予專利。
手握專利權,沙馬拉毅卻對深圳等地慕名前來洽談購買專利的人說:“我的專利不賣,向社會公眾免費開放!”
3掌握彝文信息化的主動權
1993年底,沙馬拉毅按照國際標準的要求,開始擬定《通用多八位彝文編碼字符集》國際信息處理標準方案。
當時正值春節(jié)即將來臨。沙馬拉毅安排家人回西昌老家,而自己則去菜市場買了一大袋面條、牛肉末和一堆白菜,把自己關在家里攻關,困了打個盹,餓了煮碗牛肉末面條。
沙馬拉毅確定了信息交換用的1165個彝文字符和彝文部首作為國際信息標準。同時,規(guī)定了彝文字序、彝文字及其部首的名稱。這相當于在國際上給彝文正式地全面命名。
1994年4月,該方案經審定后,作為國家提案提交給國際信息組織第25次會議。
一年后,國際信息組織第25次會議召開。受國家有關部門指派,沙馬拉毅等6人組成的中國代表團奔赴土耳其首都安哥拉,宣讀了提案。沙馬拉毅向與會代表全面介紹了我國彝文使用的情況。經過討論,會議決定接納中國的方案,并決定下次會議繼續(xù)討論。但不曾想,這樣的討論其實暗流涌動。
就在這次國際信息組織的會議上,愛爾蘭代表邁克爾提交了一份經過認真準備的、自認為比較完善的彝文方案。邁克爾的方案確定的彝文信息處理的字符是819個、彝文的筆劃單元是53個。在沙馬拉毅看來,邁克爾的方案根本不適合彝文信息處理,即使定成國際標準,也沒有什么實用價值。但邁克爾勁頭十足,他的發(fā)言振振有詞,迷惑了許多聽眾。他在會議期間還到處游說,讓一些評委變得左右搖擺,主持人也難以抉擇。會議開了一次又一次,直到1996年的國際信息組織倫敦會議仍無結果。
中國代表團開會研究對策,認為要有世界眼光,不能就事論事,要重點說明印歐語系與漢藏語系語言的不同特點與文字信息處理的關系,會議發(fā)言要有邏輯力量,用英語敘述也要流暢。這樣的任務自然落到了沙馬拉毅身上。
沙馬拉毅做好了充分準備。他想到的最好辦法就是用實例舉例說明。彝語和漢語一樣,是有聲調的語言,次高調不專門設字,在中平調的字上加上次高調后就不同了。加符號變?yōu)榇胃哒{的字有345個,另外還有一個替音符號,因此彝文應該有1165個字符。如果忽略了345個次高調字和1個替音字符,彝文的信息處理就無法進行。
邁克爾不懂得其中的道理,堅持只選用819個字符。沙馬拉毅整理了書刊上使用的帶有次高調、替音“帽子”的字符資料,大概有4萬多字,讓質疑者無可反駁。
1997年5月,美國西雅圖。國際信息組織的學術會議聽取了沙馬拉毅的陳述,認為他的方案有理有據。但邁克爾提出要將自己的方案投票表決,企圖阻止中國方案前行。會議的評委經過慎重研究,擱置了邁克爾方案的投票表決。1998年4月,國際信息組織的學術會議在丹麥召開,代表們充分聽取了沙馬拉毅的陳述,并現(xiàn)場提問和答疑,中國方案獲得全票通過。
中國方案正式錄入2000年版的國際信息標準,作為彝文國際信息標準頒布實施。近6年時間,6個回合的較量,中國迎來了最后的勝利。要知道,在中國文字信息處理領域,能夠成為國際標準的信息處理方案并不多。
在此期間,比爾·蓋茨因承辦過一次國際信息組織會議,安排所有參會者參觀微軟公司,因而與沙馬拉毅有了見面交流的機會。他熟悉的中國人的名字大多不超過3個字,沙馬拉毅的名字令他好奇。沙馬拉毅告訴他,中國人的名字不僅有4個字的,還有更多字的,建議微軟軟件中關于姓名一欄,應該允許填寫更多的漢字字符。
比爾·蓋茨當即安排技術人員在后續(xù)的版本中進行修改。這位商業(yè)奇才敏銳地感覺到沙馬拉毅的商業(yè)價值,向沙馬拉毅開出每月8000美元的高薪,而當時沙馬拉毅的月薪只有1200多元人民幣。令比爾·蓋茨意想不到的是,沙馬拉毅的回答很干脆:“中國的計算機信息處理技術發(fā)展很快,我愿意在中國研發(fā)……”他始終銘記一個信念,人生最重要的價值在于奉獻。他把這份執(zhí)念貫穿于自己的科研和教學中,影響著自己的每一位學生。
彝文的中國方案成為國際信息標準后,彝文在網絡上的應用也就沒有任何障礙。微軟系統(tǒng)、安卓系統(tǒng)、蘋果手機等,后來都用此方案處理彝文。
4致力于彝文規(guī)范化
通過30多年的研究與實踐,沙馬拉毅創(chuàng)立的彝文信息處理成果已經被社會廣泛應用。與漢字等語言文字信息化進程中研究者萬馬奔騰、成果層出不窮不同,彝文的信息化進程中,沙馬拉毅缺少同行者,甚至可謂有些孤獨。一個重要因素在于,研究者不僅要熟悉日新月異的計算機技術、有持之以恒的學習能力,還要對有3000年歷史的彝文有著精準的把握。
沙馬拉毅的專業(yè)是漢語言文學和少數(shù)民族語言文學,作為彝族學者,成長于四川涼山彝族聚居區(qū),他具備堅實的語言基礎。他以超強的毅力,快速跟進計算機信息技術,從而做到將彝文信息化。在沙馬拉毅看來,這條路只有起點,且路途遙遠。即便現(xiàn)在,他仍然工作不止,心心念念的是彝文的規(guī)范化與現(xiàn)代化,不停思索的是民族語言信息化的人才培養(yǎng)。
伴隨著移動終端的迅速興起,沙馬拉毅組織團隊,率先開發(fā)出手機彝文,使用彝文的老百姓只要打開手機,就可以直接使用。
因為有了沙馬拉毅這樣標桿性的人物,西南民族大學創(chuàng)立了文字信息處理的本科專業(yè),后來又以此為基礎,申報了民族文字信息處理的碩士點及博士點。本科專業(yè)相繼培養(yǎng)了108名畢業(yè)生,碩士專業(yè)已畢業(yè)47人。他們畢業(yè)后,多數(shù)成為民族文字信息化的中堅力量。
彝語有六大方言,其差異主要表現(xiàn)在詞匯上,語音也有所區(qū)別,各地的文字也有較多的異文別體。沙馬拉毅一直認為,彝文的現(xiàn)代化與信息化,首先離不開彝文的規(guī)范化。因此,沙馬拉毅將自己的大部分精力用在彝文的規(guī)范化工作上。
2009年5月,云、貴、川、桂四地啟動彝文規(guī)范工作,成立四省區(qū)進一步規(guī)范彝文領導小組,沙馬拉毅任副組長之一,還擔任專家組組長。不久,他又擔任了全國彝語術語標準化工作委員會主任。
在沙馬拉毅的努力下,進一步規(guī)范彝文領導小組開展了從古彝文中篩選通用彝文的工作。從云、貴、川、桂的彝文古籍中篩選出5589個彝文字詞作為通用文字,然后進行宣傳、普及、推廣通用彝文的工作。
沙馬拉毅作為規(guī)范彝文的主要普及推廣人員,已組織貴州編寫了6冊小學教材,出版了5冊。最近幾年,國家民委雙語人才培訓基地已經在云、貴、川、桂舉辦彝漢雙文等培訓班,培訓學員1600多人次。
沙馬拉毅說,下一步打算編寫規(guī)范的通用彝文字典、詞典,繼續(xù)推進通用彝文的計算機編碼處理。彝文信息處理現(xiàn)在是單字輸入,沙馬拉毅正帶領自己的團隊研究聯(lián)想輸入、詞匯輸入。他還和科大訊飛公司聯(lián)合搞彝語語音智能化研究,已經在四川省樂山市成立了彝語智能化研究院。
對于沙馬拉毅而言,創(chuàng)新創(chuàng)造沒有止境,科學研究沒有終點。他仍然飽含激情,奔忙在民族語言文字發(fā)展進步的大路上。
資料來源:中國民族報