版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

為什么 中文 不 需要 空格

浙江省科學技術(shù)協(xié)會
浙江科普是浙江省科協(xié)旗下官方科普賬號。
收藏

作者:黃林潔瓊

當我們閱讀英文時,如果單詞之間沒了空格,一個句子在我們看來會變成!@#¥%……&*()這樣的一串近似亂碼的字符。然而,當我們在中文句子的詞與詞之間添加空格時,似乎又顯得有些冗余,例如 當 你 看到 這 句 話 的 時候……


不加空格的英文與加空格的中文(圖片來源:編輯自制)

事實上,即使對于英語母語者來說,用空格分隔單詞對閱讀也是十分必要的。那么,為什么英語需要空格來分隔單詞,而中文卻不需要呢?這種差異背后有什么深層原因?中國科學院心理研究所的科學家們通過研究,發(fā)現(xiàn)這里面有一個“經(jīng)濟”問題。
空格自帶“信息量”

中英文里還不一樣

英語作為一種字母書寫系統(tǒng),每個字母表示一個音素,通常由多個字母組成一個單詞。英語文本用空格清晰而明確地標記了一個詞的起始和結(jié)束位置,即詞邊界。中文就不需要標記詞邊界么?
中文是一種典型的表意書寫系統(tǒng),每個漢字表示一個音節(jié)或語素。中文文本由連續(xù)的漢字組成,不同的詞之間沒有用空格分隔。大多數(shù)中文詞可以用一到兩個漢字表示,詞長較短且變化較?。ㄆ骄~長為1.40個漢字,標準差為0.57)。因此,中文讀者在閱讀時容易預測詞的長度,從而更快識別詞的開始和結(jié)束位置,即中文詞邊界位置的不確定性較小
相比之下,英語單詞往往由多個字母組成,且詞長的變化較大(平均詞長為3.78個字母,標準差為2.04),這使得英語讀者較難預測每個單詞的開始和結(jié)束位置,即英語詞邊界位置的不確定性較大。
研究者基于大規(guī)模語料庫,運用信息論方法量化了27種語言中空格為確定詞邊界提供的信息量。研究結(jié)果表明,不同書寫系統(tǒng)是否采用空格標記詞邊界與空格提供的詞邊界信息量有關(guān):在采用空格的書寫系統(tǒng)如英語中,空格提供的信息量更大(2.90比特);而在不采用空格的書寫系統(tǒng)如中文中,插入的空格提供的信息量更小(1.10比特)。

27種語言中詞間空格為確定詞邊界提供的信息量

空格信息量差異的根本原因與不同書寫系中詞邊界位置的不確定性有關(guān)。**中文詞邊界位置的不確定性較小,即使在詞和詞之間插入空格,其為確定詞邊界提供的額外信息有限;而英語詞邊界位置不確定性較大,詞間空格可以為確定詞邊界提供更多的信息量。**空格的“信息量”

對讀者到底有啥用?

空格為詞邊界提供的信息量反映了在閱讀無空格文本時,讀者為詞切分付出的認知努力。
**在沒有空格的情況下,讀者需要將一行連續(xù)的字符串切分為不同的詞,即詞切分,也就是平時我們所說的“斷句”。**在這個過程中,讀者需要利用語境信息和語言知識進行詞切分。并且在一些情況下詞切分的結(jié)果可能是錯誤的,這時讀者需要檢測和修正詞切分錯誤。例如,不少讀者在看到“世界杯中日韓進入16強”這一新聞標題時,會將其切分為“世界杯/中日韓/進入16強”。而在閱讀了新聞內(nèi)容后,讀者發(fā)現(xiàn)新聞并不像預想的那樣,從而意識到切分錯誤,并將標題的切分修正為“世界杯中/日韓/進入16強”。
**讀者在詞切分過程和檢錯糾錯過程中付出的認知努力都將影響閱讀速率。**英語的空格信息量較大,文本去掉空格后,讀者需要付出更多認知努力進行詞切分,更容易出現(xiàn)詞切分錯誤;但中文如果在文本中插入空格,空格提供的信息量較小,讀者不需要付出太多認知努力切分無空格文本。因此,英語傾向于使用空格以減少詞切分的認知負擔,而中文則選擇不使用空格。
與該研究發(fā)現(xiàn)一致,以往研究表明改變詞邊界的標記方式對不同語言讀者的閱讀效率產(chǎn)生了不同影響。這些研究發(fā)現(xiàn),在空格信息量較大的書寫系統(tǒng)(如英語)中去掉空格,閱讀速率大幅下降約50%;而在空格信息量較小的書寫系統(tǒng)(如中文),即使插入空格,閱讀速率也不會顯著提升。

詞邊界的標記方式對閱讀效率的影響

用空格與不用空格

都是為了更“經(jīng)濟”?

英語選擇用空格,中文選擇不用空格,這可能都是為了實現(xiàn)閱讀的經(jīng)濟性而做出的選擇。
**在閱讀時,一個注視點的視覺感知范圍有限,空格的插入會導致讀者在一個注視點上感知的字符變少,從而降低視覺感知效率。**對中文而言,插入的空格提供的信息量小,讀者不需要付出太多的認知努力切分無空格的文本。因此,在中文中空格為詞切分帶來的效益不足以抵消它在視覺感知方面導致的代價,故中文不采用空格是更經(jīng)濟的。相對地,英語等字母書寫系統(tǒng)中空格提供的信息量較大,去掉空格會導致讀者付出更多的認知努力進行詞切分。因此,對于英語,空格為詞切分帶來的效益遠大于它在視覺感知方面導致的代價。
由此可見,雖然不同書寫系統(tǒng)或采用或不采用空格標記詞邊界,但都是為了達到高效閱讀,在權(quán)衡詞切分需要付出的認知努力和閱讀時的視覺加工效率后,選擇了更經(jīng)濟的詞邊界標記方式。歷史演化的證據(jù)

從字母書寫系統(tǒng)的演化歷史來看,人們逐漸改革書寫系統(tǒng),以實現(xiàn)最經(jīng)濟的詞邊界標記。
歷史上,字母書寫系統(tǒng)并非始終使用空格標記詞邊界。由于轉(zhuǎn)錄的口語中沒有詞邊界信息且書寫材料昂貴,早期書寫文本中沒有空格。讀者為了理解文本意義不得不出聲閱讀,導致閱讀效率較低。這一時期的書寫系統(tǒng)僅由少數(shù)抄寫員或傳教士使用。直到文藝復興時期,隨著大眾閱讀需求增加,這些書寫系統(tǒng)才逐漸加入詞間空格,提高了識字率和閱讀效率。由此可見,字母語言中加入詞間空格這一書寫系統(tǒng)的變革逐漸適應了人類的認知需求,更符合經(jīng)濟性原則。
相較之下,中文文本在歷史上一直沒有使用空格來標記詞邊界。標點符號的使用降低了中文文本的閱讀難度,使句子邊界更加清晰,幫助讀者更快理解句子的結(jié)構(gòu)和意思,從而提高了閱讀效率。
然而,**即使在使用標點符號后,中文仍未像字母語言那樣采用詞間空格。這表明標點符號的使用足以減輕中文讀者閱讀中的認知負荷,而空格帶來的額外效益不足以抵消其對視覺加工效率的負面影響。**中文這種與字母書寫系統(tǒng)不同的演化路徑也同樣遵循了經(jīng)濟性原則,在保留原有書寫形式的基礎上,通過較少的改動有效提升了閱讀效率。