找回密码
 注册
搜索
查看: 3408|回复: 0

[专栏] 【080】真实(最小)收词量@朗文当代高级英语辞典(英英·英汉双解)(第5版)

[复制链接]
发表于 2017-10-9 23:44 | 显示全部楼层 |阅读模式
2017-03-03

作者:
GoldenDict
注:本文获作者授权,仅供本站使用,转载请联系原作者。

                                                                                                                                                                                                                                                                                                        
                                                                                                                                                                                    
  • 典评:朗文当代高级英语辞典(英英·英汉双解)(第5版)[1]
    文中有下面一席话:
    ►《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)真实词头数 42244 ,去重后 38016 个。
    ► 去重的意思是将类似 abandon¹,abandon² 这样的“多”词头视为一个。
    ► 您没有看错,哪怕是《朗文当代》这样看上去个头很大的词典,真实的词头数也就四万左右。
    ► 哪怕词典里每个单词都认识,也只不过达到了欧美母语英语人士的大学毕业生水平,当然,这对于母语人士而言,也已经是不低的标准了。

这 38016 和宣传语里的“230,000词条”差距也忒大了点吧,有无(yi)数(ge)朋友希望进一步了解下,故有此文。
  • 母语为英语人士的词汇量究竟有多大?
  • 我们自己的词汇量又有多大?
  • 人掌握或使用的的词汇量究竟怎么计算?
  • ……
上面这些问题,我都不打算在这里回答。哈哈,来打我啊,因为我确实也不知道答案或者说这些问题根本就没有标准答案。
这里只谈一个小小的话题,那就是《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)的真实收词量。
我自己弄了个“真实收词量”概念,如有雷同,纯属巧合。
《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)
entry
STH WRITTEN 文字
C
  a piece of writing in a DIARY, or in a book containing information such as a dictionary 〔日记的〕一则;〔词典等的〕条目
» a dictionary entry 词典的条目
朗文當代大辭典(英英·英漢雙解)
head·word
/ˋhɛdˏwɝd; ˈhedwɜːd/
n
the word which is written at the beginning of a description of its meaning, especially in dictionaries 標題詞;〔詞典中的〕詞目﹐首詞:
» The next headword is ‘heady’. 下一個詞目是 heady。
headword 条目引自《朗文當代大辭典》(英英·英漢雙解),和《朗文当代高级英语辞典》(英英·英汉双解)的区别,可参考:外研社的朗当高 vs 商务印书馆的朗当大
真实收词量也就是最小收词量,和虚假(广告、宣传、最大)收词量相对,具体到《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)。
  • entry 最前方的 headword ,加粗,有音节划分,算一个
  • 同形异义词算一个
截取朗五双解部分正文如下图。


  • 真实(最小)收词量是 2,collateral 和 colleague ,这也是符合我们直觉的计算方法。
  • 虚假(广告、宣传、最大)收词量是 9
    • collateral¹ 贡献为 3 ( 1 个义项 + 1 个派生词 collateralize + 1 个同义词 security );
    • collateral² 贡献为 4 ( 3 个义项 + 1 个短语 collateral damage);
    • colleague 贡献为 2 ( 1 个义项 + 1 个同义词 co-worker)
《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版) 广告语里的:
收录单词、短语和释义共计 230000 个同义、反义和相关词
令人瞠目结舌的 230000 就是这么来的,重复计数等办法都用上了。那么我前面提到的“真实词头数 42244 ,去重后 38016 个”又是怎么来的呢?
《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版) 光盘版虽然不堪一用,但是也有一些有用的文件和信息。…\program\Data\LDOCE5.mdb 。
LDOCE5.mdb 这个文件是 Microsoft Access Database 文件(居然还是 2000 版本),可以用 Microsoft Access 打开,里面 ldoce_bre_links 这张表很关键:


  • 第一列 WORD_ID 已经揭示了秘密,最大是 42244 ,也就是说词头数是 42244 ;
  • 第二列 search_TEXT 就是词头,但是如图,有 42231 = zoom1、42232 = zoom2 这种情况,也就是说在 42244 这个数字里, zoom 贡献了 2 ,这和我们“真实(最小)收词量”精神不符啊,把这一列复制出来,把 zoom1 、zoom2 这种处理成 zoom、zoom, 也就是去掉后面的数字然后去掉重复的,Bingo! 就得到 38016 。
当然,处理的时候有点误伤,比如 G8 ,可能把数字 8 删除后,它和 G 条目重复,所以就被删了,不过这种条目很少,我懒得再精确处理了。
LDOCE5.mdb 这个文件,可以玩出很多花样,大家持续关注不要取关噢,我时间充裕的时候会折腾一下。
所以,《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)的真实(最小)收词量也就四万左右。
根据我的使用体验,阅读一般性质的英文文章,比如我每日必读的体育消息(NBA、英超、西甲赛况之类的),偶尔会遇到一些在 LDOCE 中查不到的词。今天遇到的 hyperextend,无论 LDOCE 还是其他任何一部高阶英语学习型词典,都没有收录。
Durant hyperextends left knee; Warriors to bring back Barnes
HOWARD FENDRICH
Associated Press March 1, 2017
新牛津英汉双解大词典(第 2 版)
hyperextend /ˌhaɪpərɪkˈstend/
verb
[with obj.]
forcefully extend a limb or joint beyond its normal limits, either in exercise or therapy or so as to cause injury (对肢体或关节)用力伸展, 过度伸展。
重复下最前面的观点,哪怕是《朗文当代》这样看上去个头很大的词典,真实的词头数也就四万左右。
哪怕词典里每个单词都认识,也只不过达到了欧美母语英语人士的大学毕业生水平,当然,这对于母语人士而言,也已经是不低的标准了。
出现在学习型词典上的每个词,都是要背下来的噢,一起加油吧,少年。




您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|虎纹猫家园

GMT+8, 2024-4-20 08:55 , Processed in 0.023860 second(s), 14 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表