找回密码
 注册
搜索
查看: 3083|回复: 0

[专栏] 【009】mdx 制作浅谈

[复制链接]
发表于 2017-9-13 23:27 | 显示全部楼层 |阅读模式
2016-12-22

作者:
GoldenDict
注:本文获作者授权,仅供本站使用,转载请联系原作者。

现代汉语词典 第 7 版
浅谈 qiǎntán
浅显地谈论 (多用于书名或文章标题) : ~环境保护问题 |《诗词格律~》。
汉英词典 第 3 版
浅谈 qiăntán
[usu. in titles of books and articles] brief talk:
• 《浅谈被动语态》A Brief Talk on the Passive Voice
现代汉语规范词典 第 3 版
金针度人 jīnzhēn-dùrén
传说唐人郑侃的女儿采娘,在七夕祭织女时,梦见织女送给她一根金针,从此她的刺绣更加精巧(度:传授)。比喻把技艺的诀窍传授给别人。
  mdx 制作入门简单,精通很难。
  mdx 制作有三重境界。
  • 第一重是,现有 mdx 基础上,改版、合并、提取词组等等,一般就是修改 css 或者改源文本 txt ,将排版、索引方式修改为自己喜欢的。
  • 第二重是,从其他格式转换,比如将 dsl 转为 mdx ,将 ld2 转为 mdx 。
  • 第三重是,自己获取数据,如破解提取、爬网抓取甚至人工录入,制作 mdx 。
特别说明:这三重境界在工作量、技术含量方面,没有多少众寡之分。改版 mdx 也可能工作量很大,抓网、破解工作量也可能较小。
  对 mdx 制作缺乏足够了解的朋友,常常会提出以下问题。
  Q: 为什么没有某某大词典 mdx 啊?
  A: 数据,没有数据!无中不能生有,狗嘴里吐不出象牙。扫描版固然可以制作为图片版 mdx/mdd ,但录入、整理词头,将词头和页面图片对应,耗费时间、精力也非常多。假如有结构良好的 XML 文本数据,要制作简单、朴素可用的 mdx ,那是分分钟的事情;当然,要做得精美,仍然是个费时费力的活,不过相比人工录入扫描版,工作量小多了。
  不提供文本数据或者潜在的文本数据来源信息,直接来一句:
  • “为什么没有***”
  • “怎么还没有***”
  • “谁能做,我这儿有扫描版 PDF 噢 [注: PDF 还是网络上随处可以搜到的版本]”
  • “谁有***,快发给我”
  这是很可爱的耍流氓或者说网络乞讨行为,近乎空手套白狼,期待他人冲锋陷阵、抛头颅洒热血、化腐朽为神奇,暴露了自己对于 mdx 制作缺乏足够的了解,对 mdx 制作者缺乏足够尊重,蠢萌蠢萌的。不过也可以理解,我刚开始也是这样的,所以我才写了上面以及下面的话。
  专注科普小白一百年,菜鸟小白们,你们的苦,你们的泪,我懂,不过,我写的文章,要看,要仔细看啊
  巧妇难为无米之炊,要获取数据,当然可以靠金钱去 copyright owner(s) 那里购买,有钱能使鬼推磨。但是,一般都不会这么去做的,原因你懂的(一般是没钱,二般是人家也不授权给个人)。大家各有金刚钻,大概有以下五种来源和办法。
  • 一、格式良好的文本数据
  • 二、从其他已经研究透彻的词典格式转换
  • 三、扫描词典文本化
  • 四、在线词典离线化
  • 五、破解
一、格式良好的文本数据
  • 部分开放版权的词典数据如康熙字典、说文解字、WordNet、CC-CEDICT、Wiktionary、W2 等
  • Kindle 文字版电子书(mobi、epub)
  • 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
  • 区分了词头、内容的两列或多列 Excel 表格
  • 自行整理、总结的各类适合制作为 mdx 的文本
  • 文字版 PDF (其实 PDF、mobi、epub 可以互转,但是效果看运气),有的好做,大部分尤其是多栏的、图文混排的很难做
  • 其他
特别说明:一些双语词典 OCR 得到的文本,稍加整理,也可以提取出词头、做成 mdx ,不过这是下下之策。
二、从其他已经研究透彻的词典格式转换
  GoldenDict 除了支持 mdx/mdd 格式外,还支持其他格式的词库。其他为 GoldenDict 所支持的词库,基本都研究透彻了,有公开可寻的方法将其转换为 txt ,进而转换为 mdx 。词典各种格式直接互相转换,这都不是新闻了。不过近年来,新作凋零, mdx、dsl 算是唯二仍间或有新作、佳作的词典格式。
  • ABYYY Lingvo: lsd/dsl(dsl 本质就是纯文本,和 txt 只是后缀不一样)
  • Babylon: bgl
  • Lingoes(灵格斯): ld2 [注:GoldenDict 仅 Android 版支持 ld2 格式]
  • StarDict: dict
  • EPWING(虽然可以转换,但是很难做到完美)
  • 其他
特别说明:文件后缀是个筐,什么都能装,我完全可以把 txt 后缀改成 f* 。我见过很多词典,数据格式后缀都是 .dict ,但是却并不是 StarDict 格式,这种也难搞,参考下面的“五、破解”。
三、扫描词典文本化
  • 词头文本化
    对扫描版词典进行索引,将词头和词头所在页面图片对应起来,进而制作为图片版 mdx/mdd 。
  • 内容文本化
    人工录入或者 OCR 后校对,将扫描版词典制作为文字版 mdx 。

四、在线词典离线化
  这应该是目前最流行的数据获取方式,因为很多词典,尤其是国外的词典,都有免费(或付费)的在线版,利用各种工具或者自行编写代码,抓取数据,制作 mdx 。
五、破解
  一些词典,发行有光盘版、软件版、app 等,一般数据都格式奇葩诡谲,加密层层上锁,不过理论上讲,都是可以提取成人类可读的明文,进而制作为 mdx 的。
  但是,但是,这个工作技术含量一般都很高,迄今为止,全宇宙据我所知只有三五个人成功提取过个别或者个别类型的词典数据(有这个能力的其实也不能算少,一百万人里应该至少有一个吧)。要请动这样的高手,要“勾引”这样的能人,太难了。何况,本是同根生,相煎何太急,就算是破解提取成功,也不见得会公开。你用钱砸都不见得能找到有如此神通的同好,但是,我们折腾词典,是出于学习的目的,真要伤筋动骨,那就太过了。
  现有的能公开找到的词典无论工作还是学习,八辈子都够用了。想要更多更好的,耐心等待,最多百八十年,版权期过了,现在所有的词典都会免费公开的。
  这是最好的时代,缺的不是学习资料,缺的是学习的时间以及自律、坚持;这是最坏的时代,诱惑如此之多,难以专注。
  感谢您分配宝贵的注意力给这篇文章。
  封面图片来自 takako tominaga @flickr © CC BY-SA 2.0
柯林斯 COBUILD 高阶英汉双解学习词典
» It was up to him to concentrate on his studies and make something of himself… 是否能专心学习并取得一定成就要靠他自己。
» He studied conscientiously and enthusiastically. 他一丝不苟、满怀热情地学习。
» Learning has got to be active and experiential. 学习必须积极,而且要汲取经验。
» He loves to learn, and has a boyish enthusiasm for life. 他热爱学习,对生活有一种少年般纯真的热情。
» Learning should no longer be an elitist pastime for the chosen few. 学习不应再是少数人的高级消遣。


您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|虎纹猫家园

GMT+8, 2024-4-20 09:01 , Processed in 0.017100 second(s), 14 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表