经过了2个多月的改进,终于深蓝词库转换2.0版正式与大家见面了。在1.9版本中增加了对Rime拼音输入法的支持,也得到了网友的反馈,所以在2.0版本中增加了几个新功能:
一、支持多种编码的Rime输入法。
Rime输入法是一款跨平台的输入法框架,在Windows下叫小狼毫,Linux下叫中州韵,Mac下叫鼠须管。这个输入法框架异常强大,支持各种常用的输入法,而且还可以通过简单的配置自定义输入法。深蓝词库转换在1.9版本中增加了对Rime拼音输入法的支持,现在在2.0中进行了增强,除了拼音外,还能够导入导出五笔、注音、仓颉和其他输入法编码。
例如要将一个QQ拼音的分类词库转换成Rime的五笔词库,那么在深蓝词库转换中选择qpyd格式的词库源,目标输入法选择“Rime中州韵”,系统弹出输入法类型选择窗口,在下拉框中选择“五笔”并确定:
然后单击“转换按钮”即可完成词库的转换,将转换结果保存到硬盘上。
接下来到Rime输入法中(以小狼毫为例),选择“用户词典管理”选项,打开词典管理窗口,选中左侧的wubi86,然后单击“导入文本码表”即可完成词库的导入。
用同样的方法,可以导入注音(与地球拼音使用同一个词库,terra_pinyin),仓颉(cangjie5)。当然还有明月拼音(luna_pinyin)。
特别要感谢Rime输入法的作者佛振的指点,才能完成对仓颉输入法词库的生成,在仓颉输入法中对一个词进行编码相当特别,不像郑码、五笔的编码那么简单。
二、支持多种编码的小小输入法。
小小输入法也是Rime输入法一样是一个通用的输入法框架,可以支持多个平台(Windows、Linux等),多个输入法编码。之前1.9版已经支持小小输入法的拼音,在2.0版中进行了增强,能够支持:五笔、郑码、二笔、拼音和其他编码。
比如要将一个搜狗细胞词库转换为小小输入法的郑码词库,那么可以在深蓝词库转换中选择该scel细胞词库作为源,目标词库选择“小小输入法”,系统会弹出一个编码类型选择窗口,在下拉列表中选择“郑码”,然后单击确定按钮:
单击“转换”按钮即可将词库转换为郑码格式,然后保存到硬盘上。
接下来将保存的词库文件复制到小小输入法的安装目录mb文件夹下。然后在小小输入法的属性设置窗口中,左侧选择“郑码”,右侧分词库中输入该词库的路径。
单击“确定”按钮,回到小小输入法,在郑码模式下,我们输入郑码便能够匹配我们导入的词库,如图所示:
同样的方法,可以将五笔、二笔、拼音导入到小小输入法中。
三、增加了对灵格斯ld2词典格式的支持和英语词库支持。
关于英语词库,在很久很久以前就有人提出过该需求,但是由于没有办法解析英语词库,所以一直搁浅,直到最近终于参考了网友的ld2解析办法(http://code.google.com/p/dict4cn/),终于在深蓝词库转换中实现了对灵格斯ld2词典格式的解析,能够以此为源,导出其词条作为能够支持英文输入法的词库。这个功能对于需要输入专业英文的用户很有用,比如医学、金融、化工、法律等等都有专业的英文词典,这些词在输入法中很难自动联想出来,现在只需要下载一本专业的英语词典,然后通过深蓝词库转换导入到能够支持英语词库的输入法中,便可在该输入法中快速录入英文。调查了下英文输入法的支持,结果如下:
搜狗拼音输入法虽然在打2次英文词后会记录下来,但是在导出的用户词库中没有英文词库。
百度PC输入法支持英文词库的导出,在词库最下面,使用“英语单词Tab词频”的格式。
百度手机输入法支持独立的英文词库导入导出,命名为en2.txt,使用“英语单词Tab词频”的格式。
QQ拼音输入法支持单独对英文词库的导出,使用“英文单词,词频”的格式。
谷歌输入法不支持英文词库导出。
我们以腾讯QQ拼音输入法为例,在灵格斯官方网站下载一个英汉医学大词典,然后运行深蓝词库转换,将词库源选择“灵格斯ld2”,系统将会弹出ld2编码设置窗口,选择该词典的编码,对于一般英汉词典,估计是UTF-8格式,如果接下来导出的是乱码,那么说明编码格式不对,需要重新选择,重新导一次,还是不对的话就再换一种编码。
单击“确定”按钮,然后选择目标词库为“QQ拼音英文”。然后点击“高级设置”的“词条过滤设置”选项,在设置窗口中去掉“过滤包含英文的词”,如果想导出词组的话,那么还要取消“过滤包含空格的词”,然后单击确定。
然后单击“转换”按钮即可将灵格斯词库转换为QQ拼音的英文词库格式,保存到硬盘上。
然后到QQ拼音输入法的词库设置界面,单击英文用户词库下的“导入”按钮,选择我们转换而来的词库文件,即可将灵格斯词库导入到QQ拼音中。
四、增加了简繁体转换功能。
这个功能主要是为使用繁体中文输入法的用户(台湾、香港等)而准备的。比如在Rime输入法中,默认是繁体中文的词库,如果导入的词库是简体中文,那么Rime会认为这是2条不同的词条。所以在导入时需要将简体转换为繁体。另外还有就是仓颉、五笔等字型输入法,繁体和简体是完全不同的编码,不能等同。
以Rime为例,要导入一个繁体版的仓颉编码。那么选中源词库和目标词库,然后在高级设置的“简繁体转换设置”选项中,选择“转为繁体”。转换组件