天下网吧 >> 网吧天地 >> 网吧技术 >> 网吧安全 >> 正文

搜狗输入法:10亿人名准确拼写之谜

2010-8-5天空软件佚名
p>  搜狗输入法独家推出的“人名智能组词”功能将中文输入带入了一个崭新的纪元,通过它,彻底解决了10多亿中国人的名字输入难题,极大提升了输入效率,让中文输入体验进一步变成了一种享受。日前,有关这一服务的技术原理被披露,终于让业界人士、热心用户一窥究竟。

  点击下载搜狗拼音输入法:http://www.skycn.com/soft/27159.html

  对于使用中文输入法的人来说,最痛苦的莫过于输入中文的人名。由于国人姓氏众多,且还有单字、二字甚至多字的“名”,千变万化,相对于其他日常词汇,输入效率最低,一度被认为是汉字输入体验的最大瓶颈。而对于输入法软件来说,自其诞生的那一天起,数十年来,都没有解决人名输入难题。按照传统的方案,要提升人名输入效率无非有两种方法:其一,依靠庞大词库实现,但在千奇百怪的国人姓名中,该办法太“笨拙”,不具有可行性;其二,利用“智能组词”,但也只能解决比较“大众化”的人名输入问题,而目前国人起名越来越注重个性化,导致这些人名词汇在统计语料中出现几率则相对较小,也很难照顾周全。

  搜狗输入法采用的是第三种方法,简单地说,通过智能判断用户的输入是否与“人名”相关,如果相关则开启“人名模式”,通过对拼音串应对中国人的起名习惯,结合搜狗最擅长的归纳总结技术,高效地分析、判别、取舍博大精深的中国姓名文化精华,自动组合称最可能的人名,并迅速呈现给用户,进而实现10亿人名的快速输入。

  据相关专利的发明者、搜狗输入法技术负责人透露,“人名模式”的最大技术难点在于排序。比如,当用户输入“wangxiaofeng”,如何让最普遍、最可能的人名排在结果的最前面。便捷、精准的输入体验背后涉及了海量的计算,在搜狗输入法后台,有一套精密运转的人名输入系统在指挥着一切。据了解,通过搜狗搭建的数据挖掘和人名识别平台,已根据中国人的起名习惯建立了一个庞大的人名字库,并分析计算出了人名用字的出现几率和组合概率。当人名模式开启时,整个系统即进入高效运作中,计算出同音下每个人名组合在实际使用中的出现几率,最终决定结果的顺序。

  统计显示,尽管中国人的姓名千变万化,但重名的现象极多,搜狗的人名输入词汇候选率可以达到90%以上。而对一些采用生僻字的人名,搜狗也能做到最大限度的纳入输入结果,保证了输入效率。而针对一些“泛滥”的人名,搜狗更是通过智能判断,将名字的结果直接作为了输入首选词。

  业内人士认为,从“人名模式”背后的技术原理可以看出,搜狗输入法已超越了简单的技术攻坚范畴,开始深入研究中国文化、民间的起名习惯,并将其转化为技术模型,从而彻底解决困扰输入法数十年的难题。据了解,单单是这一服务搜狗就已经申请了多项技术专利,这在输入法领域,绝无仅有。据搜狗的监测发现,每天利用搜狗输入法输入的人名超过2亿个,如果以每次输入节省1秒时间计算,这相当于为国人节约了6年多时间,无形中为社会创造了一笔巨大财富。

  对人名输入瓶颈的突破是中文输入领域的里程碑事件。从毕昇发生活字印刷开始,国人对文字的录入开始走向智能化、标准化的历程,而著名科学家王选发明的汉字激光照排系统被誉为“汉字印刷术的第二次发明”,尔后相继诞生的各种输入法则迅速提升着国人的输入效率,搜狗在人名输入等方面的技术创新,让国人跨越了“提升输入效率”的基本追求,真正开始进入“享受输入”的全新时代。

本文来源:天空软件 作者:佚名

声明
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 Email:support@txwb.com,系统开号,技术支持,服务联系微信:_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧·网吧天下
  • 本周热门
  • 本月热门
  • 阅读排行