搜狗云输入的“脑容量”200亿本《新华字典》

作者:向扬网络公司 日期:2025-03-13 09:23:22
“敲入mantiandaxue,出来的正是‘漫天大雪’,为什么不是‘满天大雪’,或者‘漫天大学’?”网民小姚在网上提出了这样的问题。

深圳网站制作

(企业网站建设)  小姚不知道的是,输入法如此“善解人意”的背后,决定性因素是一种名为“语料”的东西。

深圳网站建设

日前,搜狗输入法宣布,其语料库容量已超1TB,是其他中文输入法的数十倍,对于韩文、日文等语系,这更是“天文数字”。  “享受输入”之谜(网络优化)  小姚是搜狗输入法的忠实粉丝,“平时用习惯了倒没觉得什么,一次重装系统无法上网,只用系统自带的智能ABC,那种感觉太痛苦了,一夜回到了解放前。”  在中国上网的计算机中,有80%安装了搜狗,他们与小姚一样,已经习惯了“享受输入”。(网站建设)  “语料”正是重要的幕后功臣之一。据搜狗输入法工程师介绍,很多人都知道“词库”,词库越大,则输入法越聪明,不过“语料库”的重要性有过之而无不及,它决定了词库中词汇的组合,并且决定了哪一个词被排在输入结果的前面。  一般来说,语料库越大,则输入效率越高。据统计,目前多数输入法语料库大约在40GB~150GB,搜狗输入法的1TB,即约1000GB,多出数十倍。如此庞大的信息量相当于200亿本《新华字典》收录的字数。  搜狗的自我挑战(做网站)  虽然已远比对手“聪明”,但搜狗还在“自己跟自己较劲”。按照搜狗语料库目前的容量,它的输入准确率可以接近90%,而其他输入法只有50%~80%,但当这个容量再扩大,它对输入效率的提升将越来越难。  对此,搜狗做了两方面的工作,力图让语料库爆炸增长:其一,发挥“人肉”的优势,让用户贡献;其二,通过搜索引擎抓取互联网上的词汇。  显然,围绕“语料”,搜狗已率先找到了一条可让其无限、爆炸增长的路,这也是过去几年里,它能引领输入体验潮流,不断推高文字录入效率水准的原因。  中文输入的未来(网站推广)  回首输入法的发展历程,它已从过去的“单机软件”变成了今天来自云端的“互联网服务”,集搜索引擎、大规模数据处理、自然语言处理、大规模网络并发处理等多项技术于一身。  业内人士指出,搜狗对文字输入的大贡献在于,它既给出了输入法的宏观方向,又形成了自己体系化的方法论。(企业网站建设)

搜狗云输入的“脑容量”200亿本《新华字典》由向扬网络编辑https://www.hc228.com/hd/4425.html 如需转载请注明出处

深圳网站建设 深圳微信小程序 深圳做网站 深圳网站设计 深圳网站改版 深圳门户网站制作 陆丰网站建设 保定网站建设 长沙网站建设 宁波网站建设 北海网站建设 鞍山网站建设 汕头网站建设 东莞网站建设 大庆网站建设 柳州网站建设

分享到:

更多资讯