Re: Bug#478811: ITP: sunpinyin -- An input method engine based on SLM

Deng Xiyue Mon, 05 May 2008 07:09:53 -0700

在 2008-05-05一的 21:36 +0800，Kov Chai写道：
> -----BEGIN PGP SIGNED MESSAGE-----
> Hash: SHA1
> 
> 
> 
> 2008/5/5 Deng Xiyue :
> > 在 2008-05-05一的 14:04 +0800，Kov Chai写道：
> >
> > >
> >  >
> >  > 2008/5/5 ZhengPeng Hou :
> >  >         --12:25:37--
> >  >         
> > http://mentors.debian.net/debian/pool/main/s/sunpinyin/sunpinyin_1.0.orig.tar.gz
> >  >                   => `sunpinyin_1.0.orig.tar.gz'
> >  >                   Resolving mentors.debian.net... 64.79.197.109
> >  >                   Connecting to mentors.debian.net|
> >  >         64.79.197.109|:80...
> >  >                   connected.
> >  >                   HTTP request sent, awaiting response... 200 OK
> >  >                   Length: 39,363,185 (38M) [application/x-gzip]
> >  >         38M? 都是什么啊
> >  >
> >  > 38M 是有点大。主要是 data 目录下的四个文件。 lm_sc.t3g.{sparc,i386}
> >
> > > (6727K*2), pydict_sc.bin.{sparc,i386} (23M*2)。前者是线索化后的语言模
> >  > 型数据[1]，目的是加速查找速度和压缩数据，差不多就是建立索引的效果，有
> >
> > > 了它能较快地计算 n-gram 语言模型里一串单字 (S = {W_1,W_2, W_3, ...,
> >  > W_n}) 成为该语言模型里一个句子的概率 P(S)。后者则是词表（lexicon），或
> >  > 者说是大家常说的输入法的词库，这个词表支持不完全拼音和词到词的转换。由
> >  > 于要支持 big endian 和 small endian 的体系架构，所以干脆就把两种情况下
> >  > 的数据文件都弄上来了。
> >
> >  听起来像是应该与架构无关的数据， big endian/small endian 的转换不是在程
> >  序中进行而是提供不同的数据？感觉应该可以避免。
> 我想 big endian 和 small endian 就是架构不同的体现吧？ 虽然不是一一对应的关系，而是 n 对 2 的关系。
> big endian 和 small endian
> 的确不是在程序中进行的。我想这是基于性能和易于编程的考虑。可以避免什么呢？避免同时提供两份事实上是同样的数据么？


是的。如果是同样的数据，而仅仅因为数据顺序不同而提供两套未免有些小题大
作 :P 而转换数据的开销应该不至于大到需要提供两套数据的地步。

> >
> >
> >  >
> >  > 有没有必要把数据文件单独作为一个 package，放到 sunpinyin-data 里面去
> >  > 呢？还是有更好的办法呢？
> >
> >  如果是与架构无关的话，单独提取到 -data 里可以节约仓库的空间。不过目前看
> >  起来并非如此。
> 放到 -data 里的确可以节约仓库的空间啊，如果 mirror 同时提供同种 endian
> 的几种架构，那么就可以节省一些空间。而且如果用户同时使用 iiimf-le-sunpinyin-chinese 和
> scim-sunpinyin，那么用户没有必要同时保存两份数据。尽管这个可能性不大。

确实，可以将两个都打包成 arch: all 的包，然后在不同的架构上依赖不同的
包。

> 
> -----BEGIN PGP SIGNATURE-----
> Version: GnuPG v1.4.6 (GNU/Linux)
> 
> iD8DBQFIHw1PC8hyx6EmTc0RApiQAKCl4LqzihlObmuaKXSfv4mmH29nogCghP2x
> oOvIJJXAJBuIxSArmghbZR8=
> =bJ0e
> -----END PGP SIGNATURE-----
-- 
Regards,
Deng Xiyue, a.k.a. manphiz

signature.asc
Description: 这是信件的数字签名部分

Re: Bug#478811: ITP: sunpinyin -- An input method engine based on SLM

回复