【输入法相关论文】

来源:互联网 发布:三国志9优化伴侣说明 编辑:程序博客网 时间:2024/05/21 17:45

接下来要开始阅读输入法相关的论文了。特别希望有相关研究的朋友一起讨论哈!

那就从这篇开始。

Effects of Language Modeling and its Personalization on Touchscreen Typing Performance

(待续,只阅读了前言部分)

1.  评价问题:LM 内在的评价方法 如 perplexity 不一定对下层的应用有效,需要引入外在的衡量指标,是什么呢?typing accuracy是怎么计算的,后续得看。

2.  Adaptive LM  与 LM 的 personalization 问题。out-of-domain 与 in-domain 用户有用户的习惯,以及输入法聊天语料与常规语料的不一致

3. Corpus 文章中采用的语料很巧妙,

Our background model was a Katz-smoothed [16] bi-gram
LM trained on 114 billion words scraped from the publicly
 accessible
web in English.

Enron Corpus as an Evaluation Set
The Enron Corpus [18] is a large set of emails that were
collected by the Federal Regulatory Commission when the
Enron Corporation was under investigation in late 2001


4 . 一个概念,模拟输入: 在触屏控制的场景中,用户点击某个按钮时,实际点击的位置按2D高斯分布来进行采样处理。

虽然更复杂的模型可能更好地去刻画模拟输入的性能,但作者表示2D高斯分布这样的假设足以来对LM 的contribution 进行验证。

      三个简化假设: 1) 用户只输入a-z      2) 用户永远正确地输入空格   3) case-insensitive  (什么鬼? 用例迟钝?

      聚焦在 2D spatial noise, 而忽略其他方面的noise,如用户记错单词,看错单词,Inserted or deleted character 也忽略吗???

5.    文章中建模的思想还是很直观的

       如Spatial Score 表示为:

LM 与  Spatial Score的结合: (这个Object Function 的意义是最符合语言模型,即LM部分,但是空间误差损失最小,S(w|T))


LM 与 personal LM 的结合:





简化是建模的很重要的一步,从这篇文章中收获最大的点吧。




0 0
原创粉丝点击