NLP笔记（一）

来源：互联网发布：abb仿真软件track 编辑：程序博客网时间：2024/06/09 23:59

来源：Cousera哥大自然语言处理课程

一阶马尔科夫过程

P (X 1 = x 1, X 2 = x 2, . . ., X n = x n) = P (X 1 = x 1) \sum i = 2 n P (X i | X 1, X 2, . . ., X i - 1) = P (X 1 = x 1) \sum i = 2 n P (X i | X i - 1)

P (X 1 = x 1, X 2 = x 2, . . ., X n = x n) = P (X 1 = x 1) P (X 2 = x 2 | X 1 = x 1) \sum i = 3 n P (X i | X i - 2 = x i - 2, X i - 1 = x i - 1) = \sum i = 1 n P (X i | X i - 2 = x i - 2, X i - 1 = x i - 1)

设X−1=X0=∗，表示开始标志

example

Perplexity

这里写图片描述

Perplexity is a measure of effective “branching factor”

这里写图片描述

Unigram & Bigram converge quickly to its true underlying value.
Trigram has low bias, but need large datasets to get an accurate estimate to avoid “ZERO”.

这里写图片描述

这里写图片描述

0 0