自然语言处理基础篇

这段时间跟着中科院刘群老师的课件以及其他乱七八糟的资料,在边抄边查的过程中把nlp的每个环节都吸收了一次。不敢说有什么很大的收获,但是对nlp的基础内容还是过了一边。(偏向算法)
现在新的模型不断在出来,dl吹的已经可以应用的样子了。 但是我觉得这些基础的知识对一个nlper是很有帮助的。现在dl很火,有很大的研究价值,但在工业上我保留个人意见。反而是一些经典的ml方法值得我们去学习。
没有代码

阅读全文

表情

跟着hran弄了一个泡泡表情,在这里选些觉得比较好玩的表情记录一下

输入 预览 输入 预览 输入 预览
#[what] #[啊] #[疑问]
#[阴险] #[真棒] #[鄙视]
#[不高兴] #[乖] #[哈哈]
#[汗] #[呵呵] #[黑线]
#[花心] #[滑稽] #[惊哭]
#[惊讶] #[开心] #[酷]
#[狂汗] #[懒得理] #[泪]
#[勉强] #[捂嘴笑] #[呀咩爹]
#[小红脸] #[太阳] #[心碎]
#[星星月亮] #[音乐] #[爱心]
#[便便] #[彩虹] #[茶杯]
#[大拇指] #[蛋糕] #[红领巾]
#[蜡烛] #[礼物] #[玫瑰]
#[haha]

阅读全文

自然语言处理基础篇--概率句法分析方法(PCFG)

CFG

乔姆斯基2型语法
上下文无关语法,上下文自由语法
对规则形式的约束:

  • $A \rightarrow \alpha$ A是非终结符,$\alpha$是任意串
  • 在任何上下文环境下A可改写为$\alpha$

PCFGS 的基本定义

5 元组 $(N, \sum, S, R, q)$

  1. 一个上下文无关语法的定义 $ G = (N, \sum, S, R) $
    • N 代表非终结符集合
    • $\sum$ 代表终结符集合
    • R 是规则 $X \rightarrow Y_1Y_2 \cdots Y_n $ 的集合,$X \subseteqq N$, $ Y_i \subseteqq (N \bigcup \sum)$
    • $ S \subseteqq N$ 是一个区别性的起始符号
  2. 参数 $q(\alpha \rightarrow \beta)$ , 代表了从$\alpha \rightarrow \beta$的条件概率,所有的加起来应该满足等于1

阅读全文