熊健,鲍玉,徐秡
广州大学学报(自然科学版). 2020, 19(6): 41-50.
摘要 (
)
PDF全文 (
)
可视化
收藏
传统的文本分类方法多是基于词语本身.由于中文词语的复杂庞大,并且不断增加,直接用词语作为研究对象,容易造成文本特征向量的高度稀疏性和维数灾难,使得处理起来效率不高,难以计算.但是其词性的种类是固定不变的.随着中文分词和词性标注的研究越来越完善,使用词性作为文本分析的研究对象,吸引了越来越多公众和研究人员的兴趣.文章提出基于非参控制图的文本分类方法,仅使用句子中的各词性出现次数作为文本分类研究的特征值.利用中文自然语言处理平台,对句子进行词语切分以及词性标注,并保留出现次数最多的5个词性,计算每个词性在句子中的占比,进行等距对数比变换.最后把处理好的数据放入基于多元符号指数加权移动平均(MSEWMA)控制图模型中判别类型.该方法思想原理简单、容易实现、训练后处理速度快,通过实验证实可以很好地区分文本类别.