基于非参控制图的文本分类方法

熊健,鲍玉,徐秡

PDF(3364 KB)
PDF(3364 KB)
广州大学学报(自然科学版) ›› 2020, Vol. 19 ›› Issue (6) : 41-50.
论文

基于非参控制图的文本分类方法

  • 熊健,鲍玉,徐秡
作者信息 +

Textclassificationmethodbasedonnon-parametercontrolgraph

  • XIONGJian,BAOYu,XUPeng
Author information +
History +

摘要

传统的文本分类方法多是基于词语本身.由于中文词语的复杂庞大,并且不断增加,直接用词语作为研究对象,容易造成文本特征向量的高度稀疏性和维数灾难,使得处理起来效率不高,难以计算.但是其词性的种类是固定不变的.随着中文分词和词性标注的研究越来越完善,使用词性作为文本分析的研究对象,吸引了越来越多公众和研究人员的兴趣.文章提出基于非参控制图的文本分类方法,仅使用句子中的各词性出现次数作为文本分类研究的特征值.利用中文自然语言处理平台,对句子进行词语切分以及词性标注,并保留出现次数最多的5个词性,计算每个词性在句子中的占比,进行等距对数比变换.最后把处理好的数据放入基于多元符号指数加权移动平均(MSEWMA)控制图模型中判别类型.该方法思想原理简单、容易实现、训练后处理速度快,通过实验证实可以很好地区分文本类别.

Abstract

Traditionaltextclassificationmethodsaremostlybasedonwordsthemselves.Duetothelargeandin-creasingcomplexityofChinesewords.DirectuseofChinesewordsastheresearchobjectislikelytocausehigh-lysparseanddimensionaldisastersoftextfeaturevectors.Sotheprocessinginefficiencyisdifficulttocalculate.But,thenumberofpartsofspeechdoesnotchange.WiththeprogressofChinesewordsegmentationandpartofspeechtagging,useofpartofspeechasanobjectofstudyintextanalysishasattractedgrowinginterestfromthegeneralpublicandresearchers.Thepurposeofthispaperistoproposeatextclassificationmethodbasedonnon-parametercontrolgraph,whichonlythefrequencyofoccurrenceofeachpartofspeechinsentencesisusedastheeigenvaluetostudytextclassification.ByusingtheChinesenaturallanguageprocessingplatform,thesentencesaresegmentedintowordsandmarkedwithpartofspeech,andthe5partsofspeechthatappearmostoftenareretained.Calculatetheproportionofeachpartofspeechinasentenceandtransformsthedatabyiso-metriclog-ratiotransformation.Finally,theprocesseddataareputintoamultivariatesyntheticexponentiallyweightedmovingaverage(MSEWMA)controlcharttodiscriminatethetypes.Theprincipleofthismethodissimple,easytoimplement,andtheprocessingspeedaftertrainingisfast.Experimentalresultsshowthatthismethodisabletodistinguishtextcategories.

关键词

文本分类 / 词性标注 / 等距对数比变换 / MSEWMA控制图

Key words

textclassification / partofspeechtagging / isometriclog-ratiotransformation / MSEWMAcontrol

引用本文

导出引用
熊健,鲍玉,徐秡. 基于非参控制图的文本分类方法. 广州大学学报(自然科学版). 2020, 19(6): 41-50
XIONGJian,BAOYu,XUPeng. Textclassificationmethodbasedonnon-parametercontrolgraph. Journal of Guangzhou University(Natural Science Edition). 2020, 19(6): 41-50

参考文献

[1] JozefK,PetrH,MichalM,etal.Comparisonoffakeandrealnewsbasedonmorphologicalanalysis[J].ProcediaComput erScience,2020,171:22852293. [2] 许姣姣.基于成分数据的多元质量控制图[D].太原:山西大学,2019.
PDF(3364 KB)

142

Accesses

0

Citation

Detail

段落导航
相关文章

/