基于汉语分析的中文分类方法
战学刚姚天顺
东北大学计算机科学与工程系沈阳110000
ics@maillieueduCII
摘要标题同文章的主题有着密切关系。在人工分类过程中,大多数文献的类别均可通过其标题来判
定。基于这一事实,本文提出一种复合分类方法,它将汉语分析技术同传统分类方法结合起来。即对文
献的标题进行语法分析,求出标题中对于分类有意义的核心词汇,从而确定文献的娄另lI。当技种方法无
法判定类别时,则用基于词汇的统计方法进行分类。实验结果表明,这种方法在精度和效率方面均高r
单纯的统计方法。
关键词文献分类,语法分析,自然语言理解
A
ChineseDocumentClassificationMethod
BasedOll
SyntaxAnalysis
Zhan andYaoTianshun
Xuegang
Departanent Science,Northeastern 1 10006
ofComputer University,Shenyang
cn
nell.edu
ics@mail
AbstractThe ofa
title docmnentis relatedtoits Basedonthefacttlmt
closely topic
canbe classified totheir a documentclassification
manually according titles,wepropose
hybrid
methodflmtcombines oftheChinese andtraditionalclassificationmethodIt
syntaxanalysis language
extracts words a thewordstoa
significant parserand,ifsuccessful,maps
thmugh corresponding
it to The
category.Iffatts,weusethetraditiohalstatisticalclassificationmethod
decide‰category
experimentalresultsshowthatthe methodisbetterthanthe traditionallnethodin
hybrid pure
performance
words
Key document
classification,syntaxanalysis,naturallanguageunderstanding
·412·
1引言
文献分类就是将大量的文献归到一个或多个文献类别中。文献分类一般是通过统计方
法或知识工
1万+

被折叠的 条评论
为什么被折叠?



