厦门仲鑫达自动化设备有限公司
李婉莹18030235312/0592-5856208QQ:3004830743
仲鑫达在工业自动化分销领域为客户提供广泛的产品,快速的服务为客户提供优势的定价,高效准时的出货服务,称职和经验丰富的仓储部门使我们能够满足客户的各种要求。在仲鑫达,所有成员都致力于专注和持续关注工业零部件现象或问题,随时提供充分的
各种各样的产品
24小时内发货
在全国范围内交货
我们储备充足的仓库构成了以需求为基础的准时供应的基础。因为可靠性和快速,完整的交付是我们业务的基础。从这里,我们的客户和分支机构都提供货物。
文档级别的文本表示,最常用的特征表示方法是词袋(Bag-of-Word,BOW)模型[41]以及向量空间模型(VectorSpaceModel,VSM)[74]。这两种表示方法都是将文档表示成与文档集词典大小一样的稀疏向量,不同的是每个维度值的计算方式。BOW模型将文档看成是装着词语的袋子,如果某个词语在这个袋子里面,那么该词语在向量中对应维度的取值就是该词语的频次,其余维度取值为0。VSM将一个文档看作空间中的向量,向量的每个维度取值与对应的词语在文档集合中的分布有关,一般采用TF-TDF方式进行加权计算。
对于文本情感分类问题,2.2中提及的机器学习算法中,很多都是采用VSM对文本进行特征表示,然后训练分类器,再进行情感分类。在进行VSM特征学习之前,文档集词典的建立是关键的一步,一般可以如下处理:先获取文档集中的所有词项,然后按照一定规则进行过滤(如低频词、高频词过滤,同义词合并),再结合已有的情感词典(如WordNet)来获取最终的文档集词典。关于词项,一般使用unigram模型,只取在已知词典(如牛津词典)的词语作为词项,有时也会使用N-gram模型[15]对词项进行扩充。
BOW和VSM可以很方便的表示文本,提取文本特征,在信息检索、文档分类和文本情感分析等应用中都有较好的效果,但是这两种表示方法也有一些缺点:忽略了词语在文档中出现的顺序,丢失了上下文信息;无法获取词语的词性以及语义信息;维度大,数据稀疏性强,计算复杂度高。当数据规模很大,处理的问题复杂时(比如对短文本进行情感分析),使用这两种表示方法的系统在准确度以及时间复杂度上的性能都会变得很差。由于这些问题的存在,BOW和VSM常常用于文本的初步表示,然后再利用其它方法进一步处理,如基于奇异值分解(SingularValueDecomposition,SVD)的隐含语义分析(LatentSemanticAnalysis,LSA)[17][54]。