- · 图书馆乐享数字资源主题活动[11/26]
- · 图书馆共享党员之家活动室启用[11/26]
- · 转发:教育系统“美好‘食’光””校园系列活动主题作品征集活动通知[11/03]
- · 红柳法学大讲堂第二十八期[11/03]
- · 关于举办兰州理工大学“红柳之星”2020校园新生才艺大赛的通知[10/30]
- · “科学家精神报告团”进校园活动通知[10/28]
- · 兰州理工大学2020年秋季学期国家普通话水平测试报名通知[10/27]
- · 2020年秋季学期至2021年寒假国内外线上线下交流项目报名通知[10/20]
基于不同语料的词向量对比分析
作者: 崔萌 张春云 滨州医学院网络信息中心 山东烟台256603 山东财经大学计算机科学与技术学院 山东济南250014
关键词: 表示学习 词向量 相似性比较
摘要:通过对目前自然语言处理领域中基于深度学习的词向量表示方法对不同文本语料文本表达的有效性进行分 析,将主流词向量训练方法用于不同的文本语料集,包栝英文维基百科语料、新闻语料、论坛语料和Web 语料进行 训练,并采用三种评价指标:余弦相似度平均差、斯皮尔曼等级相关和米克罗夫类比方法对训练出的文本词向量表 达方法进行比较.实验结果表明,针对上述四种语料,词向量能够实现对文本的有效表示,但各个语料训练出的词向量的通用性不同,其中维基百科语料训练的词向量的通用效果最好.