投稿指南
一、来稿必须是作者独立取得的原创性学术研究成果,来稿的文字复制比(相似度或重复率)必须低于用稿标准,引用部分文字的要在参考文献中注明;署名和作者单位无误,未曾以任何形式用任何文种在国内外公开发表过;未一稿多投。 二、来稿除文中特别加以标注和致谢之外,不侵犯任何版权或损害第三方的任何其他权利。如果20天后未收到本刊的录用通知,可自行处理(双方另有约定的除外)。 三、来稿经审阅通过,编辑部会将修改意见反馈给您,您应在收到通知7天内提交修改稿。作者享有引用和复制该文的权利及著作权法的其它权利。 四、一般来说,4500字(电脑WORD统计,图表另计)以下的文章,不能说清问题,很难保证学术质量,本刊恕不受理。 五、论文格式及要素:标题、作者、工作单位全称(院系处室)、摘要、关键词、正文、注释、参考文献(遵从国家标准:GB\T7714-2005,点击查看参考文献格式示例)、作者简介(100字内)、联系方式(通信地址、邮编、电话、电子信箱)。 六、处理流程:(1) 通过电子邮件将稿件发到我刊唯一投稿信箱(2)我刊初审周期为2-3个工作日,请在投稿3天后查看您的邮箱,收阅我们的审稿回复或用稿通知;若30天内没有收到我们的回复,稿件可自行处理。(3)按用稿通知上的要求办理相关手续后,稿件将进入出版程序。(4) 杂志出刊后,我们会按照您提供的地址免费奉寄样刊。 七、凡向文教资料杂志社投稿者均被视为接受如下声明:(1)稿件必须是作者本人独立完成的,属原创作品(包括翻译),杜绝抄袭行为,严禁学术腐败现象,严格学术不端检测,如发现系抄袭作品并由此引起的一切责任均由作者本人承担,本刊不承担任何民事连带责任。(2)本刊发表的所有文章,除另有说明外,只代表作者本人的观点,不代表本刊观点。由此引发的任何纠纷和争议本刊不受任何牵连。(3)本刊拥有自主编辑权,但仅限于不违背作者原意的技术性调整。如必须进行重大改动的,编辑部有义务告知作者,或由作者授权编辑修改,或提出意见由作者自己修改。(4)作品在《文教资料》发表后,作者同意其电子版同时发布在文教资料杂志社官方网上。(5)作者同意将其拥有的对其论文的汇编权、翻译权、印刷版和电子版的复制权、网络传播权、发行权等权利在世界范围内无限期转让给《文教资料》杂志社。本刊在与国内外文献数据库或检索系统进行交流合作时,不再征询作者意见,并且不再支付稿酬。 九、特别欢迎用电子文档投稿,或邮寄编辑部,勿邮寄私人,以免延误稿件处理时间。

面向中医药领域的文本情感分析及研究

来源:世界中医药 【在线投稿】 栏目:期刊导读 时间:2021-01-28
作者:网站采编
关键词:
摘要:1 概述 中医药文化博大精深,是我国传承了几千年的国粹瑰宝,中医对中国人民的健康,甚至是人类的健康都有重大的贡献[1]。中医它的治病方式和其良好的治疗效果,广泛传播、应用

1 概述

中医药文化博大精深,是我国传承了几千年的国粹瑰宝,中医对中国人民的健康,甚至是人类的健康都有重大的贡献[1]。中医它的治病方式和其良好的治疗效果,广泛传播、应用于世界各地。但因西医技术的引入、外来文化的冲击,其影响能力和医学价值受到了挑战。本文针对问卷调查人们对中医药的接受程度,前期工作费时费力的问题,采用自然处理技术对网上文本进行情感分析,可以直接获取评论者对中医认同度的情感倾向,直观快速反映出人们的态度。

2 数据分析

随着信息时代的进步与发展,人们在网络上陈述自己观点和情感的比例逐渐上升,使用微博的用户规模猛增、月活跃数早已突破4亿人次,微博已成为表达个人情感和观点的重要媒体。结合微博短文本、数据易获取、实时性、信息来源多样性等特点,人们的观点可以一目了然具有代表性。因此以微博的评论对中医药进行情感喜好的分类研究十分有意义[2]。

2.1 数据来源

本文利用python及爬虫技术爬取新浪微博的数据,通过设置“中医”“态度”“观点”等关键词获取网民2015年1月-2019年5月间发表的动态、文章、评论等内容。

从微博获取的原数据共条,其中2015年条,2016年条,2017年条,2018年条、2019年条。由于互联网文本数据中包含了大量噪声,此类噪声会影响文本正确分类结果,因此对数据预处理文本后的数据有条,其中2015年 条,2016年条,2017年条,2018年条、2019年条。

结合Qiu[3]等设计情感词库:HowNet[4]情感分析用词集(beta版)、台湾大学NTUSD简体中文情感词典以及网上大量的情感词。通过人工删除不符合本领域的情感词。结合TF-IDF得出本领域较高频次的词但在词典中得词,利用Word2vec算法根据分完类的词典求得本领域中的相似词,挑选在领域中有意义的情感词进行情感词扩增。最终得到积极词汇3960个,消极词汇4046个,否定词268个,程度副词212个、转折词13个。

2.2 数据预处理

本文规范数据标准如下:

(1)删除微商卖中医药广告信息、中医药用法介绍等客观或无关的数据;

(2)删除同一人发布多条相同内容的数据,仅保留一条;

(3)删除文本字符过长的信息;

(4)删除格式错误的信息。

去除文本中噪声方式如下:

(1)删除文本中经过转换编码仍不能识别的字符(格式:\u00x)、回复消息(格式://@某人:)、超链接URL(格式:“http://”)、特殊表情和网页标签等;

(2)采用Jieba分词技术,自定义停用词、词库,对于中医药领域需要的单词,增加本领域词如“中医黑”,删除词性标注中不能识别或不能使用的词。

分词及词性标注见表1,自定义词库及停用词分词结果展示见表2。

2.3 数据分类统计

本文的训练数据由一人评判两人审核的方法评判了认同、反对中医药倾向的数据各1500条,保证训练与测试数据的准确性。中医药有关文本分类划分原则如下:

(1)采用二分划分,分为认同中医药倾向和不认同中医药倾向两种态度;(2)选取文本中含有明显有关中医药感情词划分为对中医药的认同度倾向;(3)对无感情词但采用中医药治病或转发中医药的相关文章划分认同等级;(4)举行中医药活动达到宣传作用划分为认同倾向。

表1 分词及词性标注?

表2 自定义词库及停用词结果展示?

本文对二类划分采用准确率、F1-score作为评价标准。计算公式如下所示:

表3 词典分类的句式构成?

图1 基于词典算法流程图

其中TP为支持中医药,被正确划分的文本;FP为支持中医药,被错误划分的文本;FN为反对中医药,被正确划分的文本;TN为反对中医要,被错误划分的文本。

3 算法应用研究

3.1 基于情感强度的词典分类

基于词典的方式本文采用的是基于句子级别的分析。根据中文的语法格式,提取本文的需要的句子语法格式是由积极、消极情感词、否定词及程度副词等3种词组成[5],并分别给三种词汇设置不同的情感强度判定认可程度。此外句子中还包含连词以及转折词,对于连词的形式分数累乘,当出现转折词时,转折词前面分值计算方式不变,转折词后面情感分值加倍。句式划分见表3。

图1为基于词典算法流程及流程图的简单介绍:

文章来源:《世界中医药》 网址: http://www.sjzyyzzs.cn/qikandaodu/2021/0128/852.html



上一篇:基于Nvivo软件的中医药防控新型冠状病毒肺炎质
下一篇:Python编程语言在中医药数据分析中的应用

世界中医药投稿 | 世界中医药编辑部| 世界中医药版面费 | 世界中医药论文发表 | 世界中医药最新目录
Copyright © 2018 《世界中医药》杂志社 版权所有
投稿电话: 投稿邮箱: