台湾大学中文情感极性词典(NTUSD),可以用于二元情感分类任务当中,用于处理文本挖掘等方向
2023-12-29 19:00:06 86KB 自然语言处理 情感分析
1
这项研究的目的是实施一种方法,以检测和量化使用希腊语提及食品和饮料(F&B)部门的客户意见。 由于客户评论的评估会产生大量且持续的意见数据,因此餐饮公司和/或其他利益相关者在提取所有必要数据并进行进一步分析方面面临困难。 就希腊市场而言,餐饮行业是最活跃的行业之一。 交付或带走食物或咖啡非常普遍,绝大多数消费者都从聚合商的平台(在线数字市场)订购。 在本研究中,从690家公司中随机抽取了690家公司的评论,这些评论涵盖了希腊最受欢迎的首都,并以使用最多的通用电子平台呈现,这些公司是从690家公司中随机选择的。 客户评论的挖掘涵盖了2018年的一个月期间,评估的功能包括食品质量,客户服务,公司形象,价格和食品数量。 看起来,使用基于词典的技术进行方面层面的情感分析应该从方法上解决问题,方法是不仅识别相关信息,而且还要识别评估者在Internet上使用的特定表达和短语。 从客户评论中提取的关键字和短语用于形成功能的相应词典并进行情感分类。 该方法已在2,000个客户评论的注释数据集中进行了测试,总体而言,这些发现预计将有助于特别是针对希腊餐饮业的情感词典的设计和实施问题。
2023-04-04 20:48:31 1.37MB Sentiment analysis; modern Greek;
1
一下子爆发 一下子爆发的一连串 一巴掌 一再 一再叮嘱 一拳 一般杀人罪 一阵狂风 一阵紧张 一掌 一团糟 一掴 一点点 一蹶不振 人事不省 人为 人为的 入迷 入迷的 入迷的人 刀刃 刁难 力尽 匕首 下地狱 下垂 下垂度 下流
2023-03-13 20:30:51 86KB 台湾大学 机器学习 情感分析
1
情感是音乐最重要的语义信息,音乐情感分类广泛应用于音乐检索,音乐推荐和音乐治疗等领域.传统的音乐情感分类大都是基于音频的,但基于现在的技术水平,很难从音频中提取出语义相关的音频特征.歌词文本中蕴含着一些情感信息,结合歌词进行音乐情感分类可以进一步提高分类性能.本文将面向中文歌词进行研究,构建一部合理的音乐情感词典是歌词情感分析的前提和基础,因此基于Word2Vec构建音乐领域的中文情感词典,并基于情感词加权和词性进行中文音乐情感分析.本文首先以VA情感模型为基础构建情感词表,采用Word2Vec中词语相似度计算的思想扩展情感词表,构建中文音乐情感词典,词典中包含每个词的情感类别和情感权值.然后,依照该词典获取情感词权值,构建基于TF-IDF (Term Frequency-Inverse Document Frequency)和词性的歌词文本的特征向量,最终实现音乐情感分类.实验结果表明所构建的音乐情感词典更适用于音乐领域,同时在构造特征向量时考虑词性的影响也可以提高准确率.
1
用python实现基于情感词典的情感分析 大数据分析
2023-01-13 19:19:13 141KB python 情感词典 情感分析
1
知网Hownet情感词典适合做情感词训练,包括主张词 正面情感词、程度级别词、负面情感词 知网Hownet情感词典适合做情感词训练,包括主张词 正面情感词、程度级别词、负面情感词 知网Hownet情感词典适合做情感词训练,包括主张词 正面情感词、程度级别词、负面情感词
2022-12-10 04:33:45 95KB 自然语言 训练语料
1
基于情感词典的方法主要依赖于情感词典的构建,是指利用情感词典获取文档中情感词的情感值,再通过加权计算确定文档的整体情感倾向。使用此方法时不考虑词语之间的联系,词语的情感值不会随着应用领域和上下文的变化而变化,因此需要针对特定领域建立相关的情感词典提高分类的准确率。情感词典是情感分析系统的基础知识库,是数字、文本与符号集合。在缺乏大量训练数据集的情况下,基于词典与规则的方法相对能取得较好的分类结果且易于理解,但是网络用语不断涌现,情感词典需要不断更新扩展以提高分类的准确率。情感词典也存在一定的局限性,首先,情感词的判别与选择取决于先验知识与实验设计;其次,针对不同领域还需要构造相应的领域情感词典,跨领域情感分析的分类效果不佳。
2022-09-14 13:41:33 92KB 情感词典
1
内包含程度级别词语,负面评价词语,负面情感词语,正面评价词语,正面情感词语,主张词语词语。 以情感词典为基础的情感分析方法: 1.要分析一句话是积极的还是消极的,最简单最基础的方法就是找出句子里面的情感词,积极的情感词比如:赞、好、顺手、华丽等;消极情感词比如:差、烂,坏、坑爹等。出现一个积极词就+1,出现一个消极词就-1。 2.“好”,“流畅”和“烂”前面都有一个程度修饰词。“极好”就比“较好”或者“好”的情感更强,“太烂”也比“有点烂”情感强得多。所以需要在找到情感词后往前找一下有没有程度修饰,并给不同的程度一个权值。 3.可以发现太烂了后面有感叹号,叹号意味着情感强烈 4. 其实我们一眼就看出最后面那个“好”并不是表示“好”,因为前面还有一个“不”字。所以在找到情感词的时候,需要往前找否定词。
2022-08-13 10:02:47 34KB 情感词典
1
3.4 领域情感词典的构建 (1) 确定种子词集合。根据所选领域的特点, 制定 相应的选择标准, 抽取语料库中的词语作为种子词, 加入到种子词集合中; (2) 确定候选情感词集合。首先将种子词转换成 对应的词向量, 根据相似度计算公式(向量的余弦计算 公式)求得与每个种子词最相似的n个词语作为候选情 感词集合; (3) 利用训练好的情感分类器判断每个候选词的 情感极性。最后整合上述分类器输出的带有情感极性 的候选词语, 添加到面向特定领域的情感词典中。 4 实验及结果分析 为了验证该方法的有效性, 本文设计实验进行验 证, 主要验证以下两点假设: 假设 1: 本文提出以词向量训练分类器判断词语 情感极性的方法优于直接利用词向量的语义相似度判 断词语情感极性。 在情感分析领域, 大部分常规机器学习方法, 如 决策树、支持向量机等, 都能够构建分类器来判断词 语的情感极性。由于自然语言的特殊性(直接特征不足, 需要转换成词向量进行分析, 特征数即为词向量的维 度), 使得支持向量机的表现优于其他机器学习算法。 假设 2: 深度学习中, 神经网络训练的分类器在 判断词语情感极性任务中的性能优于支持向量机 (SVM)训练的分类器。 4.1 实验 1: 构建基于词向量的神经网络分类器 实验使用的语义知识库包括 NTUSD; 清华大学 李军情感词典; HowNet情感词典中的正负情感词语以 及 DUTIR。语料库的获取主要借助 Python 所编写的 爬虫程序, 采集 2017 年 4 月 19 日–2017 年 10 月 9 日 的新浪财经新闻, 共计 9 422 篇, 每篇新闻均以 txt 的 形式进行存储。 对语料库进行数据预处理(去停用词、去无关符 号)与分词(构建自定义词典: 将所有股票名称和股票 代码作为一个词典, 防止分词时被切分)。抽取融合词 典与语料库的交集词汇作为训练语料, 结果如表 2 所 示。最后以语料库为对象, 使用 Word2Vec 方法生成词 向量模型, 其中每个词向量的维度为 100。 表 2 词典中的词出现在语料库中的情况表 交集的积极词数量 交集的消极词数量 总计 3 128 2 850 5 978 基于准备好的训练语料, 按照实验设计方案构建 神经网络分类器。经过 6 700 次训练后, 得到训练集准 确度为 95.02%, 预测集准确度为 95.00%。显然, 模型 的效果良好, 并没有出现过拟合和欠拟合的现象。 接着确定种子词集合。由于本文重点不在于研究 种子词抽取规则, 因此不作深入探讨。通过信息检索, 参考相关论文及结合本文语料库, 选择 20个能够代表 金融领域的词汇作为种子词集合, 如表 3 所示。 表 3 金融领域种子词集合 金融领域种子词集合 大涨, 大跌, 股票, 平仓, 牛市, 熊市, 走高, 拉升, 雄起, 利好, 利空, 清仓, 套牢, 抄底, 反弹, 减持, 乏力, 退市, 撤离, 亏 词向量最大的特点是将语义信息用向量的形式进 行分布式表示。词向量之间的余弦值能够表示词语之 间的相关性程度。通常直接利用词向量构建情感词典 的方式为: 判断种子词的情感极性, 利用词向量找出 与种子词最相似的词语集合, 与积极种子词相似的词 语被认为是积极情感词, 与消极种子词相似的词语被 认为是消极情感词, 从而构建情感词典。本文对上述 种子词集合中的种子词的情感极性进行人工判断, 找 出与每个种子词最相似的词语(取相似度最高的前 10 个词语)。对金融语料的研究发现, 绝大部分金融领域 的情感词词性为形容词或者动词, 因此在取相似度最 高的词语的过程中加入词性过滤, 仅选择形容词和动 词, 最后对积极和消极的词语分别去重, 得到情感词 典(消极词语 61 个, 积极词语 41 个)。 笔者认为仅根据词向量的相似度判断词语情感极 性的判断并不准确。因为词向量仅仅保留语义信息, 而语义信息并不能代表情感信息, 存在情感极性相反 的词语在语义关系比较相似, 如“跌”显然表示消极情
2022-07-08 16:57:41 594KB Finance
1
包含三个知名情感词典:知网Hownet、台湾大学NTUSD、清华褒贬义词典。 附其他词典和分类:褒贬词及其近义词、否定词典汉语情感词极值表、情感词典及其分类、情感词汇本体
2022-06-24 16:04:08 1.61MB 情感词典