项目说明 爬取新浪微博用户数据,为用户画像、情感分析和关系建模等提供结构化数据。 项目依赖的第三方库 HTTPClient Jsoup :解析HTML fastjson 程序核心逻辑: 在 useVersion2014/WeiboCrawler3.main() 中,WeiboCrawler3的实例对象crawler调用crawl()爬取原始数据后存在文件里,剩余代码再解析磁盘上的文件进行抽取和转换得到最后的数据。 crawl()是执行爬取动作的具体函数 String html = crawl.getHTML(url) //根据url获取网址 crawler.isVerification(html) //判断是否需要输入验证码 如果连接超时重新连接 新浪微博模拟登录逻辑 Sina.main() Sina.login(username,passwprd) preLogin(encodeAcco
2024-04-22 22:49:14 185KB Java
1
现有的微博情感分析方法已经注意到了微博文本与图片之间的互补作用,但较少注意用户情感表达的差异和微博内容中除文字之外的特征,为此提出一种多特征融合的图文微博情感分析方法。首先构建文本情感分类模型,将对情感具有很好指示作用的内容特征和用户特征与微博句子进行融合, 然后构造了基于参数迁移和微调的图片情感分类模型。最后设计特征层和决策层融合的方法,将文本和图片情感分类模型进行融合。实验结果表明,内容特征和用户特征有效增强了模型捕捉情感语义的能力,并在多项性能指标上都取得了很好的效果, 构建的图文情感分类模型和融合方法可获得更好的性能。
2024-04-03 17:00:25 1.86MB 情感分析 多特征融合
1
这是一个可以生成 twitter.com,weibo.com,zhihu.com,douban.com,jianshu.com和其他网站的屏幕截图的网站,但是该网站的目的是告诉(不懂编程的人)普通的人们:不要相信那些容易在网上看到的“截图”! 网站本身的存在,告诉(浏览本网站的用户)人们一件事:所有网站的页面截图都可以非常容易地伪造,且足以乱真! 那么这个人以后看到其他任何截图时,他会想到本网站的存在,然后就会下意识地怀疑截图的真实性了!
2024-03-31 19:54:15 1.8MB 截图生成
1
基于python微博舆情分析可视化系统+爬虫+情感分析+Flask框架(包含文档+源码+部署教程) 本次就是在微博方面,通过建立微博情感分析可视化系统,来让用户可以通过简单的微博信息、评价有计算机来自动进行情感的判断,从而为判断出用户对于微博的情感好坏,能够通过对评价的统计分析来实现情感分析、舆情分析的功能。本次的开发是利用了Python技术和Flask框架来搭建网站,采用MySQL数据库存储数据,通过网络爬虫技术采集数据,最终搭建网页的形式展现。 项目截图 1、首页-----数据概况 在这里插入图片描述 2、舆情分析 在这里插入图片描述 3、中国地图----各省份IP分析 在这里插入图片描述 4、文章分析页面 在这里插入图片描述 5、评论分析页面 在这里插入图片描述 6、数据管理页面 在这里插入图片描述 7、微博舆情统计页面 在这里插入图片描述 8、爬虫数据采集页面 在这里插入图片描述 9、系统注册登录功能 在这里插入图片描述
2024-03-19 21:58:45 87.79MB python 爬虫 情感分析 舆情分析
1
微博爬虫,一个基于Scrapy框架的轻量微博爬虫,Sina Weibo Spider.zip
2024-03-03 02:49:49 647KB 爬虫 scrapy
1
中文微博情感数据库(2分类数据集) 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt) 数据格式: 文档的每一行代表一条语料 每条语料的第一个数据为微博对应的mid,是每条微博的唯一标签,可以通过"https://m.weibo.cn/status/" + mid 访问到该条微博的网页(部分微博可能已被博主删除) 第二个数据为情感标签, 0表示负面, 1表示正面 其余后面部分都是微博文本 微博表情都被转义成[xx]的格式, 如: avatar被标记为[doge] avatar被标记为[允悲] 微博话题/地理定位/视频、文本超链接等都转义成了{%xxxx%}的格式,使用正则可以很方便地将其清洗
2024-02-03 19:51:46 1.73MB 数据集 情感分析
1
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。
2024-01-11 11:38:00 437KB K-means算法 聚类 质量评价函数
1
新浪微博转发精灵 V2.0  一键转发,相当方便!一、软件功能如下: 1.定向转发微博 2.定向转发指定的微博内容 3.可以批量导入微博帐号 4.可以设置转发微博的间隔时间 5.可以设置自动转发时间区段 6.自定义老板键 7.可以加入windows自启动,每天自动转发 8.转发日志跟踪 9.随机给小号加粉,使其更真实 二、软件使用方法如下: 第一步:启动新浪微博转发精灵,输入被转发的微博ID或者昵称;(可以是数字ID,也可以是微博的昵称),然后点击“验证”按钮; 第二步:进入“设置”后,需要自己注册N个新浪微博帐号用来转发自己的主号上的内容,亦可通过软件包中的import.txt文件按照格式批量导入微博帐号; 第三步:进入“定时设置”选项卡,设定转发间隔时间(建议时间间隔不要设置太短,至少90秒以上,以防被封)设置工作时间段,然后点击“加入列表”;(建议不要设置在半夜进行) 第四部:回到主界面,点击开始按钮即可开始。
2024-01-10 14:13:15 3.75MB 网络软件
1
.net4.0使用qq登录、新浪微博、网易微博第三方登录 简单易用一目了然,愉快借鉴
2024-01-08 23:09:02 434KB qq 第三方登录
1
本项目基于 weibo_senti_100k.csv 数据集,分别使用朴素贝叶斯、逻辑回归、LSTM、CNN、BERT等模型进行了实验,其中涉及的词向量表示方式包括one-hot、Bag of Words、TF-IDF、Word2Vec、Glove等。对于Word2Vec和Glove词向量的构建过程,本项目也提供了相关代码。项目中模型的训练运行脚本为train.sh,如bert_train.sh,模型的测试运行脚本为test.sh,如bert_test.sh。此外,本项目也会给出如何将训练好的BERT模型以服务的形式进行部署,以满足商业应用中的实时性需求。针对具体模型的使用,请读者查看*_README.md文件。希望通过本项目的学习,读者能够对情感分析中常用的模型技术有进一步的理解。
1