nlp 包含自然语言处理的一些代码 包括英语的转换(分割为句子,token)
2023-03-22 01:18:39 6KB Java
1
在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢? 今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。 下面简单以实例看一下它的功能: def wordinjaFunc(): ''' https://github.com/yishuihanhan/wordninja ''' import wordninja print word
2023-03-04 00:25:50 50KB dn IN ni
1
第一章大作文趋势:wave英语一漫画作文(cartoon学术型硕士)标准字数在200—230字英语二图表作文(chart专业型硕士)标准字数160180字•写作
2022-11-30 09:48:43 4.91MB 自然语言处理
1
Bo Pang and Lillian Lee 在 《Convolutional Neural Networks for Sentence Classification》用的语料库 原始数据来自于影评。包含了5000多条正面评价,和5000多条负面评价。 已经整理成UTF8格式,便于使用
2022-07-17 11:40:19 456KB 语料库 影评 英语
1
1、内容概要:资源主要包括:英文文本分类电影评论情感判别源码及数据集等文件。 标注的训练集:labeledTrainData.tsv;测试集:testData.tsv;没有标签的额外训练集:unlabeledTrainData.tsv;停用词过滤表:stopwords.txt;源代码:movie_reviews_analysis.py 2、本资源适用于初学者学习文本分类使用,主要包括数据预处理、机器学习、文件的读取和写入等。
2022-04-11 14:10:39 51.71MB 自然语言处理 机器学习 文本分类
这是用于分类,聚类的英文文本语料20_newsgroups
2022-02-25 16:39:49 16.53MB 分类
1
本资源附有配套的7篇博客辅助讲解。 教程博客地址为:https://blog.csdn.net/qq_43592352/article/details/122960985 代码架构强,非常易于理解。 代码拓展性强,方便移植使用自己的数据集、模型。 代码主要采用pytorch实现。
2022-02-21 09:28:58 50.48MB pytorch 神经网络 分类 机器学习
用MATLAB实现用哈弗曼编码压缩纯英文文本文件,并能解压缩。
2022-02-11 18:19:44 4KB MATLAB 哈弗曼
1
这几天写了一个基于C语言对文本词频进行统计的程序,开发及调试环境:mac集成开发环境Xcode;测试文本,马丁.路德金的《I have a dream》原文演讲稿。 主要运行步骤: 1. 打开文本把文本内容读入流中并且开辟相应空间放入内存 2 .对文本内容进行处理,去除大写字母(转化为小写),去除特殊字符 3. 基于单链表对词频进行统计 4. 把统计结果进行归并排序 5.打印输出全部词频或者频率最高的10个单词和其出现次数 6.释放所有结点消耗的内存 废话不多说,上代码! // // main.c // word_frequency_statistic // // Created by t
2022-01-06 21:39:46 110KB
1
英文文本相似度/文本推理/文本匹配数据集——MUltiNLI
2021-12-31 13:15:37 199.73MB 文本匹配
1