自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Asia-Lee的博客

咨询交流请加群:955817470,GitHub:https://github.com/Asia-Lee

原创 NLP句子相似性方法总结及实现

目录 1、基于Word2Vec的余弦相似度 2、TextRank算法中的句子相似性 3、莱文斯坦距离(编辑距离) 4、莱文斯坦比 5、汉明距离 6、Jaro距离(Jaro Distance) 7、Jaro-Winkler距离(Jaro-WinklerDistance) 8、基于Do...

2019-07-31 22:57:37 3163 0

原创 NLP关键词提取方法总结及实现

目录 一、关键词提取概述 二、TF-IDF关键词提取算法及实现 三、TextRank关键词提取算法实现 四、LDA主题模型关键词提取算法及实现 五、Word2Vec词聚类的关键词提取算法及实现 六、信息增益关键词提取算法及实现 七、互信息关键词提取算法及实现 八、卡方检验关键词提取...

2019-07-23 21:09:41 19267 0

原创 TextRank算法介绍及实现

目录 1、PageRank算法 2、TextRank算法 (1)关键词抽取(keyword extraction) (2)关键短语抽取(keyphrase extration) (3)关键句抽取(sentence extraction) 3、TextRank算法实现 (1)基于Tex...

2019-07-22 21:57:51 6051 0

原创 NLP数据增强方法总结及实现

目录 1、数据增强 2、简单数据增强(Easy Data Augmentation,EDA) (1)EDA方法 (2)EDA工具使用方法 (3)EDA相关工具 3、回译 4、基于上下文的数据增强方法 5、数据增强的作用 1、数据增强 数据增强是扩充数据样本规模的一种有效地方法,...

2019-07-16 21:19:00 5825 1

原创 XGBoost与LightGBM文本分类

目录 用户评论情感极性判别 一、数据准备 二、数据预处理 三、文本特征提取 四、将数据转换为DMatrix类型 五、构建XGBoost模型 1、XGBoost模型主要参数 (1)通用参数 (2)Booster参数 (3)学习目标参数 2、XGBoost模型 (1)基于XGB...

2019-07-06 13:00:56 3612 2

提示
确定要删除当前文章?
取消 删除