坚持为客户提供有价值的服务和内容

分享文章中关键词的提取与拓展方法

商企云 | 2022-06-15 | 分享至:

在自然语言理解行业,解决大量文本文档的关键是提取客户关注的难题。不论是长文本或是短文本,我们都可以根据好多个关键字来窥探全部文本的主题风格。与此同时,不论是根据文本的建议或是根据文本的检索,对文本关键字的依赖也非常大。关键字提取的精确性直接影响到推荐算法或搜索系统的终实际效果。

因而,关键字提取是文本发掘行业的一个重要组成部分。从文本中提取关键字有三种方式:监督、半监督和无监督。监督关键字提取优化算法是由关键字提取优化算法结构为两大类难题来分辨文档中的词或语句是不是为关键字。因为这是一个归类难题,因而必须给予标识的练习预测分析。练习词库用以练习关键字提取实体模型。依据该实体模型,对必须提取关键字的文本文档的关键字提取优化算法进行了半监督。

结构关键字提取实体模型只要小量的练习数据资料,随后运用实体模型对新文本进行检查。关键字提取,手动式挑选这种关键字,并把挑选前的关键字加上到学习培训集以再次培训模型。无监督的办法不用手动式标识词库。一些方式被用于找寻文本中更重要的词做为关键字并提取关键字。监督文本关键字提取优化算法规定人力成本高,目前的文本关键字提取关键选用无监督关键字提取,适用范围强。

文本关键字提取的流程如下所示:无监督文本关键字提取流程表无监督关键字提取优化算法可分成三类:根据统计分析特点的关键字提取、根据词图实体模型的关键字提取和根据主题风格实体模型的关键字提取。根据统计分析特点的文本关键字提取优化算法根据统计分析特点的关键字提取优化算法根据统计分析特点的关键字提取算法是运用文档中的统计数据提取关键字。

一般情况下,文本通过预备处理获得选字集,随后根据矩阵的特征值量化分析从选字集中化得到关键字。根据统计分析特点的关键词提取方式的关键是采取哪种矩阵的特征值量化指标。

现阶段常见的办法有三种:1、根据词权的特点量化分析主要包含一部分视频语音、高频词、反方向文本文档工作频率、相对性高频词、词长等。2、根据词位的特点量化分析方法是什么根据不一样部位的语句对参考文献的重要性不一样的假定。一般,文章内容的前N个词、后N个词、开始、末尾、文章标题和前言全是有象征性的词。这种词可以把全部主题风格表述为关键字。3、根据词关系信息特征量词的关系信息是指词与词、词与参考文献的关系程度上,包含互信息、击中值、贡献率、依存度、tf-idf值等,这儿有一些较常用的矩阵的特征值量化指标。一部分视频语音词性标注和语法分析器的结论。目前的关键词大多是专有名词或动名词。

一般来说,专有名词比语言的其余一部分更容易表述文章内容的中心思想。但是,做为特点量化分析的指标值,一部分视频语音一般与别的指标值融合应用。英语单词工作频率表明英语单词在文本中产生的工作频率。一般来说,我们认为一个词在文本中产生的次数越大,它就会越有有可能变成文章内容的核心词。英语单词工作频率仅仅测算文本中产生的词汇数。但是,仅借助高频词得到的关键词具备较大的系统性风险。针对长文本,此办法将出现很多噪音。

一般来说,词的部位对词有较大的使用价值。比如,文章标题和引言自身是小编汇总的好文章的主要思想,因而发生在这种地区的词有代表性的,比较容易变成关键字。但是,因为每一个创作者都是有不一样的习惯性、写作技巧和重要语句的部位,这也是一种十分普遍的得到关键字的方式,一般不直接运用。互信息和互信息是信息论基础里的一个定义,是考量自变量互相依赖感的一个技术指标。互相信息内容不限于实值随机变量。

扫二维码与项目经理沟通

7*24小时为您服务

解答:网站优化,网站建设,APP开发,小程序开发,H5开发,品牌推广,新闻推广,舆情监测等

  非常感谢您有耐心的读完这篇文章:"分享文章中关键词的提取与拓展方法",更多内容请继续浏览,我们将为您提供更多参考使用或学习交流的信息。我们还可为您提供:网站建设与开发网站优化品牌推广、APP开发、小程序开发新闻推广等服务,我们以“降低营销成本,提高营销效果”的服务理念,自创立至今,已成功服务过不同行业的1000多家企业,获得国家高新技术企业认证,且拥有14项国家软件著作权,将力争成为国内企业心目中值得信赖的互联网产品及服务提供商。如您需要合作,请扫码咨询,我们将诚挚为您服务。
我要咨询
姓名 :
电话 :
文章分类