当前位置: 首页 > news >正文

温州正规制作网站公司什么软件可以免费引流

温州正规制作网站公司,什么软件可以免费引流,西安电子科技大学信息化建设处网站,网站建设策划 优帮云jieba分词和TF-IDF分析 目录 jieba分词和TF-IDF分析1 jieba1.1 简介1.2 终端下载1.3 基本语法 2 TF-IDF分析2.1 什么是语料库2.2 TF2.3 IDF2.4 TF-IDF2.5 函数导入2.6 方法 3 实际测试3.1 问题解析3.2 代码测试 1 jieba 1.1 简介 结巴分词(Jieba)是一个…

jieba分词和TF-IDF分析

目录

  • jieba分词和TF-IDF分析
    • 1 jieba
      • 1.1 简介
      • 1.2 终端下载
      • 1.3 基本语法
    • 2 TF-IDF分析
      • 2.1 什么是语料库
      • 2.2 TF
      • 2.3 IDF
      • 2.4 TF-IDF
      • 2.5 函数导入
      • 2.6 方法
    • 3 实际测试
      • 3.1 问题解析
      • 3.2 代码测试

1 jieba


1.1 简介

结巴分词(Jieba)是一个广泛使用的中文分词Python库,它支持多种分词模式,并且可以添加自定义词典来提高分词的准确性。

1.2 终端下载

pip install jieba

1.3 基本语法

  • jieba.lcut(sentence=切分语句变量),会根据自带的词典进行切分
  • jieba.add_word(‘词句’),添加词句到词典,之后会以此切分
  • jieba.load_userdict(‘文件’),文件添加到词典,文件需要一词一行

代码展示:

import jieba
w1 = '我们在学习python办公自动化'
w2 = jieba.lcut(sentence=w1)
print(w2)
jieba.add_word('python办公自动化')
w3 = jieba.lcut(sentence=w1)
print(w3)
w4 = '我在想你,在今天的风里。'
w5 = jieba.lcut(sentence=w4)
print(w5)
jieba.load_userdict(r'.\dic.txt')
w4 = '我在想你,在今天的风里。'
w6 = jieba.lcut(sentence=w4)
print(w6)

运行结果:

在这里插入图片描述

2 TF-IDF分析


2.1 什么是语料库

(1)语料库中存放的是在语言的实际使用中真实出现过的语言材料;
(2)语料库是以电子计算机为载体承载语言知识的基础资源;
(3)真实语料需要经过加工(分析和处理),才能成为有用的资源。

2.2 TF

指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。
TF=某个词在文章中的出现次数/文章总词数

2.3 IDF

逆向文档频率。IDF的主要思想是:如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
IDF=log(语料库文档总数/(含该词条的文档数+1))

2.4 TF-IDF

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。TF-IDF越高,越重要。
TF -IDF = 词频(TF)x 逆文档频率(IDF)

2.5 函数导入

from sklearn.feature_extraction.text import TfidfVectorizer

2.6 方法

  • tfi =TfidfVectorizer()引用函数
  • tfi.fit_transform(words),按顺序获取文章词汇的TF-IDF
  • tfi.get_feature_names_out(),按顺序切分的文章词汇

3 实际测试


3.1 问题解析

数据如下,其中一行为一篇文章,词汇顺序非文章顺序,而是词汇排列顺序。
在这里插入图片描述

3.2 代码测试

代码展示:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizerf = open('task2_1.txt')
words = f.readlines()tfi =TfidfVectorizer()
tfi_words = tfi.fit_transform(words)
print(tfi_words)
wordslist = tfi.get_feature_names_out()
print(wordslist)
df = pd.DataFrame(tfi_words.T.todense(),index=wordslist)
print(df)
featurelist = df.iloc[:,5].to_list()res = {}
for i in range(0,len(wordslist)):res[wordslist[i]] = featurelist[i]
res = sorted(res.items(),key=lambda x:x[1],reverse=True)
print(res)
print(res[2])

运行结果:

在这里插入图片描述

http://www.rdtb.cn/news/22802.html

相关文章:

  • 做旅游海报的软件或是网站福州网站优化
  • 集团公司中英文网站模板seo的优化策略有哪些
  • wordpress setup-config.php空白网络优化的内容包括哪些
  • 十大拿货网站佛山网络推广哪里好
  • 免费域名网站推荐优化关键词方法
  • 苏州微信网站建设免费发外链
  • 怎么用自己的网站做邮箱优秀企业网站模板
  • 广州皮具网站建设友情链接出售平台
  • 商会网站怎么做当阳seo外包
  • 厦门seo起梦网络科技北京seo设计公司
  • 哪些公司提供微信做网站服务百度灰色关键词排名技术
  • wordpress实现自动重定向海外seo培训
  • 个人网站设计百度竞价推广代运营公司
  • 企业网站建设商城竞价网
  • 四川政府采购官方网做seo需要投入的成本
  • 自动建设网站系统广西seo
  • 义乌做网站的标题seo是什么意思
  • 衡阳做网站公司西安网络科技公司排名
  • 做网站视频点播难不难网站制作的重要性及步骤详解
  • 虚拟空间怎么做网站目录指向临沂森佳木业有限公司
  • 网站建设发票的税点semester怎么读
  • 杭州网官网seo诊断分析
  • 请问番禺哪里有做网站的外贸网站推广seo
  • 昆山有名的网站建设公司关键词优化排名公司
  • seo网站诊断报告免费开网店免费供货
  • 企业网站开发培训宁波seo怎么做推广渠道
  • 做网站开发钱宁波搜索引擎优化seo
  • 网站改版的方式大致有专门用来查找网址的网站
  • 网站改版需要重新备案吗想做网络推广如何去做
  • 如何判断网站有cdn加速苏州排名搜索优化