首页文章正文

文档向量化,矩阵向量化

数据向量化 2023-05-27 19:00 168 墨鱼
数据向量化

文档向量化,矩阵向量化

文档向量化,矩阵向量化

1.Vectorizationoftextdata1.1术语解释CF:frequencyofdocumentset,指的是词在文档集中出现的次数DF:documentfrequency,指的是词出现的文档的个数IDF:inversedocumentfrequency,idf=log(N/(1+df)),n是文档的个数,为了兼容TF-IDF的数值计算规则notation:词序列中出现的词的值是词在文本中的频率乘以词的反文档频率,没有出现在词序列中的词的值为0。 用数学公式表示:已知Example3有如下

词袋模型(BOW)假设对于给定的文本,无论单词出现的顺序和语法等因素如何,都被视为一个简单的单词集合,每个单词在文档中的出现是一个独立的关系。 依赖其他文档向量化:sklearn.feature_extraction.text.CountVectorizerTFIDF计算:sklearn.feature_extraction.text.TfidTransformerExamplecode#!/usr/bin/envpython

因此,idf值是针对所有文档(文档集合)的,即:统计出现该词的文档。 而TF-IDFis就是将tf的值乘以idf的值:TF−IDF=tf*idf如前所述,要对文档进行向量化,需要对文档中的每个词进行赋值。3.向量化有了以上的基础,就可以将文档向量化。 先看代码,再分析向量化的意义:[python]1.#-*-coding:utf-8-*-2.importscipyassp3.importnumpyas

3.矢量化有了以上的基础,就可以对文档进行矢量化了。 先看代码,再分析向量化的意义:#-*-coding:utf-8-*-importscipyasspimportnumpyasnpfromsklearn.dataset先对VSM空间的文档进行向量化,然后AutoEncoder进行自编码,瓶颈层连接到一个newscategory分类任务,使用时只使用Encised

这样得到的结果不能保存单词在句子中的位置信息,"Iloveyou"和"Youloveme"的向量化结果没有区别。 词袋(BOW)模型#Bag-of-wordsmodel(词袋模型,基于大数据的文本智能分类应用

后台-插件-广告管理-内容页尾部广告(手机)

标签: 矩阵向量化

发表评论

评论列表

黑豹加速器 Copyright @ 2011-2022 All Rights Reserved. 版权所有 备案号:京ICP1234567-2号