最早小说 通过搜索各大小说站为您自动抓取各类小说的最快更新供您阅读!

伊芙·卡莉还在继续陈述着她的看法:

“……我觉得将向量引入到语义文本相似度的衡量确实是一个不错的主意。

不过在介入向量之后,就像打开了潘多拉的魔盒一样。

向量在处理一些语义复杂的文本信息时。

极其容易形成一些高维空间,造成维度爆炸。

出现这种情况后,应用场景经常会变得极其糟糕。

经常出现维度爆炸的问题。

事实上,现在维度爆炸问题已经很制约我们的研究了。

Dear林,不知道您关于这个问题有什么看法呢?”

林灰道:“维度爆炸主要是高维难处理的问题。

既然如此,为什么不考虑将高维进行降维呢?”

林灰的语气是那样的风轻云淡。

彷佛在叙述一件自然而然的事情一般。

降维?将高维的什么进行降维??

听了翻译同传过来的信息。

伊芙·卡莉有种要吐血的感觉。

她有点想学中文了。

她不知道林灰表达的原意就是将高维转化为低维。

还是说林灰在表述的时候说的是将高维的某物转化的低维但翻译在转达的时候却省略了什么东西。

如果是省略了一些重要的名词那实在是太糟糕了。

到底林灰想表达是将高维数据转化为低维数据?

还是说将高维模型转化为低维模型?

抑或是什么其他含义?

伊芙·卡莉很想询问一下。

不过考虑到林灰先前为了米娜·卡莉做出的贴心之举。

伊芙·卡莉并不好就这种事情让林灰带来的翻译陷入到不安之中。

仔细思索林灰话里的含意。

首先伊芙·卡莉觉得林灰想说的应该不是将高维数据降低成低维数据。

在进行自然语言处理时如果出现了高维数据的话。

在分析高维数据时,确实是可以进行降维的。

也必须要进行降维!

高维数据模型虽然收集到的数据点很多。

但是所收集到的数据通常会散布在一个极其分散广袤的高维空间中。

这种情况下很多统计方法都难以应用到高维数据上。

这也是“维度灾难”存在的原因之一。

遇到这种维度灾难,不降维的话高维数据是很难进行处理的。

(ps:……数学天赋点满的人高维也能硬上)

作为数据去噪简化的一种方法,降维处理对处理大多数现代机器学习数据很有帮助。

通过降低数据的维度,理论上讲可以把这个复杂棘手的问题变得简单轻松。

机器学习领域中所谓的降维就是指采用某种映射方法。

将原高维空间中的数据点映射到低维度的空间中。

这么做是为了除去噪音同时保存所关注信息的低维度数据。

这样对研究人员理解原本的高维数据所隐含的结构和模式很有帮助。

原始的高维度数据通常包含了许多无关或冗余变量的观测值。

降维可以被看作是一种潜在特征提取的方法。

降维这种方法经常用于数据压缩、数据探索以及数据可视化。

话虽如此,但降维并不是像科幻书里描述的那般扔一个二向箔就完事了。

涉及到降维是一件极其麻烦的事情!

在选择降维方法的时候,人们不得不考虑很多因素。

首先要考虑输入数据的性质。

比如说,对于连续数据、分类数据、计数数据、距离数据,它们会需要用到不同的降维方法。

对数据的性质和分辨率的考虑是十分重要的。

如果不考虑输入数据的性质贸然进行降维的话虽然能够使得这些这些高维模型低维化。

极有可能使得原本离散的数据直接“糊”在一起。

这种情况比高维离散还要糟糕。

在应用正式的降维技术之前。

还要对高维数据进行适当的预处理。

毕竟不是所有的数据都是样本数据。

而有的时候进行预处理时。

最佳的预处理方式又是引入降维。

这就会陷入一个疯狂套娃的循环之中。

总而言之,对高维数据进行降维是一件超级麻烦的事情。

在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。

而不是等出现高维数据之后再进行低维处理。

高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。

很多东西因为麻烦就足以让人说再见了。

繁复的过程意味着容易出错。

而美好的事物所呈现的形式应该是简洁的。

就像欧拉公式一般。

正因为如此,伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。

如果林灰想表达的意思不是对高维数据做手脚。

而是说对传统的向量空间模型做文章?

将高维向量空间模型转化为维度较低的空间向量模型?

这种思路倒是不错。

但这种尝试先前并不是没人做过。

很早之前就有人进行了尝试。

早在上世纪末期就有人提出了潜在语义分析模型。

潜在语义分析模型是基于空间向量模型(VSM)而提出的。

潜在语义分析模型其基本思想是在得到文本的空间向量表示后。

通过奇异值分解,将高维且稀疏的空间向量映射到低维的潜在语义空间当中。

在得到低维的文本向量和单词向量之后。

再用余弦相似度等度量方式来计算文本间的语义相似度。

潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音,从而提高计算准确度。

虽然这种思路不错,但这种方法并没有普适性。

这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。

这种做法使得计算复杂度增高,并且可移植性较差。

在这种方法提出来之后。

并不是没人尝试对这种方法进行过改进。

同样是上世纪末。

有研究人员提出了概率潜在语义分析模型。

这种模型是基于概率,而不是基于奇异值分解。

这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。

而后使用期望最大化算法训练主题,并找到一个概率性的潜在主题模型。

以此用来预测文本空间向量中的观察数据。

喜欢穿越:2014请大家收藏:(www.zuizaoxiaoshuo.net)穿越:2014最早小说更新速度全网最快。

最早小说推荐阅读: 末世:开局一头基多拉重生圣尊傲娇校花爱上我娱乐:我夺舍了刘星!我分裂了无数人格从大学教师开始野性之心重生资本大亨1979闲鱼人生神豪:从百倍返利开始我的1979华娱科幻之王修复师校园超神学生从废土开始模拟城市女神的超级鳌胥林阳夜的命名术萧阳叶云舒超级王者全能侍卫我的美女大小姐玩游戏玩成大佬我的秘书是狐妖拜见猫神大人都市纵横,从修改旁白开始一人之下之龙血炽腾一个在赎罪的主播我的地头儿我做主从港综街头霸王开始万界点名册美女总裁的最强高手求求你们别再说了大国重工纯情校医至尊战神全文免费阅读娱乐:巨星演员我的冷艳总裁老婆人狐恋护妻霸婿我真不会打网球私生子我震惊了全世界女总裁的神级保镖最高使命华娱之流量影帝超时空评测无心法师:从挖出岳绮罗开始我去末世修个仙全球首富:神级再造系统我的梦幻年代东瀛大物
最早小说搜藏榜: 系统让我捡破烂从全能急诊科医生开始神豪:从百倍返利开始基建:开局给珠峰修电梯重生80:从收破烂开始!神豪:我能百倍返现我爸二婚送了我五个姐姐娱乐:从主持人大赛开始四合院之好好活着从情满四合院开始穿越重生之大收藏家灵气复苏:开局神级武魂娱乐:开局渣了杨老板从港片开始当幕后大佬从代工厂到科技霸主神话复苏:这个神明我认识重生过去的逍遥人生我的细胞变异了中医许阳黄金渔场我每周随机一个新职业神豪:开局购买力增幅百倍我被困在同一天一千年娱乐:开局一首海阔天空娱乐:开局喜当爹!高考结束成百亿神豪我在英伦当贵族高考以后,我才重生全球高武重生过去震八方从网络神豪开始神豪:开局骗了女主播!每168小时获得一个异能从签到获得商业大楼开始我有一个三界拍卖系统无限游戏:十倍奖励重生过去当传奇从大国机长开始亿万富豪从相亲系统开始末日:开局选择时间停止娱乐:巨星演员我,星空巨兽生活系神豪影帝从签到开始全球数据化,我能增幅万物娱乐:开局就和杨老板结婚医路坦途大时代从1983开始修仙从华娱开始万族之劫
最早小说最新小说: 文娱:让你唱歌,你搁这作法?四合院里的老中医地窟求生:开局食物增幅三十倍汽车公司?不,是国货之光再启仙途我的金融帝国热搜第一:叫你捡漏你开挂啊我写的娱乐文被杨老板看到了百元求生:从潘家园捡漏开始带着爸妈去上班娱乐:别联系了,真不熟放弃留学,我打造了世界第一名校从重生开始合租浪在娱乐圈四合院里的唯一老实人韩娱之隔世斑斓怪物食堂首富后才知是反派我的夫妻关系竟能数据化平行空间都市风水师大赌石乾哥传奇神眼少年全能天才混都市绝品全才十二生肖守护神都市无敌特种兵重生圣尊软玉温香极品黑道太子邪霸都市纯情校医校园纨绔特工我的美女上司冰帝校园行护花高手绝品小农民狱锁狂龙3之潜龙出海护花公子全职保安美女校花的贴身高手美女老师爱上我校园超级霸主官运之左右逢源黑客神医贴身美女攻略医道无双极品保镖美女老总爱上我