返回

穿越:2014林灰

首页
关灯
护眼
字体:
第172章 行业标杆?
上一章 目录 下一章
『章节错误,点此报送』
  胞林灰会分去十亿美元以上,他们肯定不会愚蠢的答应将十亿美元拱手相让。

  即便超级细胞的管理人员会这么愚蠢,背后软/银那些渣渣估计也不会。

  到时候又需要一番筹谋。

  不过暂时想这些也没用。

  尽管林灰有分一杯羹的打算,但很无奈。

  好多事情并不完全是以林灰的意志为转移的。

  对于目前的林灰来说,好多时候依旧只能走一步看一步。

  上午无事可做,林灰又去找了伊芙·卡莉。

  毕竟快要出国了,林灰觉得和一些歪果仁接触一下有助于口语上的进步。

  另外昨天林灰和伊芙·卡莉也只是聊了一个基本的框架。

  还有很多东西需要进一步深入聊聊。

  刚好伊芙·卡莉也有和林灰交流的意愿,于是两人又一次在状元学府那见面了。

  不过这次黄静和米娜·卡莉都不在。

  尽管是孤男寡女共处一室,不过两人交往也没啥龌龊的地方。

  换谁和一个异性聊一上午处理高维数据这种应用数学方面的东西。

  估计也兴不起什么异样的想法。

  和伊芙·卡莉的这次沟通,林灰稍稍有些意外。

  伊芙·卡莉领悟的很快,她已经大致了解了先前林灰给他说的应用分布式词向量处理原始数据。

  并且初步按照林灰先前所介绍的理论弄了一个分布式词向量的模型。

  这个模型虽然效率还不是很高,但已经有内味了。

  但她还是不是太明白究竟是如何做到的。

  其实这就涉及到监督学习和非监督学习之辩了。

  基于监督学习的方法:使用人工或半人工方式构建一批所研究领域内的文档的语料(用专用标记在文中标出要出现在最终的摘要中的句子),然后选取适当特征训练相应的分类器或序列标注器,再用训练好的分类器或序列标注器对新的文档的每个句子进行标注,将标为候选的句子取出后拼接成摘要。

  基于非监督学习的方法:无需训练语料,直接使用某种启发式的打分机制(如tfidf、图算法等)为每个句子(或词)打分,以表名其在文章中的重要程度,选取分值最高的前若干个句子作为候选,将其拼接成摘要。对选词类的方法而言,则是选择分值最高的若干词作为文章的关键词,再使用这些关键词以一定的策略选择句子(如按含有关键词的数量等),之后拼接所选句子成为摘要。

  基于监督学习的方法尽管能够更容易地捕捉更多细节,达到较好的精度,但其可扩展性也不高,因为不同领域内的规律也不尽相同,而对一个新的领域构建语料库是一个非常耗时耗力的工作。

  基于非监督学习的方法因其算法简洁,无需人工知识整理以及构建语料库,因此具有很好的可扩展性,一个领域中应用成熟的方案非常易于移植到其他领域。但往往由于算法过于追求普适性而忽略领域相关的细节,导致抽取结果内容基本涵盖了文章主旨,但却缺少必要的连接句,导致可读性下降。

  据林灰了解这个时空的人们主要应用监督学习。

  但其实非监督学习也是一种不错的手段。

  已经将先前跟林灰沟通中的东西整理成了书面形式。

  虽然细节之处还有待补充,但林灰看得出如果在此基础上再补充一些细节的话完全可以以论文的形式往外发。

  ……

  下午林灰又收到了银行方面发来的短信。

  从这些通知消息上看,林灰6699卡上的余额从5750万元变成7350万元。

  之所以國内的余额增长如此迅速,应该和黄静先前汇报给林灰的情况有关.

  很多海外玩家因为定价的差异化原因,纷纷使用中國区账号进行游戏的下载。

  果不其然,林灰注意到0010那张卡上的余额几乎没啥变化,只是从3677万美元增长到了3690万美元。

  这个增长幅度甚至比不上林灰跟海外网文对应的那张卡。

  海外网文对应的那张卡还增长了19万美元呢。

  余额从66万美元变成了85万美元。

  这些东西虽然和以往有点小变数,但也在预料之内。
第172章 行业标杆?(3/3).继续阅读
《 加入书签,方便阅读 》
上一章 目录 下一章