心远地自偏


  • 首页

  • 标签

  • 分类

  • 归档

Open Challenges for Data Stream Mining Research

发表于 2019-08-02
ABSTRACT  每一天,传感器、交易和网络产生连续的大量的数据,这被视为数据流,其需要在数据到达时对数据做在线分析。流数据可以被视为是所谓大数据的一个主要来源。尽管对数据流和大数据的预测建模在过去十年受到了极大的关注,许多研究方法通常是为表现良好的受控问题设置设计的,而忽视了真实世界应用强加的重要的挑战。这篇文章讨论了关于数据流挖掘的八大开放挑战。我们的目标是确定当前研究和有意义的应用之间的差距,突出开放问题,并为数据流挖掘定义一种新的应用相关的研究方向。确定的挑战包括这些问题:保护数据隐私,处理遗留系统,处理不完整和延迟信息,复杂数据的分析,评估流挖掘算法。得到的分析 ...
阅读全文 »

文献汇报五

发表于 2019-08-02
工作概述  本次阅读学习了三篇论文,都是关于数据流挖掘的综述文献。这些文章主要概述是的对流数据挖掘中概念漂移的处理,这包括增量学习,概念漂移检测和适应,但对数据流挖掘中的聚类和异常点检测没有介绍。另外,关于数据流挖掘的半监督和无监督方法,及验证延迟也着墨较少。   一些思考  1. 由于概念漂移,算法要求具有遗忘机制,常见的遗忘机制有窗口化,样本权重和采样。这些方法都是在数据或是数据特征上使用遗忘机制,有没有可能使模型本身(参数)更新就使用遗忘机制,类似LSTM那样的遗忘更新机制。  2. 元学习我了解很少,仅知道 ...
阅读全文 »

文献汇报四

发表于 2019-07-19
工作概述  本次学习了两篇来自KDD2018的论文,分别是“Learning Dynamics of Decision Boundaries without Additional Labeled Data”和“A Stock AI Assistant for Reliability Modeling of Stock Comments”。  第一篇论文中,作者的目的是使用新获得的无标注数据和之前收集的标注数据来预测分类器参数,使分类器能够长时间维持较好的性能。作者使用逻辑斯蒂回归作为分类器,使用高斯过程来建模分类器参数的分布,即对分类器参数做回归。当训练 ...
阅读全文 »

A Stock AI Assistant for Reliability Modeling of Stock Comments

发表于 2019-07-19 | 分类于 机器学习
导读  这篇论文提出的方法是用于建模股票评论的可靠性,用的技术都不复杂,比如FM,ARMA,SVM这些。但这篇论文提取特征的思路很值得学习。首先是以一种时间演化的方式分析股票评论,即考虑分析师的历史表现,基于作者对分析师行为的观察,构造出反映分析师可靠程度的指标,分析师可靠程度又与其发布的评论的可靠性挂钩。另一个是考虑到股票趋势对评论可靠性的影响构造特征。  方法大概框架可见Figure 2,大概步骤可见结论部分。论文地址。 ABSTRACT  来自分析师的股票评论对于投资者预见股票波动和市场趋势来说包含重要顾问信息。对股票评论的现存 ...
阅读全文 »

Learning Dynamics of Decision Boundaries without Additional Labeled Data

发表于 2019-07-19 | 分类于 数据流挖掘
导读  在本论文中,作者的目的是使用新获得的无标注数据和之前收集的标注数据来预测分类器参数,使分类器能够长时间维持较好的性能。作者使用逻辑斯蒂回归作为分类器,使用高斯过程来建模分类器参数的分布,即对分类器参数做回归。当训练数据的数量很小或者长期预测需要执行时,预测出来的分类器的不确定性就会很高。通过使用贝叶斯框架,该方法能够考虑到这种不确定性,并学习决策边界的动态,这令分类器更加鲁棒。另外,为了利用无标注数据关于决策边界的信息,作者使用熵最小原则将其整合到提出的模型中,即决策边界不应该穿过样本的高密度区域,而应该位于低密度区域。  论文地址。 ABSTR ...
阅读全文 »

文献汇报三

发表于 2019-06-21
工作概述  本次阅读学习了三篇论文,均来自KDD2018,分别是”Discovering Non-Redundant K-means Clusterings in Optimal”,”Learning Adversarial Networks for Semi-Supervised Text Classification via Policy Gradient”和”Model-based Clustering of Short Text Streams”。  在第一篇论文中,作者提出了Nr-Kmeans,作为经典K均值聚类算法的一种扩展,可以在数据集中找 ...
阅读全文 »

Model-based Clustering of Short Text Streams

发表于 2019-06-21 | 分类于 机器学习
导读  在本论文中,作者第一次提出一种基于迪利克雷过程多项式混合(DPMM)模型的短文本流聚类算法,称为MStream,该算法可以自然得处理概念漂移问题和特征稀疏问题。因为基于DPMM可以直接计算一个文档属于某个现存的簇还是新簇的概率,因此就可以解决概念漂移问题。作者假设每个文档只与一个主题(簇)相关联,而不是假设文档分布在主题上。按照这种方法,MStream算法可以解决短文本的稀疏性问题。另外作者提出簇特征向量,本质是该簇中文档的一个大文档,利用其可加可删除性质,可以高效的更新聚类结果。  另外作者提出改进了的带有遗忘规则的MStreamF算法,该算法 ...
阅读全文 »

Learning Adversarial Networks for Semi-Supervised Text Classification via Policy Gradient

发表于 2019-06-17 | 分类于 机器学习
导读  本论文将半监督学习重新制定为一个基于模型的强化学习问题并提出一种新的对抗学习框架。由于之前的对抗学习框架不能直接扩展到半监督文本分类,因为GAN被设计为产生连续数据,自然不能用于离散数据生成。另外自我训练基于启发式方法,其从自己的高置信预测中获得额外的有标签数据,这样其表现是不稳定的,因为糟糕的预测可能得到加强。作者结合自我训练和对抗网络来克服上述问题。具体说来,基于自我训练建立的模型不需要通过重建输入实例来近似数据分布,另一方面,受对抗网络的启发,一个判断网络被引进自我训练来判断某实例数据的标签是不是真的,因此减少了加强糟糕预测的风险并令自我训练变得更稳定和更鲁棒 ...
阅读全文 »

Discovering Non-Redundant K-means Clusterings in Optimal

发表于 2019-06-13 | 分类于 机器学习
导读  在该论文中,作者提出了Nr-Kmeans,作为经典K均值聚类算法的一种扩张,可以在数据集中找到多个无冗余划分,即每一个对象被分配给不同子空间的不同簇。它为每一种划分同时定位最优的,任意方向的,相互正交的子空间。噪声空间的引入令其可以移除不能很好被任意一种划分表征的特征。在论文中,作者将经典K均值聚类的代价函数转换为一个迹最小化问题,再将其转换为特征值分解问题,因为迹等于特征值之和。在特殊情况下,即仅两个子空间的情况下,对矩阵作特征值分解,负的特征值相应的特征向量可将数据投影到第一个子空间,这时对应的迹最小。接着作者将一般情况$S>2$下所有子空间的组合当作特殊 ...
阅读全文 »

文献汇报二

发表于 2019-06-07
工作概述  本次学习了四篇论文。  第一篇是来自 science 2017的”A neural algorithm for a fundamental computing problem”,该论文发现果蝇嗅觉神经的算法可以用于相似搜索,和传统的LSH算法相比更精准且计算量更少,该算法使用稀疏二值映射将低维数据映射到更高维空间,使用赢者通吃策略确保输出向量是稀疏的,同时输出向量尽可能保留了输入数据之间的相似性。相似搜索在很多地方都可以用到,比如,聚类,最近邻,信息检索。  第二篇是来自于nips 2018的”Fast Similarit ...
阅读全文 »
1…3456

plato

51 日志
6 分类
23 标签
© 2020 plato
由 Hexo 强力驱动
|
主题 — NexT.Muse v5.1.4