《Evolutionary Learning: Advances in Theories and A....

日期:2019-09-29 22:49

  ning),也叫数据开采,数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

  数据挖掘基于的数据库类型主要有关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、文本型、 Internet信息库 以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘在数据由数据库转化为知识的过程中,所处的位置如图1所示。

  数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识(也包括大量的不公开的数据)。数据挖掘使数据库技术进入了一个更高级的阶段。数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。能够比市场提前知道这种信息,提前做出决策就会获得超额利润。

  数据本来只是数据,直观上并没有表现出任务有价值的知识。当我们用数据挖掘方法,从数据中挖掘出知识后,这种知识是否值得信赖呢?为了说明这种知识是可信的, 现在来简要介绍一下数据挖掘的原理。

  数据挖掘其实质是综合应用各种技术,对于业务相关的数据进行一系列科学的处理,这这过程中需要用到数据库、统计学、应用数学、机器学习、可视化、信息科学、程序开发以及其他学科(如图2所示)。其核心是利用算法对处理好的输入和输出数据进行训练,并得到模型, 然后再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系, 然后再利用该模型,对新输入的数据进行计算,从而得到我们希望得到的新的输出。所以虽然这种模型不容易解释或很难看到, 但它是基于大量数据训练并经过验证的,所以能够反映输入数据和输出数据之间的大致关系,这种关系(模型)就是我们需要的知识。这就是数据挖掘的原理。从数据挖掘的原理可以看出, 数据挖掘是有一定科学依据的, 数据挖掘的结果也是值得信赖的。

  股市的影响因素很多,但中国股市对宏观政策尤其敏感,从根本上说,股市的运行与宏观的经济运行应当是一致的,经济的周期决定着股市的周期,股市周期的变化反映了经济周期的变动。其中经济周期包括衰退、危机、复苏和繁荣四个阶段。按照一般常理来说,在经济衰退时期,股价指数会逐渐下跌;到经济危机时期,股价指数跌至最低点;当经济复苏开始时,股价指数又会逐步上升;到经济繁荣时,股价指数则上涨至最高点。由此看来宏观经济走势影响着股市的波动,但宏观经济走势与股市趋势的变动周期也不是完全同步的。所以无论从量化投资角度还是传统投资方式角度,对宏观经济进行深入的分析是必须的。

  在宏观经济分析方面, 经常用到回归、关联分析、分类、预测等方法。比如利用回归、预测等技术确定经济周期, 并研究不同股票于各经济周期的关联性, 这样就可以在不同的经济周期,制定不同的投资策略,这样不仅可以在不同的经济周期实现持续盈利,还可以规避风险。 比如有的投资机构在2008年前就利用数据挖掘技术确认当时的经济周期,提前减仓,改变投资策略,不仅避免了风险,而且实现了高额收益。 其实,如果将08年之前的宏观经济数据可视化之后(图3所示), 就会发现这期间的经济环境了。

  国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资。

  通过对上市公司的价值的评估,来进行股票的选择。这是现在占据主流地位的基本面分析的基本方法。通过各种不同的方法对于上市公司的价值进行一个评估,然后结合股票市场上的表现来决定市场上的价格是否被低估或者高估。如果低估则买入,如果高估则卖出。当然,中国市场现在还没有卖空的途径,刚刚获批的融资融券业务也只是在限定标的的情况下进行部分的卖空,所以中国市场还是主要以买入为主。于是,我们更多的是选择那些价格被低估的股票。分析未来股票发行和上市价格的合理定位。

  数据挖掘技术在估价方面的应用就是去挖掘价值被低估的股票, 比如可以用最近邻方法确定基本面相似的股票的市场估价, 然后根据实际价格很容易确定哪些股票被低估或者高估。 该方法对于新股的认购策略也同样非常有帮助, 因为可以用来评估新股的合理价格区间。

  量化选股是数据挖掘在量化投资领域研究和应用最多的课题,毕竟选股是量化投资的最重要的内容。像上面刚介绍的多因子选股模型,主要是靠数据挖掘中的回归方法得到的。当然量化选股的内容不仅限于此,数据挖掘技术在选股上有多重应用,有时是为策略提供决策基础, 有时是根据策略进行挖掘。 比如,可以用聚类方法对股票进行聚类,从而对股票进行分池, 选股的时候就2可以从上涨概率比较大的池子中选择股票。 再比如,可以用神经网络方法预测股票的涨跌概率,具体实现方法这里先不赘述, 这些内容在本书中将都会进行介绍。

  量化投资领域中,一个好的选股策略是比较容易实现的。这是因为在长时间跨度里能够跑赢市场的一些投资组合一般会满足某种特性,例如低估值、例如高成长、例如小市值、例如隐形资产低估等等。 但择时就不是那么简单了, 这里会有一个简单的问题:大盘明天是涨还是跌?

  这个看似简单的问题其实并不好回答,尤其是从量化的角度去处理,甚至我们从传统的策略研究——技术面+基本面+政策面会更加好回答一些。为什么?因为量化择时无法处理来自政策面的消息。还有就是量化择时经常会有很强的时域特性,太短的时域预测例如一天,太长的时域预测例如一年,量化择时是很难处理的。

  正因为择时比较难处理, 所以采用数据挖掘技术, 用大量的数据去寻找最佳的卖点相对显得更理性些。 比如用上面刚介绍的SVM方法进行择时, 或采用神经网络预测近期的涨跌趋势, 再或者采用分类方法判断近期的最佳交易周期。

  算法交易(algorithmic trading),是指把一个指定交易量的买入或者卖出指令放入模型,该模型包含交易员确定的某些目标。 根据这些特殊的算法目标,该模型会产生执行指令的时机和交易额。而这些目标往往基于某个基准、价格或时间。这种交易有时候被称“黑箱交易”。算法交易通过程序系统交易,将一个大额的交易拆分成数十个小额交易,以此来尽量减少对市场价格造成冲击,降低交易成本,且还能帮助机构投资者快速增加交易量。

  算法交易系统的核心是通过一套计算机程序,可以在一秒钟内产生数千个交易指令,其中许多指令瞬间就可以被取消或被新的指令取代,从而把大额委托化整为零,减小对市场的冲击,并且可以寻求最佳的成交执行路径,减少交易成本。但程序的核心是交易算法,而这种敢于在市场上进行实操的算法往往都是在大量的历史交易数据挖掘中得到的, 然后再经过严格的测试,确定算法的可靠且有效后方可投入实际的算法交易。 在算法交易方面,可用到的数据挖掘技术比较广, 往往涉及到多种方法的综合。 在算法交易方面,目前用的比较多的数据挖掘方法是集成决策树, 其核心是当不同的指标(信号)出现不同的情况时,给出具体的交易操作(买入或卖出),采用这种方法不仅是稳定、灵活,而且还可以采用优化算法对其进行优化,提高收益, 图4即为采用遗传算法优化交易指标的迭代效果图。

  收集更多的数据已经不能让您脱引而出,更重要的是谁能够迅速分清所收集到的数据。在过去,硬件采样率由于受模数转换...

  相信从事NLP、数据挖掘、知识图谱等领域的博友都知道哈工大LTP、同义词词林这些工具,该系列文章也会....

  数据挖掘领域是一个独特的行业,通常的招聘方法可能不大适用于本行业的特点。在招聘一个合格的数据挖掘工程....

  机器学习是人工智能研究领域中的一个极其重要的方向。在现今大数据时代的背景下,捕获数据并从中萃取有价值....

  随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。广泛的应用对中文信息处理技术也提出了较高的要求。中文信...

  我们最初收到了9185份摘要提交。其中,276个是占位摘要:要么是荒谬的(“xyz”,“[place....

  本文档的主要内容详细介绍的是物联网IOT的工程试题库资料合集免费下载。

  虽然各大城市的薪资标准略有不同,但是这也确实传递出一个信息,如果想要年薪百万、一夜暴富、成功走上人生....

  数据挖掘就是从存放在数据库、数据仓库或者其他信息库中的大量数据中挖掘有趣知识的过程。它是在多种数据存....

  时间序列聚类已成为近十年来越来越重要的研究课题。大多数现有的时间序列聚类方法依赖于使用欧几里得距离或....

  TIOBE发布了5月份编程语言排行榜,排名前三的还是万年不变的 Java、C、C++

  该排行榜排名基于全球有经验的工程师、课程和第三方厂商的数量。根据知名搜索引擎(诸如 Google、M....

  马尔可夫聚类算法(MCL)是 在大规模生物网络中寻找模块的一个有效方法,能够挖掘网络结构和功能影响力....

  《Evolutionary Learning: Advances in Theories and A....

  PAKDD 2019 AutoML挑战赛结果出炉:国内团队DeepBlueAI斩获第一名

  如下图所示,研究团队实现了一个Lifelong AutoML 框架,包括自动特征工程和自动快速特征选....

  通过识别行为模式并创建自己的逻辑,人工智能与机器学习算法将改变医疗健康的各个方面。从简单任务的自动化....

  数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中....

  本文从数据科学的角度讲述了笔者对信息科学的认识与感悟,有选取数据科学中的知识发现和数据挖掘做出来具体....

  CredilogrosCíaFinancieraS.A.是阿根廷第五大信贷公司,资产估计价值为957....

  本视频主要详细介绍了数据挖掘的特点是什么,分别是基于大量数据、非平凡性、隐含性、新奇性、价值性。

  本视频主要详细介绍了数据挖掘的四类方法,分别是神经网络方法、遗传算法、决策树方法、粗集方法。

  本视频主要详细介绍了数据挖掘的功能,分别是数据分类、数据估计、数据预测、数据关联分组、数据聚类。

  本视频主要详细介绍了数据挖掘常用算法,分别是朴素贝叶斯、逻辑回归(logisticregressio....

  本视频主要详细介绍了数据挖掘的任务有哪些,分别是关联分析(associationanalysis)、....

  素有“数据世界杯“之誉的KDD Cup日前正式公布了KDD Cup 2019三项重大赛事

  本次KDD Cup选择将其纳入比赛内容,并为此打破历来数据挖掘方向赛事的传统,也是基于对AutoML....

  大数据是人们获得新的认知,安博电竞创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法....

  随机采样的样本大小很重要,也不能过小。需要足够有代表性,即小样本依然可以代表总体的数据分布。如果最终....

  生物复杂网络motif发现是一种研究生物网络的重要方法,它基于复杂网络的理论研究,以新的视角来研究生....

  一些先进 应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着....

  建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作....

  当前,大数据的处理分析正成为新一代信息技术融合应用的节点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代...

  本文结合代码实例待你上手python数据挖掘和机器学习技术。 本文包含了五个知识点: 1. ....

  随着科技的不断发展,数据的获取及存储能力有了极大提升,致使数据规模呈现急速膨胀态势。这为数据挖掘和数....

  近年来,随着信息产业规模化程度的日益加深,数据量呈指数式爆炸增长,庞大数量的多源异构数据带来一系列挑....

  在推荐系统领域(Recommender System),高引学者排名前三的学者依次是:纽约大学教授A....

  随着数据挖掘技术的不断发展,在很多领域都取得了显著的成就。近几年,高校的信息化管理成为了教育领域研究....

  针对如何挖掘不同模态中具有相同语义的特征数据之间的内在相关性的问题,提出了一种基于语义相关性与拓扑关....

  针对高维的数据中往往存在非线性、低秩形式和属性冗余等问题,提出一种基于核函数的属性自表达无监督属性选....

  在数据挖掘中,通过挖掘最大频繁项集来代替挖掘频繁项集可以大大地提升系统的运行效率。针对现有的最大频繁....

  社会网络,如微博和Twitter,已经成为数十亿人关注事件的重要平台。人们不仅关注所发生的事情,更关....

  针对多数据源或异构数据集,采用单个核函数的聚类效果不理想的问题,以及考虑到不同属性对不同类别重要性的....

  (1)数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。 (2)数据挖掘,又称为数据库中知....

  客户是商业银行的核心竞争力。本文分析了商业银行的实际需求,基于统一建模语言进行了系统分析与设计。采用....

  聚类分析是将研究对象分为相对同质的群组的统计分析技术,聚类分析的核心就是发现有用的对象簇。K-mea....

  在手机、平板电脑等电子媒介的人均持有率大于一的今天,网络自媒体的传播达到了前所未有的巅峰。本文通过基....

  本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型....

  针对现有Eclat算法中普遍存在的候选集规模大、求交效率低的问题,提出了基于剪枝优化和索引求交的改进....

  模糊关系中的合成运算是一种重要的运算,在模式识别、机器学习和数据挖掘中具有广泛的应用。本文对模糊关系....

  针对关于潜在犯罪人员的预测、挖掘效果不佳,利用犯罪人员、交通出行和住宿消费等数据,在Spark分布式....

  半监督模式下的多视角特征降维方法,大多并未考虑到不同视角间特征投影的差异,且由于缺乏对降维后的低维矩....

  本文档的主要内容详细介绍的是机器学习教程之机器学习10大经典算法的详细资料讲解主要内容包括了:1、C....

  K-means算法是被广泛使用的一种聚类算法,传统的-means算法中初始聚类中心的选择具有随机性,....

  针对传统K-means型算法的“均匀效应”问题,提出一种基于概率模型的聚类算法。首先,提出一个描述非....

  近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用...