当前,越来越多的金融机构开始使用机器学习方法,以期在市场竞争中赢得优势。而量化投资机构也逐步抛弃传统的分析方法,转而使用机器学习算法预测市场走势和选择投资组合。
而机器学习的优势在于,能够提供非线性关系的模糊处理,弥补了人脑思维模式,同时利用相关算法,可以大幅提高数据挖掘、处理效率。则借用机器学习,量化投资策略会变得更加丰富。
与此同时,在量化领域应用机器学习算法,仍然存在一些问题和挑战。那么,你在实践过程中,都碰到哪些问题呢?
更新时间:2022-10-14 09:36
目前国内最大的量化私募大佬明汯投资裘慧明-聊一聊主流股票量化投资策略有哪些?
https://www.bilibili.com/video/BV17D4y1U7MB
明汯投资,国内第一家管理规模达到千亿的量化私募。上海明汯投资管理公司于2014年成立于上海市虹口区对冲基金产业园, 公司专注于量化投资领域,借助强大的数据挖掘、统计建模和计算能力,构建了覆盖全市场、多品种的量化资产管理平台,在国内外金融市场均取得了稳健的业绩记录。2015年,明汯投
更新时间:2022-10-10 17:43
第七届数据挖掘与大数据国际会议(DMBD'2022) The Seventh International Conference on Data Mining and Big Data (DMBD'2022)
第七届数据挖掘与大数据国际会议(DMBD'2022)是研究人员和从业者交流其在数据挖掘和大数据以及人工智能技术的理论、算法、模型和应用方面的进展和最新成果的国际性论坛。
DMBD'2022将于2022年11月21日至24日在北京召开,今年的会议主题是“智能金融与创新”。DMBD'2022是继之前的广州、贝尔格莱德、清迈、上海、福冈和巴厘岛会议之后的第七届年会,其中超过数百位来自世界各
更新时间:2022-09-02 16:57
数据挖掘对于投资决策的支持作用越发明显。随着国内资本市场的发展,证券市场中的可交易标的类型和数量都飞速增长,与市场有关的数据也快速增加。同时,随着市场监管越来越严,机构投资者的比重不断上升,市场有效性也逐步提升。如何快速准确地处理海量数据,并从中得到有价值的信息,是在这样的环境中继续获取超额收益的重要方法。
数据挖掘涵盖从数据采集到分析结果评价共7个步骤。
即,数据采集、数据清洗、数据特征提取、数据结构化、数据存储、数据分析、分析结果评价。
每一个步骤都需要大量的技术进行支撑,由此构成了完整的数据挖掘技术框架。
网络爬虫数据的使用需要审慎。
更新时间:2022-09-01 13:20
机器学习与CTA:数据挖掘与人类对世界的认识
这是机器学习与CTA周报的第九篇,机器学习中证500神经网络策略上周(6.25-6.29)收益0.87%,机器学习商品期货策略收益2.72%,7.2-7.6大概率看多的商品是铁矿石;大概率看空的商品是白糖,焦炭,玉米,焦煤。机器学习与基本面结合商品策略收益-1.13%,下周看多铅,看空锡。
风险提示:根据历史信息及数据构建的模型在市场急剧变化时可能失效。
[/wiki/static/upload/dc/dc506e90-d4ee-4955-9482-75f52dba743e.pdf](/wiki/static/up
更新时间:2022-09-01 13:15
\
更新时间:2022-08-25 02:56
\
更新时间:2022-08-25 02:16
策略回测效果如何评估? 量化实践中的过拟合问题一直饱受诟病,我们尝试梳理学术前沿对该领域的思考。在最新的学术文献中,不少学者已经开始反思学术界各类α因子是否只是数据挖掘的产物,一些文章开始提出一个更加严格规范的α因子挖掘框架。我们选取了一篇颇具代表性的论文,借鉴其中关于克服回测过拟合问题的一些技术方法。日常量化实践中研究人员会进行大量实验并选取其中最好的一种进行效果展示,这个过程会带来较大的过拟合问题,本文提出了一种考虑测试次数的策略效果评价调整方法。
[/wiki/static/upload/d8/d83e2de1-71dc-4f14-afc3-a040f4
更新时间:2022-07-27 10:13
要说人工智能领域的课程,斯坦福大学客座教授吴恩达的《机器学习》(Machine Learning)堪称经典。该课程最开始于2012年在Coursera上线,10年间已经吸引了近500万人注册。《机器学习》课程主要介绍了机器学习、数据挖掘和统计模式识别的基础知识和实践经验。 然而,近日Stanford Online 和 DeepLearning.AI 团队宣布了一项重要通知:《机器学习》课程将从 2022 年 6 月 14 日起关闭在 Coursera 上的新学员注册。此外,对于正在上《机器学习》课程的学员来说,该课程将不会再更新。
这个
更新时间:2022-06-06 08:15
更新时间:2022-04-11 11:00
本篇是“学海拾珠”系列第二十三篇。作者在本文中证明,指标对因子收益的预测能力是视预测时长而定的,同时受指标与因子收益的时变关系以及数据挖掘的影响。尽管有这些挑战,但只要投资者能切实地意识到因子择时的局限性,因子择时仍有可能成为非常好的工具。
产生因子溢价的主要来源包括风险暴露的补偿、由于市场参与者的不理性而产生的回报以及市场摩擦的影响。这三个因素中的每一个因素,都会随时间变化而波动。
因子的回报可以通过金融环境、经济环境、情绪、价差和动量这五类信号来
更新时间:2021-12-16 06:32
更新时间:2021-12-14 13:18
支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。它成为克服“维数灾难”和“过学习”等传统困难的有效办法,虽然他还处在飞速发展的阶段,但它的理论基础和实现途径的基本框架已经形成。支持向量机目前主要用来解决分类问题(模式识别,判别分析)和回归问题。而股市行为预测通常为预测股市数据的走势和预测股市数据的未来数值。而当我们将走势看作两种状态(涨、跌),问题便转化为分类问题,而预测股市未来的价格是指为典型的回归问题。我们有理由相信支持向量机可以对股市进行预测。
本报告将从实际应用角度出发,用沪深300
更新时间:2021-11-26 08:52
研究背景
我们在之前的行业轮动系列报告中挖掘了几大类的行业因子,例如,量价、宏观、情绪面、高频因子、预期基本面、历史基本面、公募基金观点等。这些因子通常可以分为两类:行业本身的特征以及基于共同外生变量变动的行业预期收益,但这两类因子都没有考虑行业之间的关联性。因此,在本篇报告中,我们从另一个角度研究行业收益的可预测性:相关行业的滞后收益率。
理论基础
投资者处理信息的能力有限,当某个行业出现信息或冲击时,专门从事相关行业的投资者可能也无法迅速把握冲击的全部影响。因此,信息会逐渐在各个行业间扩散,导致不同行业的股票价格先后响应。这一现象构成了某些行业滞后收益率
更新时间:2021-11-26 07:44
创业板50近期的强势表现离不开它的科技属性,但过往的分析通常只关注成分股本身的特征,如行业分布,等等。而科技是一个全球化分工的行业,每家公司可能只是整个生产链条中的一个环节。近期投资者颇为关注的新能源汽车和5G等主题,均属于这种类型。因此,分析创业板50在整个产业链,尤其是科技产业链中的特征和优势,有助于更好地理解和发现创业板50的投资价值。
创业板50指数的成分股具有科技行业集中度高、科技公司的属性纯正以及与前沿科技密切相关三大特征。
更新时间:2021-11-26 02:41
近年来,对于主题型投资机会的研究逐渐成为市场的热点。一方面,随着被动化投资的兴起,各类主题指数基金受到越来越多投资者的关注。另一方面,同一主题下股票收益的共性及领先-滞后关系的研究,也是当前量化选股模型的一个重要补充。因此,本文借用FactSet的供应链与深度行业分类数据,提出一种自动化程度可调节的主题组合构建框架,以满足各类型投资者的不同需求。
主题组合构建步骤
更新时间:2021-11-25 09:52
FactSet深度行业分类(RevereBusinessIndustrialClassification System,RBICS)数据。一套精确的结构化公司分类体系。利用FactSet独有的Revere Hierarchy行业分类,构建有固定层次的6级结构。
作为一类自下而上的分类方法,该体系利用每个公司的产品与服务信息,对它们进行精确、细粒度的行业划分。这种分类方式正在为越来越多的投资者接受与认可,被广泛应用于各种细分行业或特定主题的指数编制以及投资组合的构建中。
FactSet供应链(Supply Chain Relationships)数据。供应链研究是当前证
更新时间:2021-11-25 09:51
量化因子计算可以定义为一种基于初等计算函数与一阶谓词逻辑的递归过程。
量化因子的本质是股票的某种数量化特征,一般需要通过对股票某些数量信息进行计算得到。与计算机函数从“函数输入出发,输入函数计算,得到函数输出”相类似,量化计算过程也可以拆解为“从量化指标出发,输入量化计算,得到新量化指标”。由此可见,计算机函数构成的基本逻辑——递归过程也同样适用于因子计算架构。
**定义量化指标的计算过程有计算机语言与XML文本两种方式。**由于λ算子与图灵机、递归函数等价,因此无论是基于λ算子的函数式编程语言,还是基于图灵机的过程、命令范式语言,都可以用来构建量化计算过程。在定义逻
更新时间:2021-11-25 09:51
知识图谱的介绍。知识图谱的概念最早于2012年由谷歌提出,是一种直观显示各个实体关联信息的有效数据结构,旨在描述真实世界中存在的各种实体或概念及其关系。它脱胎于“语义网络”,随着网络和计算机技术的发展而逐渐演变。目前,知识图谱一词已经成为知识应用领域的一个通用词汇,不仅仅局限于谷歌搜索引擎的知识库及服务功能,而成为了人工智能领域炙手可热的概念。
知识图谱的构建与应用技术
构建知识图谱的本质是一个从数据采集,数据建模到数据存储的过程。
更新时间:2021-11-25 09:51
\
更新时间:2021-11-20 03:28
传统多因子选股
在国内A股市场,传统的多因子量化选股模型得到了广泛的应用,在实际表现中,传统的多因子模型在过去几年中也表现出较为稳定的超额收益率。但随着传统多因子模型应用越来越广泛,历史长期有效的因子逐渐失效,对新因子的挖掘提出了迫切的需求。
新因子挖掘
传统的因子指标挖掘主要集中于财务报表、个股中低频率的价量等相关的数据维度,而这部分数据维度的增量价值的挖掘已逐渐饱和,需从其他新的数据维度中挖掘新的因子指标,本篇报告从个股日内高频数据出发尝试挖掘出新的因子指标。
基于高频数据因子的策略构建
基于个股高频数据,构建了动量因子
更新时间:2021-08-10 01:51