策略分享

专利因子在量化选股中的运用

由small_q创建,最终由small_q 被浏览 33 用户

近年来,随着市场对专利的关注度逐渐上升,基于专利数据的指数与基金产品逐渐增多。使用了专利数据的相关指数包括专利领先、创业专利、深创100 、央企创新驱动指数000861等,相关基金总规模超 100 亿元。本文将基于平台的专利数据库进行深入研究。

Bigquant平台共计收录了486个专利因子。专利数据可分为发明专利、实用新型专利、外观设计专利三大类;专利状态包括:专利申请、专利公开、实质审查、专利授权几个流程;专利数据指标包括数量、说明书总字数、权利要求总项数、独权总项数、附图总数、摘要总字数、IPC 分类号总数、寿命加总、专利审查期加总、前引、后引、非专利方面引用、同族专利共计 13 种指标。从上述三个维度,共计构建了82个基础数据,再结合时间维度,衍生出共计486个专利因子。

专利数据具有较强的行业和市值属性。在申万31个一级行业上,本文统计了专利数据的覆盖度,剔除“非专利属性”的行业,包括:银行、传媒、综合、交通运输、非银行金融、房地产、商贸零售、社会服务。同时,行业龙头凭借其优势会发布更多的专利,市值越大的公司,专利数据普遍更多。因此,单因子选股可能有失公允,会使投资组合暴露在其他相关因子下。

不同的专利数据蕴含的价值信息不同。由于专利数据,尤其是基础专利类型,具有较强的行业和市值属性,其并不能反映公司真正的创新能力。但是,对于部分专利类型来说,比如海外同族专利,由于其申请更难、费用更多,企业只有将真正有价值的创造发明在海外二次申请专利,也能反映公司真实的创新能力,其回测效果在整个486个因子中表现也更好。

本篇作为“专利因子研究”系列的开篇之作,将重点放在专利数据的分析上,对全部486个因子进行排序回测检验。后续,我们会对专利因子进行更加深入的研究,包括:中性化后处理、大类因子合成、结合其他因子、机器学习模型的应用等。

一、数据介绍

专利数据可以从分类、所处状态、衡量指标三个维度进行展开。

专利数据可分为以下三类:

  • 发明专利:指对产品、方法或者其改进所提出的新的技术方案,其中又分为:
    • 发明授权专利:已经得到授权可以商用的专利,是最能反应公司实际创新和研发能力。
    • 发明公开专利:专利公开后可以在审核期有效防止类似专利的申请授权。
  • 实用新型专利:指对产品的形状、构造或者其结合所提出的适于实用的新的技术方案。
  • 外观设计专利:指对产品的形状、图案或者其结合以及色彩与形状、图案的结合所作出的富有美感并适于工业应用的新设计。

专利数据分类{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

专利状态指一个专利从无到有的过程,包括:专利申请、专利公开、实质审查、专利授权几个流程(注意新型和外观专利没有实质审查仅有形式审查)。

专利数据的具体指标包括专利数量、说明书总字数、权利要求总项数、独权总项数、附图总数、摘要总字数、IPC 分类号总数、寿命加总、专利审查期加总、前引、后引、非专利方面引用、同族专利共计 13 种指标。每种指标都反应了公司专利数据的情况,比如:

  • 前引:专利在申请时,引用的其他专利越多,质量可能越高。
  • 后引:该专利被其他专利引用的越多,质量也可能越高。
  • 海外同族专利:其本身基于同一优先权文件,在不同国家或地区,以及地区间专利组织多次申请、多次公布或批准的内容相同或基本相同的一组专利文献,通俗点讲,就是一模一样内容的专利,在不同国家申请所构成的一个专利族类。
  • 非专利类引用:文献引用。
  • 发明公开:发明专利公布指的是形式审查通过之后,发了受理通知书之后的一个流程,发明公布一般是从申请日开始四到五个月时间,公布之后进入实质审查阶段,进入实质审查阶段以后就排队等着审查员审查。
  • 权利要求:权利要求书是申请发明专利的和申请实用新型专利的必须提交的申请文件。它是发明或者实用新型专利要求保护的内容,具有直接的法律效力,是申请专利的核心,也是确定专利保护范围的重要法律文件。
  • 独权要求:指无需用其他权利要求来确定其范围和含义的完整权利要求。独立权利要求应从整体上反映发明或实用新型的主要技术内容。
  • IPC 分类号:是目前惟一国际通用的专利文献分类和检索工具,为世界各国所必备;PCT 申请情况能够反应专利法律地域保护范围,说明专利在世界范围内的影响力。
  • 专利寿命:如果专利取得授权,那么自申请日起至保护期结束的时间。
  • IPC分类:《国际专利分类表》(IPC 分类)是根据 1971 年签订的《国际专利分类斯特拉斯堡协定》编制的,是目前国际通用的专利文献分类和检索工具。国际专利分类系统按照技术主题设立类目,把整个技术领域分为 5 个不同等级:部、大类、小类、大组、小组,分别对应着 8、145、670、3,000+、10,000+个类别。可以理解为一种全新的行业分类。

二、数据库介绍

本文基于 BigQuant 平台上入库的 486 个专利因子,可以通过“patent_CN_STOCK_A”表获取相关数据。

DataSource('patent_CN_STOCK_A').read(start_date="2021-01-01",end_date="2021-12-31")

下文对具体数据指标进行了介绍:其中 i 表示截止日前 i 年,取1,2,3,4,5。另外,当上述因子去掉 i,比如 TG_B001,表示截止日前的专利数据。综上所述,共计486个专利因子。

编号 增量指标代码 增量指标标准名称定义
1 TGi_B001 截止日前i年内新生成的有效的发明公开审查中 专利总数
2 TGi_B002 截止日前i年内新生成的有效的实用新型 专利总数
3 TGi_B003 截止日前i年内新生成的有效的外观设计 专利总数
4 TGi_B004 截止日前i年内新生成的有效的发明授权 专利总数
5 TGi_B005 截止日前i年内新生成的有效的发明授权专利的 审查期总月数
6 TGi_B006 截止日前i年内新生成的有效的发明公开审查中专利的 IPC 分类号总数
7 TGi_B007 截止日前i年内新生成的有效的实用新型专利的 IPC 分类号总数
8 TGi_B008 截止日前i年内新生成的有效的发明授权专利的 IPC 分类号总数
9 TGi_B009 截止日前i年内新生成的有效的发明公开审查中专利的 说明书总字数
10 TGi_B010 截止日前i年内新生成的有效的实用新型专利的 说明书总字数
11 TGi_B011 截止日前i年内新生成的有效的发明授权专利的 说明书总字数
12 TGi_B012 截止日前i年内新生成的有效的发明公开审查中专利的 权利要求项总项数
13 TGi_B013 截止日前i年内新生成的有效的实用新型专利的 权利要求项总项数
14 TGi_B014 截止日前i年内新生成的有效的发明授权专利的 权利要求项总项数
15 TGi_B015 截止日前i年内新生成的有效的发明公开审查中专利的 说明书附图总数
16 TGi_B016 截止日前i年内新生成的有效的实用新型专利的 说明书附图总数
17 TGi_B017 截止日前i年内新生成的有效的发明授权专利的 说明书附图总数
18 TGi_B018 截止日前i年内新生成的有效的发明公开审查中专利的 摘要总字数
19 TGi_B019 截止日前i年内新生成的有效的实用新型专利的 摘要总字数
20 TGi_B020 截止日前i年内新生成的有效的发明授权专利的 摘要总字数
21 TGi_B021 截止日前i年内新生成的有效的发明公开审查中专利的 寿命总月数
22 TGi_B022 截止日前i年内新生成的有效的实用新型专利的 寿命总月数
23 TGi_B023 截止日前i年内新生成的有效的外观设计专利的 寿命总月数
24 TGi_B024 截止日前i年内新生成的有效的发明授权专利的 寿命总月数
25 TGi_B026 截止日前i年内新生成的有效的发明授权专利的 前引专利总数
26 TGi_B028 截止日前i年内新生成的有效的发明授权专利的 前引文献总数
27 TGi_V001 截止日前i年内新生成的有效的发明公开审查中专利的 独立权利要求项 总项数
28 TGi_V002 截止日前i年内新生成的有效的实用新型专利的 独立权利要求项 总项数
29 TGi_V003 截止日前i年内新生成的有效的发明授权专利的 独立权利要求项 总项数
30 TGi_V004 截止日前i年内新生成的有效的发明公开审查中专利的 直接后引专利 总数
31 TGi_V005 截止日前i年内新生成的有效的实用新型专利的 直接后引专利 总数
32 TGi_V006 截止日前i年内新生成的有效的外观专利的 直接后引专利 总数
33 TGi_V007 截止日前i年内新生成的有效的发明授权专利的 直接后引专利 总数
34 TGi_V008 截止日前i年内新生成的有效的发明授权专利的 国内简单同族 总数
35 TGi_V009 截止日前i年内新生成的有效的发明授权专利的 美国简单同族 总数
36 TGi_V010 截止日前i年内新生成的有效的发明授权专利的 日本简单同族 总数
37 TGi_V011 截止日前i年内新生成的有效的发明授权专利的 韩国简单同族 总数
38 TGi_V012 截止日前i年内新生成的有效的发明授权专利的 PCT 简单同族 总数
39 TGi_V013 截止日前i年内新生成的有效的发明授权专利的 欧洲简单同族 总数
40 TGi_V014 截止日前i年内新生成的通过 PCT 申请 的发明专利总数
41 TGi_V015 截止日前i年内新生成的 已受让的 有效的发明公开审查中的专利总数
42 TGi_V016 截止日前i年内新生成的 已受让的 有效的发明授权专利总数
43 TGi_V017 截止日前i年内新生成的 已受让的 有效的实用新型专利总数
44 TGi_V018 截止日前i年内新生成的 已受让的 有效的外观设计专利总数
45 TGi_V019 截止日前i年内新生成的 已转让的 有效的发明公开审查中的专利总数
46 TGi_V020 截止日前i年内新生成的 已转让的 有效的发明授权专利总数
47 TGi_V021 截止日前i年内新生成的 已转让的 有效的实用新型专利总数
48 TGi_V022 截止日前i年内新生成的 已转让的 有效的外观设计专利总数
49 TGi_V023 截止日前i年内新生成的 对外许可的 有效的发明授权专利总数
50 TGi_V024 截止日前i年内新生成的 对外许可的 有效的实用新型专利总数
51 TGi_V025 截止日前i年内新生成的 对外许可的 有效的外观设计专利总数
52 TGi_V026 截止日前i年内新生成的 被许可的 有效的发明授权专利总数
53 TGi_V027 截止日前i年内新生成的 被许可的 有效的实用新型专利总数
54 TGi_V028 截止日前i年内新生成的 被许可的 有效的外观设计专利总数
55 TGi_V029 截止日前i年内新生成的有效的发明授权专利 对外许可企业 总数
56 TGi_V030 截止日前i年内新生成的有效的实用新型专利 对外许可企业 总数
57 TGi_V031 截止日前i年内新生成的有效的外观设计专利 对外许可企业 总数
58 TGi_V032 截止日前i年内新生成的有效的发明授权专利 质押件数
59 TGi_V033 截止日前i年内新生成的有效的实用新型专利 质押件数
60 TGi_V034 截止日前i年内新生成的有效的外观设计专利 质押件数
61 TGi_V035 截止日前i年内新生成的 维持 3 年以上 的有效的发明授权专利总数
62 TGi_V036 截止日前i年内新生成的 维持 3 年以上 的有效的实用新型专利总数
63 TGi_V037 截止日前i年内新生成的 维持 3 年以上 的有效的外观设计专利总数
64 TGi_V038 截止日前i年内新生成的 维持 5 年以上 的有效的发明授权专利总数
65 TGi_V039 截止日前i年内新生成的 维持 5 年以上 的有效的实用新型专利总数
66 TGi_V040 截止日前i年内新生成的 维持 5 年以上 的有效的外观设计专利总数
67 TGi_V041 截止日前i年内新生成的有效的 三方发明 公开审查中专利总数
68 TGi_V042 截止日前i年内新生成的有效的 三方发明 授权专利总数
69 TGi_V045 截止日前i年内新生成的 在美国申请 的发明公开专利总数
70 TGi_V046 截止日前i年内新生成的 在美国申请 的发明授权专利总数
71 TGi_V047 截止日前i年内新生成的 在美国申请 的外观设计专利总数
72 TGi_V048 截止日前i年内新生成的 在欧专局申请 的发明公开专利总数
73 TGi_V051 截止日前i年内新生成的有效的 战略新兴产业 发明公开审查中专利数量
74 TGi_V052 截止日前i年内新生成的有效的 战略新兴产业 发明授权专利数量
75 TGi_V053 截止日前i年内新生成的有效的 战略新兴产业 实用新型专利数量
76 TGi_V054 截止日前i年内新生成的有效的发明公开审查中专利 技术生命周期(月数)
77 TGi_V055 截止日前i年内新生成的有效的发明授权专利 技术生命周期(月数)
78 TGi_V056 截止日前i年内新生成的有效的发明公开审查中专利的 简单同族专利 总数
79 TGi_V057 截止日前i年内新生成的有效的发明授权专利的 简单同族专利 总数
80 TGi_V058 截止日前i年内新生成的有效的实用新型专利的 简单同族专利 总数
81 TGi_V059 截止日前i年内新生成的有效的 专利家族族群 总数
82 TGi_V060 截止日前i年内新生成的有效的 专利家族最大族群 专利总件数

本文选择2022年4月为截面期,对 TG5_XXXX 类专利数据进行统计,统计后发现以下规律:

  • 针对基础数量类的专利数据,比如三大类型的专利数量、附图数量、摘要字数等,其覆盖度普遍较高,一般高于80%,比如TG5_B001、TG5_B019、TG5_V051。
  • 对于更加详细的专利数据,比如同族专利(TG5_V008)、直接后引(TG5_V006)、在美申请专利(TG5_V045)等,其数据覆盖度普遍低于50%。

下表展示了部分专利数据的统计结果:

数量 平均值 标准差 最小值 分位数:25 分位数:50 分位数:75 最大值 覆盖度(%)
TG5_B001 4,743 167 991 - 8 30 85 33,067 88.49
TG5_B002 4,743 164 814 - 7 42 121 25,246 84.82
TG5_B003 4,743 30 165 - - 1 12 6,644 55.72
TG5_B004 4,743 72 491 - 2 10 30 15,430 84.29
. . . . . .
TG5_V003 4,743 140 1,154 - 3 14 44 38,880 84.29
TG5_V004 4,743 27 200 - - 2 10 6,969 67.93
TG5_V005 4,743 7 41 - - 1 4 1,595 55.60
TG5_V006 4,743 0 0 - - - - 1 0.11
TG5_V007 4,743 0 1 - - - - 49 6.92
TG5_V008 4,743 0 3 - - - - 175 1.69
TG5_V009 4,743 8 235 - - - - 15,109 13.70
TG5_V010 4,743 1 17 - - - - 767 7.99
. . . . . .

选取了 ['TG_B001','TG_B021','TG5_V001','TG5_V009','TG5_V045'] 五个因子,计算其2010年至2022年的数据覆盖度如下:

数据覆盖度{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

接着,本文针对 TG5_B001 和 TG5_V009 两个专利因子进行更加细致的分析,仍然以2022年4月为截面期。

查看专利数据值最大的10只股票,发现:

  • 针对 TG5_B001 这类基础类专利数据,往往分散在各个行业龙头上。换言之,行业龙头依靠自身优势发布更多的专利。
  • 针对 TG5_V009 这类非基础类专利数据,它属于同族专利的一种,其分布更加聚焦于电子、新能源、通信等科技含量十足的行业中。
TG5_B001 TG5_V009
编号 证券代码 证券简称 TG5_B001 行业分类 编号 证券代码 证券简称 TG5_V009 行业分类
1 000651.SZ 格力电器 33067 家用电器 1 000725.SZA 京东方A 15109 电子
2 600028.SH 中国石化 21204 石油石化 2 000100.SZA TCL科技 4399 电子
3 000725.SZ 京东方A 20803 电子 3 000050.SZA 深天马A 2584 电子
4 000333.SZ 美的集团 20043 家用电器 4 300750.SZA 宁德时代 1244 电力设备
5 000977.SZ 浪潮信息 17349 计算机 5 688981.SHA 中芯国际 955 电子
6 601318.SH 中国平安 17054 非银金融 6 000333.SZA 美的集团 887 家用电器
7 600690.SH 海尔智家 15823 家用电器 7 002387.SZA 维信诺 865 电子
8 601618.SH 中国中冶 13838 建筑装饰 8 000063.SZA 中兴通讯 798 通信
9 601766.SH 中国中车 11099 机械设备 9 688256.SHA 寒武纪-U 583 电子
10 000100.SZ TCL科技 9418 电子 10 601138.SHA 工业富联 437 电子

查看专利数据覆盖度最大的10个行业,发现:

  • 从单个行业来看,数据分布普遍呈现“右偏(均值>中位数)”。
  • 相较于 TG5_B001,对于 TG5_V009 这类非基础类专利数据,其更偏向于家用电器、电子、医药生物、通信等行业。
TG5_B001 TG5_V009
编号 行业名称 平均值 最大值 最小值 中位数 覆盖度 股票数量 编号 行业名称 平均值 最大值 最小值 中位数 覆盖度 股票数量
1 美容护理 53.93 330 1 37 100 29 1 家用电器 32.11 887 0 0 33.73 83
2 基础化工 71.01 2548 0 35 99.16 358 2 电子 76.21 15109 0 0 30.94 362
3 通信 334.37 9412 0 55 99.1 111 3 医药生物 1.17 48 0 0 23.54 429
4 机械设备 155.06 11099 0 53.5 98.91 458 4 电力设备 7.16 1244 0 0 17.89 285
5 电子 275.90 20803 0 55 98.9 362 5 美容护理 0.34 4 0 0 17.24 29
6 家用电器 1177.06 33067 0 95 98.8 83 6 通信 9.79 798 0 0 17.12 111
7 国防军工 234.18 3137 0 81 98.32 119 7 机械设备 1.42 182 0 0 15.72 458
8 电力设备 189.12 5735 0 59 98.25 285 8 石油石化 13.91 373 0 0 15.22 46
9 钢铁 385.84 4400 0 64 97.73 44 9 轻工制造 1.72 93 0 0 13.77 138
10 环保 63.71 457 0 36 97.32 112 10 计算机 6.37 415 0 0 13.51 296

三、如何分析专利数据

专利对于创新型公司来说是影响衡量公司基本面的重要因素。我们可以从以下多个角度对专利数据进行分析,反应公司的基本面情况:

  1. 专利数量占比:是最直接反映公司创新能力的指标,但也要区分技术类别的重要程度。
  2. 同族专利数量:反映了专利申请地域的广度,也反映了其潜在价值——由于翻译、法律等其他费用,只有真正有商业价值的发明才会在多国申请专利,以便保护今后的投资和产品输出的独占权。
  3. 专利被引次数:反映此专利的重要程度,因为一项重要的专利出现以后,会伴随出现大量的改进专利产生,这项重要专利会被改进专利重复引用。
  4. 成长率:即专利数量随时间的增长率。
  5. 科学关联性:指专利所引证的科研学术论文或研究报告数量,该指标衡量的是专利技术和前沿科学研究关系。但不同行业的关联性并不同,比如:机械行业基本为零,而半导体行业关联性较高。
  6. 技术生命周期:该指标测算的是申请文件扉页中所引证专利技术年龄的平均数,即是最新专利和最早专利之间的一段时间。如果技术生命周期较短,意味着正在着力研发一门相对较新的技术,而且这门技术发展创新的非常快。该数据具有产业依存性,如电子类的约3~4年,而制药类的约为8~9年,造船类的可能长达15年。
  7. 专利效率:即结合财务科目——研发费用——的一种分析方法,测算的是一定的研发经费支出所创造的专利数量,用来评估企业在预定时间内专利数量产出的科研能力和成本效率。专利数量产出的越多,专利效率越高,则企业的技术研发能力越强。
  8. 专利实施率:即专利申请成功后到落地实施的转化率。我国的专利实施率仅仅维持于30%左右,远远低于欧美日各国的水平。
  9. 产业标准化指标:即行业中性化指标,指将一个企业的指标值除以企业所在产业该指标的平均值得出的。
  10. 市值中性化指标:即剔除市值因素后的指标。
  11. 研发方向:由于审核期的存在,专利申请通常会提前1-2年。这意味着投资者可以提前了解公司潜在发展方向,结合新产品所在市场情况,定量测算新产品可能的贡献。

本文通过介绍半导体行业的专利情况来简要说明——如何通过专利数据分析公司的基本面。

专利在半导体这个高壁垒、高技术、高成本的领域中非常重要。谁能优先申请专利,谁就能在半导体的发展中掌握着主动权。比如,华为在2019年5月被美国列入贸易管制黑名单,禁止华为以及附属的70家公司与美国企业进行业务往来。随后谷歌宣布不再为华为提供GMS框架服务,导致华为手机无法在海外正常使用,同时多家美国芯片突然断供。上述一系列事件最终导致了华为出售荣耀、将海思麒麟等“芯片备胎”转正的补救措施。

近年来,随着中兴、华为、海康等科技公司被制裁事件的增加,国家也愈发强调科技自主可控的重要性,国产替代成了近几年资本市场热捧的焦点。回到半导体行业,这是一个讲求极致分工的产业,算上一整条芯片生产线,大约涉及50多个细分行业、2000-5000道工序。大陆企业虽然在设计、封测等细分环节上实现了突破,无论在技术还是产量上都达到了世界前沿,但在最核心的中游制作环节,就算是国内最大的代工厂——中芯国际,与顶尖科技差了至少3-5年的差距。整体来看,美国、日本等企业仍然掌握着半导体行业的核心技术。

本文列举了国内半导体行业中六家代表性企业的专利数据和股价表现,数据均以2021年或2021年底为节点:

  • TG5_B001:截止日前5年内新生成的有效的发明公开审查中 专利总数
  • TG5_V001:截止日前5年内新生成的有效的发明公开审查中专利的 独立权利要求项 总项数
  • TG5_V004:截止日前5年内新生成的有效的发明公开审查中专利的 直接后引专利 总数
  • TG5_V009:截止日前5年内新生成的有效的发明授权专利的 美国简单同族 总数
  • TG5_V045:截止日前5年内新生成的 在美国申请 的发明公开专利总数
  • TG5_V059:截止日前5i年内新生成的有效的 专利家族族群 总数
证券代码 证券简称 TG5_B001 TG5_V001 TG5_V004 TG5_V009 TG5_V045 TG5_V059 总市值(亿元) 最大涨幅 PE_TTM
688981.SHA 中芯国际 3521 7109 447 2455 885 0 4188.25 26.41% 48.86
002371.SZA 北方华创 1600 3236 107 136 55 9 1824.12 162.93% 209.99
688396.SHA 华润微 687 1280 65 216 70 1 852.77 69.96% 43.49
600460.SHA 士兰微 252 559 43 20 11 5 767.51 358.30% 102.21
688012.SHA 中微公司 231 558 9 28 22 5 780.16 58.32% 103.04

虽然影响公司股价涨跌的因素有很多,但通过观察上表的数据,我们仍然能得到以下规律:

  • 市值越大的公司,专利数量越多。
  • TG5_V059 即专利家族族群总数 该因子能在一定程度上反映公司专利的真实价值,比如北方华创、士兰微在去年“缺芯潮”行情下表现更好。

在学术界,尤其针对美国资本市场,许多学者已经对专利数据和股票收益率上做了大量研究,比如:

  • Brown & Kimbrough (2011) 对1980-2006年间美国公司进行研究,结果发现,在知识产权保护机制完善的行业里,公司的专利产品被侵犯的可能性较低,可以为公司带来技术垄断利润,因此公司所拥有的专利等核心技术资产的多寡对预测其盈利状况意义重大;但是专利作用对市值较大的企业的盈利状况影响较弱,因为此类行业龙头容易引起竞争对手模仿其经营策略从而导致相似的盈利波动。
  • Pales & Schankerman (1984) 和 Pakes (1986) 指出许多发明者在其发明还不具有商业利用价值的研发阶段就开始提交专利申请,致使市面上一部分专利徒有虚表,专利发明的价值差异很大。
  • Pandit, Wasley & Zach (2011) 研究发现,公司拥有的专利数量的增加并不能带来经营业绩的提升,但专利引用量的增加可以帮助正向预测公司未来的现金流和收益。因为专利引用量是某专利在被授权后被其他专利或著作所引用的次数。若专利借鉴性高、在长时间内有较高的引用量,则表明该专利在技术上和经济上具有重大意义。

四、行业属性

专利具有较强的行业属性,比如电子、机械、国防军工等行业的专利相对较多,而银行、非银、房地产、商贸零售等行业的专利相对较少。专利覆盖度高的行业被称为专利属性行业,可以作为后续得选股的股票池,具体包括:电子、机械、国防军工、家电、基础化工、通信、轻工制造、电力设备及新能源、医药、汽车、计算机、建筑、建材、有色金属、食品饮料、钢铁、煤炭、纺织服装、电力及公用事业、石油石化、农林牧渔。其余 9 个专利覆盖度较低的行业包括银行、传媒、综合、交通运输、非银行金融、房地产、商贸零售、消费者服务、综合金融;从直观上看,这些行业确实是专利数较少的“非专利属性”行业。下表以 TG_B006 专利数据为例,统计了其过去11年在每个行业的覆盖度情况。

TG_B006 2010/12/31 2011/12/31 2012/12/31 2013/12/31 2014/12/31 2015/12/31 2016/12/31 2017/12/31 2018/12/31 2019/12/31 2020/12/31 2021/12/31
家用电器 54.4 58.2 70.9 76.0 81.0 82.3 86.1 91.0 96.2 100.0 98.7 100.0
电子 36.2 45.2 51.2 59.5 63.3 68.5 75.3 83.2 88.4 92.6 95.9 99.2
国防军工 33.3 40.3 47.2 52.8 51.4 58.3 66.7 77.5 88.8 91.2 95.6 99.1
机械设备 38.1 43.8 54.8 63.1 68.2 74.6 81.5 86.8 92.7 95.9 97.9 98.7
基础化工 40.9 46.1 58.9 65.4 68.4 73.8 80.5 85.6 89.5 93.8 96.9 98.3
电力设备 48.5 54.7 64.3 70.2 75.2 79.8 83.3 88.4 89.6 92.3 94.8 98.2
钢铁 54.6 56.8 70.5 77.3 79.6 84.1 86.4 83.3 85.4 95.2 95.2 97.7
通信 47.0 53.0 55.6 65.0 72.7 76.9 82.1 83.9 89.3 94.0 96.6 96.4
轻工制造 25.3 31.6 40.2 48.9 51.2 59.2 65.5 75.3 84.8 87.8 90.2 96.4
计算机 34.6 40.7 48.4 55.3 65.1 72.4 75.3 82.5 86.5 92.9 93.3 94.5
汽车 34.8 43.9 56.1 59.7 63.4 67.4 73.8 81.8 91.0 93.2 91.4 94.0
建筑装饰 31.2 35.7 43.3 48.4 52.2 58.6 64.3 74.8 81.9 88.1 90.0 93.5
医药生物 47.0 54.0 59.8 62.8 65.8 72.1 77.1 82.0 85.8 89.5 92.9 92.8
有色金属 54.0 58.7 63.3 70.0 72.0 74.7 78.7 84.8 86.1 85.7 90.7 89.9
建筑材料 37.9 42.5 49.4 60.9 64.4 66.7 66.7 73.5 78.5 87.7 87.8 88.2
食品饮料 27.8 31.8 42.1 44.4 49.2 58.7 66.7 71.8 75.0 81.0 82.9 85.3
农林牧渔 39.6 40.6 45.3 51.9 56.6 61.3 67.9 71.7 78.3 86.7 86.6 84.9
煤炭 30.3 36.4 51.5 57.6 66.7 66.7 66.7 68.6 74.3 75.0 75.0 81.6
纺织服饰 31.9 37.1 44.8 48.3 50.9 56.9 62.9 67.3 77.1 80.0 80.8 80.9
石油石化 37.5 37.5 75.0 75.0 93.8 93.8 75.0 66.7 72.2 77.8 83.3 80.4
公用事业 23.5 29.4 36.4 44.9 49.2 54.0 58.8 64.8 72.0 76.4 82.6 76.9
银行 26.2 26.2 31.0 33.3 40.5 33.3 35.7 45.2 50.0 47.6 59.5 59.5
交通运输 10.4 12.8 15.2 19.2 20.8 27.2 29.6 36.6 47.6 52.4 54.8 59.4
传媒 8.8 11.0 20.6 29.4 35.3 39.0 42.7 47.7 54.2 58.7 57.5 57.7
综合 28.3 28.3 34.0 41.5 43.4 45.3 43.4 44.1 49.0 56.1 59.0 56.7
社会服务 2.4 4.9 4.9 7.3 9.8 9.8 12.2 18.0 19.5 23.1 25.0 54.7
房地产 12.2 16.6 19.4 18.0 20.9 21.6 26.6 26.0 32.1 37.6 42.2 42.9
非银金融 6.3 6.3 4.7 9.4 14.1 14.1 18.8 19.4 26.3 37.7 38.2 41.4
商贸零售 8.7 4.8 9.6 12.5 14.4 19.2 20.2 24.5 30.1 33.0 38.4 40.0

选择2022年4月的数据,可以更加直观地观察不同行业之间专利数据的差异。

分行业数据覆盖度{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

由于不同行业的特征有所不同,专利因子有效性的规律也可能有所不同。专利适合在相同行业、同等市值规模的公司进行比较。以纺织服装行业举例,由于该行业上市公司以生产、销售服装为主营业务,其外观设计专利与实用新型专利对公司产品、业务的影响相对较大,从而进一步影响上市公司的股价;而发明授权专利的影响则可能较小。以某纺织服装行业上市公司 A 为例,整理其部分专利发现,在实用新型专利中,“一种带可隐藏反光部的冲锋衣”、“领面、领衬与领里相互间不粘合的硬领衬衫”等专利对于提升产品在实用层面的竞争力具有积极作用;外观设计专利中,上衣、裤子、鞋等具体外观设计对于产品的美观程度至关重要,往往也是消费者是否购买服装的重要考虑要素。因此对于纺织服装行业上市公司,实用新型专利与外观设计专利对公司业务的影响或许更大,相关因子的有效性也可能更强。

五、市值属性

正如前文介绍,行业龙头凭借其特有优势会发布更多的专利。本文以 家用电器、电子、基础化工、通信、电力设备 五个行业为例,统计了 TG_B006 和市值之间的关系,如下所示。整体来看,市值越大的公司,其专利数据也会越多。

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} {w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} {w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} {w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} {w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

六、实证研究

结合前文的分析,本次测试剔除“非专利属性”行业的股票,包括:银行、传媒、综合、交通运输、非银行金融、房地产、商贸零售、社会服务,以其他专利属性较强的行业作为股票池。

在剔除“非专利属性”行业的基础上,本文对全部486个因子进行回测,假设条件如下:

  • 回测周期:2010-01-01 至 2022-05-30
  • 选股条件:根据 专利因子 大小降序排列
  • 持仓数量:30
  • 调仓周期:严格月末选股,月初调仓
  • 最大仓位占比:90%
  • 手续费:双边 0.11%
  • 调仓方式:等权重
  • 初始资金:1,000,000
patent net_value portfolio_value information sharpe sortino max_drawdown 因子解释 数据覆盖度(2022-03,%)
TG1_V011 3.87 4,866,896.48 0.056 0.536 0.890 -0.437 截止日前 1 年内新生成的有效的发明授权专利的 韩国简单同族 总数 0.28
TG1_V045 3.09 4,090,294.04 0.050 0.482 0.817 -0.456 截止日前 1 年内新生成的 在美国申请 的发明公开专利总数 7.58
TG4_V060 3.09 4,094,511.85 0.048 0.481 0.821 -0.487 截止日前 4 年内新生成的 在美国申请 的发明公开专利总数 19.51
TG_V041 2.98 3,984,230.62 0.054 0.481 0.830 -0.453 截止日时有效的三方发明公开审查中专利总数 4.76
TG1_V010 3.02 4,015,832.41 0.050 0.476 0.811 -0.494 截止日前 1 年内新生成的有效的发明授权专利的 日本简单同族 总数 0.45
TG_B023 2.86 3,859,760.08 0.058 0.475 0.826 -0.457 截止日时有效的外观设计专利的寿命总月数 58.48
TG_V037 2.83 3,831,000.62 0.057 0.473 0.822 -0.462 截止日时维持 3 年以上的有效的外观设计专利总数 43.66
TG_B003 2.78 3,782,817.74 0.057 0.471 0.823 -0.427 截止日时有效的外观设计专利总数 58.54
TG4_B003 2.82 3,815,848.72 0.057 0.470 0.817 -0.419 截止日前 4 年内新生成的有效的外观设计 专利总数 53.46
TG5_B003 2.82 3,816,490.24 0.057 0.470 0.815 -0.439 截止日前 5 年内新生成的有效的外观设计 专利总数 55.27
. . . . . .
TG1_B014 0.66 1,664,547.99 0.020 0.172 0.407 -0.504 截止日前 1 年内新生成的有效的发明授权专利的 权利要求项总项数 68.08
TG1_V007 0.64 1,642,681.02 0.016 0.171 0.392 -0.626 截止日前 1 年内新生成的有效的发明授权专利的 直接后引专利 总数 0.02
TG2_V018 0.61 1,609,831.47 0.015 0.166 0.379 -0.558 截止日前 2 年内新生成的 已受让的 有效的外观设计专利总数 5.53
TG3_V018 0.55 1,547,197.22 0.013 0.153 0.360 -0.524 截止日前 3 年内新生成的 已受让的 有效的外观设计专利总数 7.37
TG_V016 0.49 1,488,573.17 0.013 0.133 0.348 -0.512 截止日时已受让的有效的发明授权专利总数 61.21
TG2_V017 0.44 1,439,818.45 0.012 0.126 0.330 -0.619 截止日前 2 年内新生成的 已受让的 有效的实用新型专利总数 20.71
TG4_V017 0.42 1,418,922.21 0.011 0.119 0.323 -0.572 截止日前 2 年内新生成的 已受让的 有效的实用新型专利总数 30.44
TG2_V005 0.44 1,435,409.27 0.012 0.115 0.337 -0.513 截止日前 2 年内新生成的有效的实用新型专利的 直接后引专利 总数 19.45
TG5_V017 0.28 1,275,501.52 0.007 0.083 0.273 -0.595 截止日前 5 年内新生成的 已受让的 有效的实用新型专利总数 33.71
TG3_V017 0.14 1,140,993.88 0.002 0.043 0.221 -0.585 截止日前 3 年内新生成的 已受让的 有效的实用新型专利总数 26.81

夏普比率分布图如下:

夏普比率分布图{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

以 TG1_V011 和 TG_B023 两个专利因子为例,统计过去十年的数据不为零的上市公司数量:

公司数量:TG1_V011 VS TG_B023{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

同时,在截面期2022年2月,统计上述两种专利数据在不同行业内的数据量:

石油石化 钢铁 家用电器 建筑装饰 食品饮料 轻工制造 基础化工 汽车 电力设备 计算机 电子 医药生物 机械设备
TG1_V011 1 1 3 0 0 0 0 0 2 0 5 1 0
TG_B023 15 16 80 88 104 110 123 153 187 213 214 286 347

从上述统计结果来看,部分专利数据(比如 TG1_V011)由于数据覆盖度较低,导致其股票池标的数据较少。进一步地,本文根据夏普比率和数据覆盖度两个指标进行筛选,得到以下5个专利因子:

patent net_value portfolio_value information sharpe sortino max_drawdown coverage 中文解释
TG_B023 2.86 3,859,760.08 0.058 0.475 0.826 -0.457 58.33 截止日时有效的外观设计专利的寿命总月数
TG_B003 2.78 3,782,817.74 0.057 0.471 0.823 -0.427 58.35 截止日时有效的外观设计专利总数
TG4_B003 2.82 3,815,848.72 0.057 0.470 0.817 -0.419 53.59 截止日前4年内新生成的有效的外观设计 专利总数
TG5_B003 2.82 3,816,490.24 0.057 0.470 0.815 -0.439 55.35 截止日前5年内新生成的有效的外观设计 专利总数
TG5_B023 2.45 3,447,051.96 0.052 0.434 0.766 -0.441 55.35 截止日前5年内新生成的有效的外观设计专利的 寿命总月数

选择表现最好的专利因子——TG_B023——作更加深入的研究:

行业 机械设备 医药生物 电子 计算机 电力设备 汽车 基础化工 轻工制造 食品饮料 建筑装饰
公司数量 347 286 214 213 187 153 123 110 104 88
公司 美的集团 格力电器 海尔智家 苏泊尔 海康威视 上汽集团 四川长虹 新宝股份 长城汽车 长安汽车
专利数据 438,132 301,515 174,749 111,314 105,734 104,912 100,326 91,958 88,423 83,906

最后,本文对比了表现最好和最差两类因子——TG1_V011 vs TG3_V017——的结果:

TG1_V011 因子的回测结果:

TG1_V011 回测结果{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

TG1_V011 因子在截面期2019-01-31的股票池:

行业 电子 基础化工 有色金属 电力设备 机械设备 医药生物 通信 计算机 家用电器 非银金融
公司数量 9 7 4 4 3 3 3 3 3 1
公司 美的集团 京东方A 中国平安 比亚迪 金风科技 中国石化 中兴通讯 歌尔股份 格力电器 维信诺
专利数据 52 25 24 21 18 16 13 13 12 10

TG3_V017 因子的回测结果:

TG3_V017{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

TG3_V017 因子在截面期2019-01-31的股票池:

行业 机械设备 电子 电力设备 基础化工 汽车 计算机 公用事业 建筑装饰 医药生物 有色金属
公司数量 111 105 82 68 64 49 47 44 43 37
公司 宝钢股份 浔兴股份 东方电气 中国船舶 天沃科技 北汽蓝谷 金龙机电 福田汽车 国机重装 国机精工
专利数据 1819 231 218 190 190 188 181 162 159 142

五、总结

从上述实证结果来看,本文得出了一下结论:

  1. 专利数据具有较强的行业和市值属性,因此简单的单因子选股回测有可能有失公允,使回测结果暴露在其他相关因子下。
  2. 专利数据在选股上有一定的参考价值,简单依靠单个因子作为条件进行选股仍能获取不错的回测效果,夏普比率最高为0.536,最低为0.043。
  3. 专利数据的覆盖度偏差较大,不同类型的数据无论是覆盖的行业还是上市公司,其差距较大。对数据覆盖度作出限制后,回测表现较好的因子聚集在“外观设计”类专利及其衍生因子,而该类因子主要聚焦于机械设备、医药生物、电子、汽车、家用电器等行业龙头上,也保证了回测结果较好。
  4. 不同的专利数据蕴含的信息价值不同,比如同族专利类数据更能真实体现专利的创新性,据此回测选股效果更佳。 比如,TG1_V011 作为同族专利类,回测结果更好,其在截面期2019年1月的选股标,未来表现也更好,比如美的集团、比亚迪、中兴通讯、歌尔股份等;对于TG3_V017 专利因子,因为其已受让的的实用新型专利,说明公司创新能力的欠缺,其选股标的质量也更差,回测表现更差。

作为“专利因子研究”的开篇之作,本文将重点放在专利数据的分析上,对全部486个因子作了简单排序回测检验,虽然能选出部分有效的专利因子,但其有效性有待深入考究。后续,我们会对专利因子进行更加深入的研究,包括:

  • 中性化后的因子:由于专利数据受到行业和市值的影响较大,因此有必要对数据进行中性化处理。
  • 专利因子合成:不同的专利因子蕴含的信息不同,如何将其进行结合生成新的因子,比如专利数量和权利要求项结合,更能反映专利的价值。
  • 与其他因子的结合:比如与研发费用、科研人员等财务指标,市盈率、市值等估值表的结合分析。
  • 机器学习模型:除了简单的排序选股,诸如 XGBoost、LightGBM等机器学习模型同样可以运用到专利因子上。

六、文献索引

《从中国心到中国芯 ——贸易战引发的专利选股有效性研究》兴业证券研究所,任瞳,徐寅,郑兆磊,2018年12月20日

《基于专利分类的科技动量因子研究》兴业证券研究所,徐寅,郑兆磊,2019年06月25日

《专利研究系列四:专利全解析》兴业证券研究所,郑兆磊,乔良,2022年02月27日

Brown, N.C., Kimbrough, M.D. “Intangible investment and the importance of firm-specific factors in the determination of earnings”. Rev Account Stud 16, 539–573 (2011)

A Pakes, M Schankerman, “The rate of obsolescence of patents, research gestation lags, and the private rate of return to research resources”. R&D, patents, and productivity, 1984

Pandit S , Wasley C E , Zach T . The Effect of Research and Development (R&D) Inputs and Outputs on the Relation between the Uncertainty of Future Operating Performance and R&D Expenditures[J]. Journal of Accounting, Auditing and Finance, 2011, 26(1):121-144.


https://bigquant.com/experimentshare/df5d922ef29e4210b15bc5fe55fc75d4

\

标签

量化选股
{link}