基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

作者:神秘网友 发布时间:2020-10-31 21:03:23

基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

基于决策树方法的专利被引影响因素研究(python代码 图文 超详细)

目录

    • 综述
    • 1.数据来源与指标选取
      • 1.1数据来源
      • 1.2指标选取
    • 2.数据清洗与转换
      • 2.1数据清洗
      • 2.2数据转换
    • 3.决策树模型构建及准确性评估与优化
      • 3.1模型构建
      • 准确性评估与优化
    • 4.分析结果

本次研究基于决策树方法对可能影响专利被引的6个影响因素(专利申请年、专利公开年、发明人数量、专利权人数量、发明人国家、专利权人国家)与专利是否被引的潜在关系进行分析。研究发现,专利申请年是其中影响最为显著的因素,而后依次是发明人数量、专利公开年数量、专利权人数量,而其他2个指标的影响效果并不明显。
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

1.1数据来源

本研究选取美国专利号为43518开头的专利数据作为研究对象,获得专利数据1507条,经过数据清理后得到454条标准化数据。

1.2指标选取

根据可能对专利被引产生影响的因素列表,拟定决策树的分析指标共6个,分别是:专利申请年PATN:APD、专利公开年PATN:ISD、发明人数量INVTSUM、专利权人数量ASSGSUM、发明人国家INVT:CNT、专利权人国家ASSG:CNT,下表是描述统计。
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

2.1数据清洗

data.isnull().any(axis=0) //查看空值
data.isnull().any(axis=1)//判断数据行中是否存在缺失值
data.loc[data.isnull().any(axis=1)]//定位缺失值所在行
data3=data.dropna()
data//直接删除空值所在行
data_null_0=data.fillna(0,inplace=False)//定义缺失值为零
data.drop(index=1,axis=1)//删除特定行

2.2数据转换

对发明人及专利人国家不是US的标记为非US
核心代码为:

data['INVT:CNT']=data['INVT:CNT'].str.replace('JPX','非US')
data

得到数据如下图
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

3.1模型构建

选取特征值和分析指标,并对数据做标化处理
核心代码:

target = df_zhuanli['Cited']
data=df_zhuanli.loc[:,'PATN:ISD':'ASSG:CNT']

得下图
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细
建立训练集和数据集,按照20%和80%区分
核心代码

from sklearn.model_selection import train_test_splittrain_data, test_data, train_target, test_target = train_test_split(data,\ target, test_size=0.2, train_size=0.8 ,random_state=1234)

建立决策树 深度为4 使用信息熵来衡量集合纯度
核心代码:

from sklearn.tree import DecisionTreeClassifierclf = DecisionTreeClassifier(criterion='entropy', max_depth=4, class_weight=None, random_state=1234 ) clf.fit(train_data,train_target)

准确性评估与优化

对于分类问题,我们建立混淆矩阵通过计算Accuracy、Precision、Recall、F1-score四个指标对模型进行评估
核心代码

import sklearn.metrics as metrics
print(metrics.classification_report(test_target, clf.predict(test_data)))

得下图
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

由图中可知对于被引用=1情况,f1-score只有0.43,召回率只有0.33,说明在被引用的专利中,模型只能找出其中的33%,损失极大,所以提高被引用专利的权重
核心代码如下:

clf.set_params(**{'class_weight':{0:1,1:5}})//调整被引用的权重为未被引用的五倍
clf.fit(train_data,train_target)
print(metrics.classification_report(test_target, clf.predict(test_data)))

得下图
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细
可知,优化后召回率达到97%,符合预期,模型可行

计算出影响较大的特征值:
核心代码:

list(zip(data.columns, clf.feature_importances_))

得下图
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细
按挖掘模型生成的决策树分析结果

import pydotplusfrom IPython.display 
import Image 
import sklearn.tree as treedot_data = tree.export_graphviz(clf, out_file=None, feature_names=data.columns, class_names=['0','1'], filled=True) graph = pydotplus.graph_from_dot_data(dot_data) Image(graph.create_png())

如图:
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

根据决策树可分析得出部分规则
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

基于决策树方法的专利被引影响因素研究(python代码 图文 超详细
根据以上规则可得出以下结论:

1.规则 1 ~ 规则 4 表明专利优先权年越早的专利更容易被引用。1987 年之前的专利被引率达到66.7% , 而2003—2013 年的专利被引率仅仅为 8.5% 。根据专利被引率绘制被引率趋势图,见图 ,可以发现,专利引用率逐步下降,这进一步证明了时间因素对于专利被引行为的 影响作用

基于决策树方法的专利被引影响因素研究(python代码 图文 超详细
2.规则5与规则6表明,发明人数量对于专利被引有一定的影响,但是影响成度并不大,规则7与规则8表明,专利权人数量的增加,对于专利是否被引也具有一定的影响

3.规则 9到规则12表明,专利公开年对于专利是否被引也具有较高的影响力,但不及专利申请年对于专利是否被引的影响程度大。

4.根据决策树预测模型的依赖关系网络绘制专利被引重要影响因素示意图,见图
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细

可以发现,能够对预测属性产生影响的属性由强到弱依次是: 专利申请年、专利公开年、专利权人数量、发明人数量。因此在本研究选取的6个影响专利被引的因素中,专利的专利申请年对被引影响最为显著的因素。而发明人国家、专利权人国家2个指标的影响效果并不显著

参考
基于决策树方法的专利被引影响因素研究 吕璐成等 中国科学技术信息研究所

基于决策树方法的专利被引影响因素研究(python代码 图文 超详细相关教程

  1. 百度AI人脸

    百度AI人脸 人脸识别技术 人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术,用摄像机或者摄像头采用含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进行对检测到的人脸进行脸部的一系列相关技术操作,叫人脸识别。 人脸识别是一项热

  2. 基于电商中台架构-商品系统设计(一)

    基于电商中台架构-商品系统设计(一) 文章目录 一、 总体设计 基础层 平台层 二、 概念定义 Item-sku 前后端商品 关联关系 商品快照 商品打标 类目 属性 三、技术设计 关系图 商品关键字段介绍 商品历史表Item_history设计 商品快照设计 商品打标设计 商品扩展

  3. uni-app h5调用微信支付方法

    uni-app h5调用微信支付方法 uni-app h5调用微信支付方法 首先微信支付的形式要好多种如需可查看https://pay.weixin.qq.com/wiki/doc/api/index.html,这里主要用的是JSAPI的支付形式。 想要公众号、h5页面直接调起微信支付窗口实现支付形式,首先必须是微信

  4. 基于RateLimiter实现单机版限流方案

    基于RateLimiter实现单机版限流方案 RateLimiter 限流方案只适合轻量级别的单机限流,并不适合分布式限流 pom.xm文件 dependency groupIdorg.springframework.boot/groupId artifactIdspring-boot-starter-web/artifactId /dependency dependency groupIdcom.

  5. 基于电商中台架构-商品系统设计(二):类目设计

    基于电商中台架构-商品系统设计(二):类目设计 类目设计 概念定义 什么是类目 前后台类目 属性和属性值 导航属性 销售属性 普通属性 子属性和子属性值 技术设计 关系图 类目属性树形结构图 类目表 缓存 分布式缓存 分布式本地缓存 总结 概念定义 类目简单来说

  6. Docker基础:Docker Desktop community的手动更新方法

    Docker基础:Docker Desktop community的手动更新方法 这篇文章介绍一下MacOS上的Docker Desktop community手动更新的方法。 目录 环境说明 Check for update 下载并更新 结果确认 总结 环境说明 liumiaocn:~ liumiao$ sw_versProductName:Mac OS XProductVer

  7. 基于Thinkphp使用同一个域名,PC和M端访问不同模板

    基于Thinkphp使用同一个域名,PC和M端访问不同模板 一、首先目录结构展示:(主要修改这几个文件) 二、更改入口文件 index.php require DIR . ‘./isMobile.php’; 三、在入口文件index.php同级目录下,增加common.php 文件,代码为: ?phpfunction isMobile

  8. 设计模式之工厂方法模式

    设计模式之工厂方法模式 写在前面 本博主说写设计模式模块的内容皆来自《设计模式之禅第二版》,有兴趣的朋友可以去看原创作者的书籍,我写在这是为了本人方便或者其它朋友能够单独的看到想看的设计模式。原著写得很好,强烈建议观看原书。如果侵权麻烦联系本