热门毕业论文范文
论文写作技巧
热门职称发表论文
热点期刊发表资源
您所在的位置: 首页>>论文资源>>毕业论文>>电子信息毕业论文>>大数据论文>基于趋势度分析的科技领域核心主题发展预测

基于趋势度分析的科技领域核心主题发展预测

作者:佳作论文网  来源:佳作论文网 日期:2022-06-23 15:16:18 人气:0

摘 要   

[目的]本研究旨在生成基于趋势度的预测模型,对领域文献进行相应分析,从而预测出领域核心主题的发展。

[方法]本文分析了科技文献表征其研究主题的特征项,进行主题识别,构建战略坐标识别领域核心主题及时间序列,利用 ARIMA 模型和指数平滑法预测主题的趋势度。

[结果]指数平滑法的预测结果的平均绝对误差与平均均方根误差均小于 ARIMA 模型。

[局限]模型中的初始参数选取、系数分布以及文献发文量的分布会对预测效果造成影响。

[结论]两种模型对于增长型主题和新兴型主题有较好的预测效果,指数平滑法的预测精准度要好于 ARIMA 模型。

关键词:主题发现;VOS 聚类;指数平滑法;ARIMA 模型;战略坐标分类号: G350

DEVELOPMENT FORECAST OF CORE THEME IN SCIENCE AND TECHNOLOGY FIELD BASED ON TREND ANALYSIS

Cui Gi1             Zhang Jinpeng1           Bao Zhou1        Ding Shengchun1

1(School of economics and management, Nanjing University of Science & Technology, Nanjing 210094, Jiangsu, China)

Abstract:

[Objective] The purpose of this study is to generate a trend-degree-based predictive model and conduct a corresponding analysis of the domain literature to predict the development of core topics in the domain.

[ Methods] This paper analyzes the characteristic items that characterize the research topic of scientific and technological literature, identifies the topic, constructs the core topic and time series in the field of strategic coordinate identification, and uses the ARIMA model and exponential smoothing method to predict the trend degree of the topic.

[Results] The mean absolute error and mean root mean square error of the prediction results of the exponential smoothing method are both smaller than those of the ARIMA model.

[Limitations] The selection of initial parameters in the model, the distribution of coefficients and the distribution of the number of published papers will affect the prediction effect.

[Conclusions] The two models have better prediction effects for growth and emerging themes, and the prediction accuracy of the exponential smoothing method is better than that of the ARIMA model.

Keywords: Theme discovery; VOS clustering; Exponential smoothing; ARIMA model; Strategic coordinates

1 引 言

文献数据日益增长,科技文献给广大科研人员提供了丰富的研究成果,但同时也对有效信息的管理和利用带来了巨大的挑战,使得精确地从数据中获得有效信息变得困难。科技文献中的核心主题可以准确、简洁地体现一个领域的核心技术和研究内容。如今学科交叉在科学研究中的作用日益明显,新的创新技术需要已有的科学成果作支撑,如何快速了解相关学科知识,查找已有成果, 是研究者需要考虑的重要问题。核心主题泛指领域中发展较为成熟并且与其他主题联系紧密的主题,其大致包含该领域的核心内容。针对自然科学中专业性较强的基础研究和技术开发领域而言,核心主题的发展会随着时间发生转变, 其转变过程一定程度上代表了该领域的发展进程。构建核心主题的趋势发展序列,预测其发展趋势,能够为领域的发展提供决策支持。因此对于某一领域的研究来说,通过识别核心主题并预测主题的趋势有助于快速、高效地获取当前领域的研究热点、高关注度主题,把握未来研究趋势。

2      研究现状

2.1   主题发现研究现状

主题发现也被称为主题挖掘或主题分析,其目的是处理并分析大规模的数据, 以便研究者可以快速并准确地了解信息中所蕴含的主题,并把握数据的核心内容。目前主流的主题发现方法有 3 类: ①机器学习方法。如刘峰等利用 SVM 模型对查询串扩展文本进行分类[1];张莉等提出一种基于主题模型和机器学习的回答者 推荐方法,将推荐问题转化为机器学习的分类问题[2];张爽等利用区块链相关研 究的学术数据,借助文档嵌入表示学习方法识别出了区块链研究的主要研究主题[3]。②聚类方法。如 Chakraborti 等提出一种多级 K 均值聚类的主题识别技术, 使其更适合于竞争对手情报相关的文本语料库的主题探索[4]R Kusumawardani 等通过使用 K-Means  算法对推文进行聚类来对主题进行有意义的识别并使用SVM 获得了 95.52%95.51%96.7%的准确率[5];陶兴等通过密度峰值聚类算法(DPCA)对社会化问答社区用户生成答案进行知识聚合与主题发现,自动化地发现社会化问答社区中的知识主题[6];王曰芬等提出了基于社区发现与关键节点识别的主题发现方法[7]。③主题模型方法。如林丽丽等借助开源工具 JGibbLDA 构建LDA 模型,运用困惑度来确定模型主题数目,根据主题-词项分布文件进行主题标识[8];唐晓波等提出了一种基于句子主题发现的多文档自动摘要方法,利用LDA 主题模型对句子进行聚类分析与主题发现,在主题覆盖性、语法性等方面都取得了不错的效果[9]

2.2   趋势预测研究现状

趋势预测被广泛运用于经济、金融、发病率等领域。研究对象的特征变量复杂,且数据对象呈现出一定的随机性,因此为了准确地分析日益复杂的时间序列, 研究者们提出了许多统计分析模型[10]。如 Xingqi 分析了灰色模型应用于预测的原理,建立了灰色 Verhulst 模型。使用网络舆情数据来验证模型的准确度,结果表明,Gray Verhulst 模型的平均相对误差小于 3%,具有更高的预测精度[11]

此外,研究者们也尝试利用机器学习算法和回归模型等来预测主题的趋势度, 如张鑫等提出一种主题强度演化与预测模型,引入基于 Prophet 的预测-修正模型 进行主题演化趋势预测,并以干细胞领域为例进行演化的实证分析[12];李静等 提出一种基于 SVM 模型的基金项目新兴型主题趋势预测方法,分析基金项目内外部特征属性,利用支持向量机等深度学习算法模型,对新兴型主题发展趋势进 行预测分析[13]。

目前对科技文献的分析大多基于共现网络、词频统计等方法,如何识别核心主题、对主题未来发展态势的预测研究相对较少,且方法主要以回归分析、曲线拟合为主[13-15],虽然在一定程度上对主题发展做出了分析,但是并没有充分考虑时间因素对主题未来发展的影响。本文针对上述不足,在主题聚类的基础上,增加时间因素,通过时间序列方法对未来趋势做出预测,对于核心主题做生命周期分类的基础上,对主题未来趋势的发展做出判别。

3      研究方法

3.1      整体框架

图 1 为本文的整体技术框架,主要包括主题发现、核心主题识别和趋势预测。

image.png

图 1  主题发现及趋势预测技术框架

Fig.1 The Framework of Topic Discovery and Trend Forecasting

(1) 主题发现

本文在分析科技文献主题特征的基础上,使用文献关键词实现聚类,从而得到若干主题。采用 Vosviewer 中的聚类方法(VOS 聚类),该方法是一种加权变形的基于关联强度的聚类方法,由 Van Eck 和 Waltman 于 2010 年提出。其核心思想是使用关联强度来刻画数据对象间的相似性,关联强度算法是通过限定数据对象之间的相对距离,即最小化各个类别中的所有个体之间的欧几里德的距离之和来实现的。基础研究和技术开发领域的文献的关键词专业性较强,使用 Vos 聚类的效果更好。 

(2) 主题分析

本文将关键词、发文量、被引量和发文时间作为主题分析的 4 个特征。其中主题关键词为主题中所包含的所有文献的作者所定义的关键词;主题发文量是主题所包含的所有文献数量;主题被引量为主题中所包含的所有文献的被引总量; 主题发文时间为主题中所包含的所有文献的最早发文年份和最晚发文年份。

(3) 核心主题识别

本文利用战略坐标分析对识别出的主题进行核心主题识别。战略坐标最早由J. LAW 1988 年提出[16]J.Law 在建立主题词的聚类分析和共现矩阵的基础上,分别计算每个主题类团的密度和向心度,以向心度为横轴,以密度为纵轴构建二维直角坐标系,所有的主题会分布在二维直角坐标系的四个象限中,不同象限内的主题有其各自的特点。通过这种可视化的方式可以揭晓主题之间相互影响、相互关联的内在关系[17]

第一象限内的主题:落入第一象限中的主题的密度和向心度都很高,说明这一类主题与其他主题有着紧密的联系,同时自身内部联系紧密,在一定程度上可以说明此类主题在研究领域中处于中心位置,自身发展也比较成熟,在领域内的影响力较高。

第二象限内的主题:落入第二象限的主题中心度较低,密度较高,处于研究领域的边缘位置,自身发展较为成熟,研究内容及其所包含的理论并不符合当下的研究热点。

第三象限内的主题:落入第三象限的主题中心度较低,密度也较低,该类主题自身发展不成熟,与其他主题联系比较松散,发展不成体系,具备潜在的发展趋势。

第四象限内的主题:落入第四象限的主题中心度较高,密度较低,说明该类主题处于研究的中心位置,但研究尚未成熟,具有很高的发展潜力,很有可能是近些年才出现的比较有创新性的新兴型主题。

(4) 趋势预测

根据核心主题的发文年份、被引量和发文量分别计算主题的新颖度和主题强度,生成主题新颖度和强度曲线图,并计算曲线交点,进而得到主题趋势度的时间序列,采用 ARIMA 模型和指数平滑法分别进行拟合及预测。

3.2      预测指标与计算 

(1) 主题分析维度指标

①关注度

本文借鉴文献[18]中的 Z 分数理论,以研究主题的被引量与发文量为基础, 计算每个主题中文献的平均被引量与学科领域平均被引量之间的标准差距离,以此判断研究主题在该学科领域的关注度。

定义所有文献的篇均被引频次的计算法则如式(1)所示:

其中, 𝐺代表第𝑗个主题的文献篇均被引量,∑𝑛     𝑅𝑖计算了主题𝑗内𝑛篇文献的总被引量,𝑛代表主题内文献总量。假设给定学科领域共发表 N 篇文献,相对应的被引量用集合 C={C1,C2,C3,..... ,Cn}表示则学科领域的平均引用计算如2所示:

假设学科领域有 M  个研究主题,则每个研究主题的篇均被引量为Gj=(G1,G2,G3,……,GM),学科领域研究主题平均被引量标准差计算如式3所示:

每个研究主题的关注度计算如式(4)所示:

②创新性

本文定义主题的创新性为主题内所有文献的平均发文时间。Tj 是第 j 篇文献的发文时间,n 为总文献量。计算公式如式(5)所示:

本文引用文献[19]中的sen's 斜率,根据主题每年的发文量计算主题的增长度。设𝐹 = (𝐹1, 𝐹2, 𝐹3, ⋯ ⋯ , 𝐹𝑦)代表某研究主题连续 y 年的发文量,则每个研究主题的

增长度计算公式如式(6)所示:

其中,增长度 D 表示发文量的趋势,当 D>0 时,发文量呈上升趋势;当 D0 时,趋势不明显;当 D0 时,发文量呈下降趋势。

(2) 趋势度计算指标

①主题新颖度

本文引用文献[20]中所阐述主题新颖度和主题强度的定义,新颖度用以衡量主题自出现开始,该主题逐年的新颖程度。一般认为主题出现时的新颖度最高, 随时间的发展新颖度逐年降低。本文按年份定义主题出现的时间区间,假设主题出现的年份为第一时间段,则某一主题第 i 年的新颖度𝑁𝐼𝑖(Novelty Index)的计算公式如式(7)所示:

其中,FI 为主题出现的年份,主题在第一时间段的新颖度为 1,第二时间段的新颖度为 1/2,以此类推,主题新颖度的曲线是一条类指数曲线,且呈递逐年减趋势。 

②主题强度

根据发文量定义主题的主题强度𝑇𝑆𝐼𝑘(Theme Intensity)值,计算公式如式

其中𝛼,𝛽𝜖(0,1)且𝛼 + 𝛽 = 1,𝑠𝑢𝑚1(𝑡)是主题 k 从第一年到第 t 年的发文量之和,𝑠𝑢𝑚1(𝑘)是主题 k  从第一年到最后一年的发文量之和,𝑠𝑢𝑚2(𝑡)是主题 k 从第一年到第 t 年的所有文献的被引量之和,𝑠𝑢𝑚2(𝑘)是主题 k 从第一年到最后一年的所有文献的被引量之和。由主题强度的公式可知,主题的被引量与发文量 均可以对主题强度的值产生较大影响,因此本文视二者同等重要,即𝛼 = 𝛽 = 0.5

③趋势度

定义主题逐年的最优强度值为新颖度曲线和主题强度曲线交点的纵坐标值, 为了更加明显的区分主题的趋势特征,将所有主题在某一年的最优强度值的平均值定义为平均最优强度̅𝑂̅̅𝐼̅𝑉̅,以每个主题每年的最优强度值𝑂𝐼𝑉与平均最优强度  的差值作为衡量主题发展态势的趋势度 TTD(Theme intensity value)。计算公式如式(9)所示:

                                   𝑇𝑇𝐷  =  𝑂𝐼𝑉 − ̅𝑂̅̅𝐼̅𝑉̅                                                                                                                                           (9)

主题的趋势度是以 0 为基准线,大于 0 表明主题的发展是比较“兴盛”的,小于 0 说明发展潜力不足或逐渐走向衰落,主题趋势度曲线代表主题未来的发展情况。

3.3预测模型的构建

本文考虑时间因素对主题发展的影响,运用时间序列分析法对主题趋势进行分析,选取应用较为广泛的时间序列模型(ARIMA 模型和指数平滑法)来分析主题趋势度。

(1)   基于 ARIMA 的预测模型

ARIMA(𝑝, 𝑑, 𝑞)模型也称差分整合移动平均自回归模型,是由 Box 与 Jenkins 于 20 世纪七十年代提出[21],其本质是由A𝑅𝑀𝐴(𝑝, 𝑞)结合差分运算而来,其中参数 d 是差分次数,p 是自回归阶数,q 是移动平均阶数。

本文运用 ARIMA 模型对核心主题的趋势度时间序列进行拟合并预测,工具为 Eviews 软件,首先对趋势度的原始序列进行平稳性检验,若不为平稳序列, 则对其进行差分运算,再对差分运算后的序列进行平稳性检验,重复此操作,直至序列平稳为止,此时可以确定参数 d 的取值。然后生成该序列的自相关系数- 偏自相关系数分布图,进而确定参数 p 和 q 的取值,然后拟合序列并预测。

(2)   指数平滑法

指数平滑法的基本思想是给过去的观测值不一样的权重,即赋予近期观测值较大的权重,赋予较远期观测值较小的权重,任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均[22]。

本文根据三次指数平滑法实现对核心主题的趋势度时间序列的拟合及预测, 首先将前三期观测值的平均值定义为初试平滑值,根据误差最小原则选取平滑系数,分别计算一次、二次、三次平滑值及各项参数,然后拟合序列并预测。 

4      实验及其结果分析

4.1      数据来源与处理

由于近些年各国都在努力提高军事力量,水下作战的研究愈加重要,为更好地为我国水下作战研究提供参考,本文采取航天三院三部水下总体设计部一线科研人员建议,确定“水下信息感知技术”领域的检索词包含有非声探测、水下定位、电磁制导技术、卡尔曼滤波、电场建模、磁环天线、水声对抗技术等 35 个专业术语。数据来源于 Wos 科学引文索引数据库,时间跨度为 2000 年至 2019 年, 文献检索式为: ((TI="Underwater") NOT (TI="underwater sound") NOT (TI="light")) OR ((KP="Underwater") NOT (KP="underwater sound") NOT (KP="light")) OR ((AB="Underwater") NOT (AB="underwater sound") NOT (AB="light")) AND  (TI=("Underwater  Electromagnetic  Guidance"  OR "Underwater Electric field Detection" OR "Underwater Magnetic Detection " OR "Underwater Electromagnetic Exploring Method" OR "Underwater Non-acoustic Detection" OR "Underwater  Submarine  Target  Detection" OR  "Underwater TargetTracking"……包括全称、缩略、单复数),共得到 22760 篇原始文献。由相关科研人员进行文献数据集的相关性筛选及删除,最终得到 11664 篇文献。

4.2      核心主题发现实验 

(1)主题聚类

提取实验数据集中每篇文献的关键词、发文量、发文时间、被引量等信息, 将关键词数据导入 Vosviewer 软件中进行聚类,计数方法选择完全计数,经过多次实验发现,当关键词共现最小次数设为 5 时,类与类距离最远,聚类效果较为理想。将聚类依据选择为共现权重,共得到 19 个主题,每个主题用共现强度的权重排名前五的关键词来概括,如表 1 所示。

表 1 主题-关键词表   Table 1 Subject-Keyword List

                                                      关键词                                                       主题概括 文献量 

主 题 1 主题 2

主题 3

主题 4


 

Engineering,      computer      science,      adaptive      algorithms,          通信算法分析           3680

communication, Algorithm

ecology,   freshwater   biology,   marine,  environmental  sciences, 环境科学研究           5119

geology

physics,    materials    science,    fabrication,  oil/water   separation, 材料物理研究           2546

wettability

design,   automation,   control   systems,   autonomous   underwater                                   机器设备自动化                                                                                                          1361

vehicles, tracking

 

主 题 5      audiology, noise, underwater noise, sound, signals                             声 源 信 号 探 测  2295 主 题 6      mechanics, flow, bubble, fluid-structure interaction, deformation                                                                     流 体 结 构 研 究  2962 主 题 7      oceanography, model, water resources, waves, meteorology                                                                                  海 洋 资 源 研 究  1265 主 题 8 system, remote sensing, photographic technology, calibration, 遥 感 系 统 分 析 1568

vision

主 题 9      neurology, neurosciences, kinematics, stress, physiology                      人体生理学                                                                                                                      1442 

主题 10    light, absorption, plant sciences, phytoplankton, underwater

主题 11    microstructure,    stability,    mechanical-properties,    temperature, strength

主题 12    localization, kalman filter, filter, underwater navigation, target tracking

温度因素对机械稳定性的影响

滤波器及水下定位研究

2136

876 

主题 13    optimization, propagation, thermodynamics, range, finite element analysis

主题 14    propulsion, computational fluid dynamics, glider, propeller, hydrodynamic coefficients

测距方法                590 推进器动力研究         41 

主题 15    energy, fuels, technology, nuclear science, real-time                             核能燃料设备存储   25 

主题 16    Multiple Input Multiple Output, underwater sensor network, acoustic communications, doppler, underwater communications

水下传感器网络           31 

主题 17    carbon, coral, shape, continental-shelf, great-barrier-reef                          海底植被勘测      33 

主题 18    ultrafast separation, cellulose, discharges, elastomers, electrodes          设备表层涂料物理

特性研究

主题 19    remotely operated vehicles, robust-control, attitude-control, backstepping control, heading control

水下车辆控制系统         49

image.png

图 2  主题创新度分布图

Fig.2 Distribution of Theme Innovationimage.png

在 T1 时期,所有的主题的文献规模均大于 0,因此并不存在严格意义上的新兴型主题,因此参考主题的创新性值来判断新型主题。主题 15 在 T2 时期的增长度小于 0,因此主题 15 为衰退型主题。主题 1,主题 2,主题 3,主题 4, 主题 8 和主题 10 在 T2 时期的文献规模和增长度都远大于 T1 时期,因此上述 6 个主题为增长型主题。主题 16,主题 18,和主题 19 在两个时间段内的的文献规模相差不大(10 以内),因此这三个主题为稳定型主题。根据主题创新度,将创新度较高的 9 个主题:主题 5、主题 6、主题 7、主题 9、主题 11、主题 12、主题 13、主题 14 和主题 17 定义为新兴型主题。

(3)   核心主题识别

计算 19 个主题的密度和向心度,将密度和向心度的平均值作为坐标原点,构建战略坐标图,结果如图 5 所示。

image.png

5    主题战略坐标图Fig.5 Thematic Strategy Coordinate

从实验结果可以看出,共有 6 个主题(主题 1、2、3、5、6、11)落在第一象限,说明这些主题的密度和向心度都较高,在研究领域中较为活跃,是该领域研究的核心。这些主题的研究内容包括算法分析,物理特性研究以及信号探测等, 表明在水下信息感知技术领域中,对信息算法和机械设备性能的影响因素等方面的研究已经较为完善,并且这 6 个主题的文献规模也较大,研究的时间较早,理论技术比较丰富,且彼此之间相互联较为紧密。其中主题 3 的密度和向心度均最大,说明主题 3 在该领域具备绝对的核心地位。

落在第二象限中的主题分别是主题 8(遥感系统分析)、主题 9(人体生理学)和主题 12(滤波器及水下定位研究),这些主题的密度较低,向心度较高, 表明这些主题与其他主题的联系紧密,在研究范围内会频繁出现,但是主题自身内部的研究结构较为松散,自身发展尚未成熟,没有形成非常良好的体系架构。一方面的原因可能是由于主题的出现时间相对较晚,但是具备较强的发展潜力, 随着时间的推移,这些主题的重要性会增加。

第三象限包含了 7 个主题,这些主题的密度和向心度都较低,表明这些主题与其他主题联系较少,发展相对独立,且主题内部发展不成熟,不属于主流的研究方向。主题 13(测距方法)、主题 14(推进器动力研究)、主题 15(核能燃料设备存储)、主题 16(水下传感器网络)和主题 19(水下车辆控制系统)的研究需要较大的技术支持,发展相对缓慢并且有待进一步地开发。

主题 4(机器设备自动化)、主题 7(海洋资源研究)和主题 10(水下浮游植物研究)落在了第四象限,该象限的主题向心度较低,密度较高,表明该主题相对独立,并不是给领域的研究核心。但是主题内部的研究体系较为完善,例如海洋资源、植物的研究起源较早,自动化设备的发展也相对成熟,所以该类主题发展有可能随时间逐渐淡化。

4.3趋势度预测实验 

(1) 趋势度分析及其预测数据集构建

依据先前提出的指标预测与计算方式,计算水下信息感知技术领域核心主题的趋势度。首先,计算各主题的𝑁𝐼𝑖值和𝑇𝑆𝐼𝑘值并绘制曲线,其次计算交点坐标,得到每个主题的趋势度时间序列。

以主题 1 为例,图 6 显示了该主题在各时间段的𝑁𝐼𝑖值和𝑇𝑆𝐼𝑘值曲线,通过计算两种曲线的交点,交点的纵坐标即为每个主题的 OIV 值,该值与平均值的差值作为 TTD 值,即每个主题的趋势度值。

image.png

6 主题 1 新颖度值和𝑇𝑆𝐼𝑘值曲线图

Fig.6 Graph of Topic 1’s Novelty and Value of 𝑇𝑆𝐼𝑘

从图 6 可以看出主题 1 的新颖度从(0,1)随年份增加逐年下降,19 个主题强度曲线代表了主题 1 在从 2000 2019 年之间每一年的主题强度,其主题强度总体呈上升趋势。这 19 个主题强度曲线与主题的新颖度曲线共有 19 个交点,在每一个交点处都表示了在该年的主题强度和新颖度同时达到最大值。依次计算每个主题在各时间段内的 TTD 值,将每个主题的时间序列分为训练集和测试集两部分,实验用训练数据集结果如表 2 所示。

表 2  实验训练集

Table 2 Experimental Training Set

时间

主题 1 趋势度

主题 2 趋势度

主题 3 趋势度

主题 5 趋势度

主题 6 趋势度

主题 11   趋势度

2001

-0.017583333

-0.028583333

0.048096667

-0.015753333

0.037326667

-0.003503333

2002

-0.012036667

-0.016436667

0.064013333

0.024943333

-0.001236667

-0.039246667

2003

0.001496667

-0.012123333

0.020786667

0.009166667

0.004646667

-0.003973333

2004

0.001936667

-0.016563333

0.013256667

-0.000273333

0.020926667

0.000716667

2005

0.010158333

-0.018421667

0.014828333

0.004378333

0.004338333

0.004718333

2006

0.016283333

-0.011566667

0.007263333

-0.004706667

-0.002596667

0.015323333

2007

0.01064

-0.00383

0.00897

0.00156

-0.00467

0.00733

2008

0.012923333

0.000923333

0.009453333

0.009843333

-0.013776667

0.000633333

2009

0.013316667

0.002936667

0.010276667

0.015606667

-0.021773333

-0.000363333

2010

0.012793333

0.005963333

0.011103333

0.015803333

-0.028166667

0.002503333

 

2011

0.010988333

0.006228333

0.009618333

0.016368333

-0.023781667

0.000578333

2012

0.008948333

0.005848333

0.008778333

0.017648333

-0.021391667

0.000168333

2013

0.004511667

0.004941667

0.010351667

0.015711667

-0.014318333

-0.001198333

2014

0.003511667

0.004681667

0.014541667

0.008941667

-0.011158333

-0.000518333

2015

0.002975

0.004825

0.014545

0.011035

-0.012335

-0.001045

 

实验用测试数据集结果如表 3 所示。

表 3  实验测试集Table 2 Experimental Test Set

时间

主题 1 趋势度

主题 2 趋势度

主题 3 趋势度

主题 5 趋势度

主题 6 趋势度

主题 11   趋势度

2016

0.002783333

0.004223333

0.014323333

0.012373333

-0.012436667

-0.001266667

2017

0.002308333

0.002748333

0.014698333

0.012338333

-0.010351667

-0.001741667

2018

0.001946667

0.002216667

0.015496667

0.009286667

-0.008813333

-0.000133333

2019

0.009008333

0.000478333

0.014468333

0.006538333

-0.008911667

-0.001581667

(2) 基于 ARIMA 趋势度预测

对核心主题 1、2、3、5、6 和 11 共 6 个主题的主题趋势度进行拟合,根据ARIMA 模型建模步骤,首先对序列进行平稳性检验,若为非平稳序列,对其进行差分运算,然后生成自相关-偏自相关系数图,确定各个参数值;最终汇总每个主题的拟合模型,结果如表 4 所示。

表 4    各主题拟合模型结果

Table 4 Fitting Model Results for Each Topic

主题编号                    模型                            公式

1                                        ARIMA(1,2,1)                        𝑥𝑡 = 0.717022𝑥𝑡−1 + 0.665934𝜀𝑡−1 + 𝜀𝑡

2                                        ARIMA(1,2,0)                                       𝑥𝑡 = 0.911074𝑥𝑡−1 + 𝜀𝑡

3                                        ARIMA(1,2,1)                          𝑥𝑡 = 0.906811𝑥𝑡−1 + 0.350869𝜀𝑡−1 + 𝜀𝑡

5                                        ARIMA(0,2,0)                                     𝐶5𝑡  =  2𝐶5𝑡−1  − 𝐶5𝑡−2  + 𝜀𝑡

6                                        ARIMA(0,1,0)                                      𝐶6𝑡  =  2𝐶6𝑡−1  − 𝐶6𝑡−2  + 𝜀𝑡

11                                             MA(0)                                         𝐶11𝑡 = 2𝐶11𝑡−1 − 𝐶11𝑡−2 + 𝜀𝑡

由于主题 5、6 和 11 的自相关-偏自相关系数均落在 95%的置信区间内部, 参数 p 和 q 的值均为 0,无法生成拟合图,因此只展示主题 1、主题 2 和主题 3 的模型拟合图,如图 7 所示,从拟合曲线可以看出 ARIMA 模型的拟合效果较好。

图 7    ARIMA 模型拟合效果图

Fig.7 Fitting Effect of ARIMA Model

(3) 指数平滑法预测实验

本文用三次指数平滑法来拟合 2001 至 2015 年的主题趋势度序列值,进而预2016 2019 年的趋势度,并与真实值相对比。观测值共 15 期,平滑初始值取前三期观测值的平均值,各主题的平滑初始值如表 5 所示。

表 5  主题趋势度初始平滑值

Table 5 Initial Smoothing Value of Topic Trend Degree


主题 1

主题 2

主题 3

主题 5

主题 6

主题 11

初始平滑值

-0.009374

-0.019048

0.006119

0.024299

0.013579

-0.015574

由于每个主题的趋势度曲线并不是严格的平稳或线性,不能非常准确地描述曲线的波动大小程度,故将平滑系数𝛼的取值范围设定为 0.1~0.8,求出所得到的拟合值与真实值的平均绝对误差,选取平均绝对误差最小时所对应的𝛼值作为该主题的平滑系数。计算得出,主题 1 到主题 11 的平滑系数选择分别为 0.5、0.55、0.10.450.30.3

本文仅展示主题 1 的建模过程,根据三次指数平滑法的实验流程,计算各期的指数平滑值及各参数值,结果如表 6 所示。

表 6  主题 1 趋势度指数平滑值及参数值

Table 6 Exponential Smoothing Value and Parameter Value of Topic 1’s Trend Degree

时间

一次平滑值

二次平滑值

三次平滑值

𝑎𝑡

𝑏𝑡

𝑐𝑡

2001

-0.009374

-0.009374

-0.009374

-0.009374

0

0

2002

-0.010705

-0.01004

-0.009707

-0.011704

-0.001498

-0.000166

2003

-0.004604

-0.007322

-0.008514

-0.000361

0.006531

0.000763

2004

-0.001334

-0.004328

-0.006421

0.002561

0.005246

0.00045

2005

0.004412

0.000042

-0.00319

0.009921

0.007216

0.000569

2006

0.010348

0.005195

0.001003

0.016461

0.007554

0.00048

2007

0.010494

0.007844

0.004424

0.012372

0.000721

-0.000386

2008

0.011709

0.009777

0.0071

0.012896

0.000071

-0.000372

2009

0.012513

0.011145

0.009122

0.013226

-0.000267

-0.000327

2010

0.012653

0.011899

0.010511

0.012773

-0.000831

-0.000317

2011

0.011821

0.01186

0.011185

0.011068

-0.001823

-0.000357

2012

0.010384

0.011122

0.011154

0.008941

-0.002503

-0.000353

2013

0.007448

0.009285

0.010219

0.004708

-0.004094

-0.000451

2014

0.00548

0.007382

0.008801

0.003093

-0.003113

-0.000242

2015

0.004227

0.005805

0.007303

0.00257

-0.001776

-0.00004

由此得到图 8 所示的每个主题的拟合曲线,从中看出 6 个主题都有较好的拟合效果。

本文采用平均绝对误差和均方根误差(RMSE)作为评价模型预测精准度的指标,ARIMA 模型拟合和指数平滑法预测值的平均绝对误差和均方根误差见表7 和表 8 

表 7 ARIMA 模型和指数平滑法预测值的平均绝对误差比较

Table 7 Comparison of Mean Absolute Errors of Predicted Values between ARIMA Model and Exponential Smoothing Method

 


误差


主题 1

0.00186734

0.001696606

增长型主题

主题 2

0.000404508

0.000601487


主题 3

0.002625764

0.001052569


增长型主题平均预测误差

0.001632537

0.001116887


主题 5

0.006134167

0.003378392

新兴型主题

主题 6

0.002083333

0.003231605


主题 11

0.000521521

0.000747226


新兴型主题平均预测误差

0.002913007

0.002452408

 

 

                                 ARIMA 平均绝对误差


根据表 7 可以看出,对于增长型主题而言,指数平滑法对主题 1 和主题 3 的预测准确度要高于 ARIMA 模型;就新兴型主题而言,ARIMA 模型对主题 6 和主题 11 的预测准确度要高于指数平滑法;指数平滑法预测两种类型的主题的平均预测误差都要低于 ARIMA 模型。

表 8    ARIMA 模型和指数平滑法预测值的均方根误差比较

Fig.8 Comparison of Root Mean Square Error of Predicted Values between ARIMA Model and Exponential Smoothing Method



ARIMA 模型均方根误差

指数平滑法均方根误差


主题   1

0.002326017

0.001854896

增长型主题

主题   2

0.000522196

0.000638296


主题   3

0.007729403

0.003765163


增长型主题平均均方根误差

0.003525872

0.002086118


主题   5

0.002651496

0.001215448

新兴型主题 

主题   6

0.002702709

0.003492955


主题 11

0.001144595

0.001760564


新兴型主题平均均方根误差

0.002166267

0.002156322

从两种方法的均方根误差来看,检验效果与绝对误差基本一致:对于增长型主题而言,指数平滑法的平均均方根误差明显低于 ARIMA 模型;对于新兴型主题而言,指数平滑法的平均均方根误差略低于 ARIMA 模型,两者相差不大。指数平滑法预测两种类型主题的平均均方根误差要小于 ARIMA 模型。

综合两种误差结果来看,指数平滑法的预测效果要优于 ARIMA 模型。分析原因可能有以下两点:第一,ARIMA 模型在处理非平稳数据时需要对原序列进行差分运算,差分运算会损失掉原序列的一部分真实值,这会影响 ARIMA 模型拟合时的准确度,导致误差偏大。第二,主题的类型不同,其生成的趋势度时间序列的差分次数及参数确定会有较大差异。对于新兴型主题而言,经差分运算得到平稳序列,当自相关系数和偏自相关系数均落在 95%的置信区间内部时,ARIMA 模型的参数 pq 的取值均为 0,此时只能拟合随机游走模型MA(0)模型),该模型对该序列的拟合效果不一定能达到最优。

5 结束语

本文选取水下信息感知技术领域的文献数据,通过 VOS 聚类发现主题,使用战略坐标识别核心主题,根据主题发文量和被引量及发文时间定义核心主题的趋势度,生成时间序列并分别用 ARIMA 模型和指数平滑法进行拟合并预测,通过实验发现指数平滑法的预测效果更好。

本文所存在的不足主要有以下几个方面:第一,指数平滑法中的初始平滑值和平滑系数的选取并没有一个严格的标准,一些选取偏向仅仅只能作为参考,更多地还是靠人为实验选取相对的最优值,因此本文所选取的初始平滑值和平滑系数只是相对最优,并不是绝对意义上的最优参数。第二,ARIMA 模型对于白噪声序列的预测目前只能拟合随机游走模型或更换拟合模型,在原始序列的自相关系数和偏自相关系数分布不理想的情况下,会导致较大误差。第三,对于专业性很强的领域而言,文献发文量在时间维度上分布不均,这会影响趋势度的计算结果,并且差分运算会导致数据失效,对预测效果会产生一定的影响。第四,本文使用了一个较长的时间区间和较多的均值指标,导致性质不同的主题及其变化一起度量后对主题动态趋势地辨析产生影响。这是后续研究需要重点考虑的问题。 

参考文献:

[1]             刘峰, 李煜, 吕学强, 等. 查询主题分类方法研究[J]. 现代图书情报技术, 2015, 31(4):10-17.(Liu Feng, Li Yu, Lv Xueqiang, et al. Research on Query Topic Classification Method[J]. New Technology of Library and Information Service, 2015, 31(4):10-17.)

[2]             张莉, 王丽婷, 蒋竞,等. 基于主题模型和机器学习的回答者推荐方法: 中国, CN107562836A[P]. 2018-01-09.(Zhang Li, Wang Liting, Jiang Jing, et al. Respondent Recommendation Method Based on Topic Model and Machine Learning: China, CN107562836A[P]. 2018-01-09[2022-04-22].) https://doc.paperpass.com/patent/CN107562836A.html

[3]             张爽, 刘非凡, 罗双玲, 等. 基于领域语义地图的区块链研究主题发现及演化分析[J]. 情报工程, 2021, 7(2):12.(Zhang Shuang, Liu Feifan, Luo Shuangling, et al. Topic Detection and Evolution Analysis of Blockchain with the Domain Semantic Map[J]. Technology Intelligence Engineering, 2021, 7(2):12.)

[4]          Chakraborti S, Dey S. Multi-Level K-means Text Clustering Technique for Topic Identification for Competitor Intelligence[C]. In: 10th IEEE International Conference on Research Challenges in Information Science. IEEE, Grenoble France. 2016.

[5]                   Kusumawardani R, Basri M. Topic Identification and Categorization of Public Information in Community-Based Social Media[J]. Journal of Physics Conference Series, 2017, 801.

[6]             陶兴, 张向先, 郭顺利. 基于 DPCA 的社会化问答社区用户生成答案知识聚合与主题发现服务研究[J].情报理论与实践, 2019, 42(6):6. (Tao Xing, Zhang Xiangxian, Guo Shunli. Research of User-generated-answer Knowledge Aggregation and Topic Discovery Service in Social Q&A Community Based on DPCA[J]. Information studies: Theory & Application, 2019, 42(6):6.)

[7]             王曰芬, 王一山, 杨洁. 基于社区发现和关键节点识别的网络舆情主题发现与实证分析[J]. 图书与情报, 2020(5):11.(Wang Yuefen, Wang Yishan, Yang Jie. Topic Discovery and Empirical Analysis of Network Public Opinion Based on Community Detection and Key Node Identification[J]. Library and Information, 2020(5):11.)

[8]              林丽丽, 马秀峰. 基于 LDA 模型的国内图书情报学研究主题发现及演化分析[J]. 情报科学, 2019, 37(12):6.(Lin Lili, Ma Xiufeng. The Theme Discovery and Evolution Analysis of Domestic Library and Information Science Research Based on LDA[J]. Information Science, 2019, 37(12):6.) 

[9]               唐晓波, 顾娜, 谭明亮. 基于句子主题发现的中文多文档自动摘要研究[J]. 情报科学, 2020, 38(3):7.(Tang Xiaobo, Gu Na, Tan Mingliang. The Study of Multi-Documents Summarization in Chinese Based on Sentence Topic Discovery[J]. Information Science, 2020, 38(3):7.)

[10]               杨海民, 潘志松, 白玮. 时间序列预测方法综述[J]. 计算机科学, 2019, 46(1):21-28.(Yang Haimin, Pan Zhisong, Bai Wei. Review of Time Series Prediction Methods[J]. Computer Science, 2019, 46(1):21-28.)

[11]            Xingqi, Wang, Lei, et al. Grey System Theory based prediction for topic trend on Internet[J]. Engineering Applications of Artificial Intelligence, 2014.

[12]               张鑫, 文奕, 许海云, 等. Prophet 预测-修正的主题强度演化模型——以干细胞领域为实证[J]. 图书情报 工 作 , 2020(8):78-92.(Zhang Xin, Wen Yi, Xu Haiyun, et al. Prophet Prediction-Correction Topic Evolution Model--A Case Study in Stem Cell Field[J]. Library and Information Service, 2020(8):78-92.)

[13]              李静, 徐路路,  赵素君. 基于时间序列分析和 SVM 模型的基金项目新兴型主题趋势预测与可视化研究[J]. 情报理论与实践, 2019, 042(001):118-123, 152.(Li Jing, Xu Lulu, Zhao Sujun. Prediction and Visualization of Emerging Topics of Fund Sponsored Projects Based on Time Series Analysis and SVM Model[J]. Information studies: Theory & Application, 2019, 042(001):118-123,152.)

[14]               白敬毅, 颜端武, 陈琼. 基于主题模型和曲线拟合的新兴型主题趋势预测研究[J]. 情报理论与实践, 2020, 43(07):130-136+193.(Bai Jingyi, Yan Duanwu, Chen Qiong. Trend Prediction of Emerging Topics Based on Topic Model and Curve Fitting[J]. Information studies: Theory & Application, 2020, 43(07):130-136+193.)

[15]               岳丽欣, 周晓英, 陈旖旎. 基于 ARIMA 模型的信息构建研究主题趋势预测研究[J]. 图书情报知识,2019(05):54-63+72 Yue Lixin, Zhou Xiaoying, Chen Yini. Thematic Trend Prediction ofInformation ArchitectureBased on the ARIMA Model[J]. Documentation, Information & Knowledge, 2019(05):54-63+72.

[16]               唐婷, 何晓兰. 国家基金项目中知识管理领域研究主题分析——基于战略坐标图[J]. 情报科学, 2018, 036(002):71-76.(Tang Ting, He Xiaolan. Research Topics in the Field of Knowledge Management in National Fund Projects --Based on Strategic Coordinate Diagram[J]. Information Science, 2018, 036(002):71-76.)

[17]               马费成, 望俊成, 张于涛. 国内生命周期理论研究知识图谱绘制——基于战略坐标图和概念网络分析法[J]. 情报科学, 2010, 028(004):481-487.(Ma Feicheng, Wang Juncheng, Zhang Yutao. The Knowledge Map of Domestic Life Cycle Theory Studies——Based on Strategic Diagram and Conceptual Network Methods[J]. Information Science, 2010, 028(004):481-487.)

[18]               韩霞, 李秀霞, 史盛楠, 等.  基于Z 分数与 Sen's 斜率的研究前沿识别方法——以图书馆学领域为例[J]. 情 报 科 学 , 2020, 38(01):93-97+139.(Han Xia, Li Xiuxia, Shi Shengnan, et al. Research Fronts Identification Based on Z-Score and Sen's Slope Method——Taking the Field of Library Science as an Example[J]. Information Science, 2020, 38(01):93-97+139.)

[19]                 刘蓉, 文军, 王欣. 黄河源区蒸散发量时空变化趋势及突变分析[J]. 气候与环境研究, 2016, 21(05):503-511.(Liu Rong, Wen Jun, Wang Xin. Spatial–Temporal Variation and Abrupt Analysis of Evapotranspiration over the Yellow River Source Region[J]. Climatic and Environmental Research, 2016, 21(05):503-511.)

[20]               范云满. 基于LDA 与新兴型主题特征分析的新兴型主题探测研究[J]. 情报学报, 2014(33):698-711.(Fan Yunman. Detection of Emerging Topics Based on LDA and Feature Analysis of Emerging Topics[J]. Journal of the China Society for Scientific and Technical Information, 2014(33):698-711.)

[21]               薛冬梅. ARIMA 模型及其在时间序列分析中的应用[J]. 吉林化工学院学报, 2010, 27(3):4.(Xue Dongmei. Application of the ARIMA Model in Time Series Analysis[J]. Journal of Jilin Institute of Chemical Technology, 2010, 27(3):4.)

[22]       Liu W, Yong Q, Dong H, et al. Highway Passenger Traffic Volume Prediction of Cubic Exponential  Smoothing Model Based on Grey System Theory[C]. In: 2nd International Conference on Soft Computing in Information Communication Technology, Taipei, Taiwan, China. 2014

[23]              Upham S P, Small H. Emerging research fronts in science and technology: patterns of new knowledge development[J]. Scientometrics, 2010, 83(1):15-38.

本文网址: http://www.7bestpaper.com/dsjlw/6493.html转摘请注明本文来源:佳作论文网专注论文模板下载及论文服务,以质为根,以信为本!
推荐阅读
  论文格式模版论文写作技巧期刊发表资源站内资讯论文交易流程联系我们

佳作论文网http://www.7bestpaper.com/ Copyright 2008-2020

Email:177872917@qq.com 佳作论文网拥有毕业论文范文、职称发表论文、论文格式模版、各行业期刊介绍等几个版块,专业提供专本科、硕士、博士毕业论文范文、职称论文发表范文;各大院校毕业论文格式模板下载,范文内容涵盖广,发表期刊多,18年精心服务,值得信赖。



收缩
  • 电话咨询

  • 13838208225