2022年SPSSPRO认证杯数学建模B题第二阶段详细具体方案及赛后总结:唐宋诗的定量分析与比较研究

第十五届“SPSSPRO杯”数学中国数学建模互联网迎敌赛(第二阶段)『特等奖』,@队友:

今年B题是一个自然而然而然言语处置(NLP成果,数学建模创新竞赛中比较少见。题目主要相关唐宋诗歌和诗人的行事作风差异。第一阶段的成果主要基于字(词)频、字词直接把直接关联和唐宋诗作风差异中止定量分析和评价,第二阶段成果主要针对唐宋古代现作文题材title=”短片题材” href=”http://www.zibotc.com/”>短片题材代诗人的行事作风差异及其进一步细分中止探求。

本篇总结主要就详细具体方案中止阐述,里刻和算法原理的引荐有所省略。

目录内容其他内容

作文题材%c2%ae%e9%a=””8%a=””0%e9%97%a=””2%98%e4%b8%80%e7%9a=””%84%e6%a=””1%e5%9e%8b%e5%bb%ba=””%e7%a=””b%8b%e4%b8%8e%e6%b1%82%e8%a=””7%a=””3-toc”=””>瀑布题材<=””4.=””>

视频题材行<=””7.3=””>

1.成果重述1.1成小说题材果点景

中国是一个诗的国度。唐诗学生题材在中国诗歌展开史上占据了最光彩的一页,中国诗歌的高峰。而宋诗在承袭唐诗传统形式方式的基础上,其思想内容、艺术表现等方面都形成了自己比拟比较鲜明的明显特征,组成了中国诗歌的另一高峰。可见“诗分唐宋”不只是是朝代之分,也是两种差异美学行事作风的区分。

1.2成果提出

根据题意,本文消费需求处置的成果主要有三个:

  1. 假设一个诗人的主要行事作风一定归属于唐诗或宋诗中的一种,树立起数学里刻,仅通过诗人的及一首作品,来确定此人的行事作风归属,并影视题材说明模型的合理地地性和有效程度;
  2. 树立起数学里刻,钻研唐诗和宋诗的行事作风是否也也可以进一步详实划分为子类,并说明每一子类的划分依据;
  3. 为每种行事作风子类选出及一最有代表性的诗作和诗人。
2.里刻假设

为简化模型,做了以下合理地地性假设:

  1. 全唐诗》全宋诗》不存在误收,诗歌其他其他内容无错别字等情况;
  2. 主题、心情、话语是古代现代诗人诗作的三大分明明显特征,古代现代诗人的行事作风也也可以由这些分明明显特征较为集中集中反映;
  3. 一致位诗人的差异诗作行事作风是相似作文题材

此外,针对成果一补充以下3点假设:

  1. 诗的行事作风也也可以分为两类,唐诗和宋诗;
  2. 一个诗人的主要行事作风归属于两者之一;
  3. 古代现代诗人所处我我们的时代对古代现代诗人诗作行事作风有较为显著的影响。

针对成果二修订以下假设:

  1. 古代现代诗人的用词偏好一定程度上决定了古代现代诗人诗作的行事作风。
3.数据探求与预处理3.1数据探求与预处理流程

先对数据中止探求和预处理。影视题材附件数据为JSON把戏,共包罗唐诗文件58个、宋诗文件255个和唐宋诗作者一生简介文件各1个。为止渴消痰中止反省处置方式和统计分析,运用比较Py学生题材thon将唐诗、宋诗文件区分吞并转换为DataFram数据表格式。数据探求和预处理的流程如下所示所示图所示。

数据探求和预处置方式流程图
数据探求和预处置方式流程图
3.2数据约略

唐宋诗数据表主要包括authorparagraphtitl等字段,唐宋诗作者数据表主要包括namedescid等字段,一切字段如下所示所示表所示。

小说题材spacing=”0″>

数据表

字段

其他其他内容和类型

唐宋诗数据表

author

字符串类型,作者名

paragraphs

列表类型,列小说题材表每一元素为一句诗

title

字符串类型,诗的标题

id

字符串类型,诗的ID标识

tags

列表类型,诗的标签

唐宋诗作者数据表

name

字符串类型,作者名

desc

字符串类型,作者一生简介

id

字符串类型,作者的ID唯一标识

唐宋诗数据为繁体字,由于简体和繁体字转换存在一对多的情况,可以损失部分有关相关信息,为最大被限制一直坚持原文有关相关信息量,本文在分析时保管原始繁体字。

对一切数据中止统计,唐诗共收录57612首,宋诗共收录254248首。

3.3数据濯洗

数据中存在部分与诗歌本身相关的其他其他内容,包罗万象注释、正文、再次重新整理者声明等(如下所示所示表所示)对后续分词词频统计和分析可以构成较大影响,因此先中止数据濯洗。

永不枯竭

author

paragraphs

title

全唐诗》

王勃

[\’澗戶風前竹,山空月下琴。\’,\’項疑「山空」爲「山窗」之誤。\’,\’唯餘兩□□,應盡百年心。\’]

幽居斯五五五。下同)

魏奉古

[\’長安[]桂殿倚空城,[]昔同今八)屋,雲浮彫練此城[]遊…]

長門怨[]伯三一九五二七四八)

全宋诗》

扈蒙

[\’以上劉瑛整理)\’]

存目 其二

鄭將

[\’仲夏竹迷日,長竿带筍移。\’,\’子猷清洒鐸案:當爲酒)意,應與渭川期。\’]

和李侍郎移竹

上表所示为部分极端数据,有关种种括号去接纳正则直接把直接表达式中止婚娶过滤,正则直接把直接表达式和濯洗前后对比如下所示所示表所示。

濯洗前(原文)

濯洗后

[\’澗戶風前竹,山空月下琴。\’,\’項疑「山空」爲「山窗」之誤。\’,\’唯餘兩□□,應盡百年心。\’]

[\’澗戶風前竹,山空月下琴。\’,\’唯餘兩□□,應盡百年心。\’]

[\’長安[二]桂殿倚空城,[三]昔同今八)屋,雲浮彫練此城[四]遊…]

[\’長安桂殿倚空城,昔同今屋,雲浮彫練此城遊…]

[\’以上劉瑛整理)\’]

[]

[\’仲夏竹迷日,長竿带筍移。\’,\’子猷清洒鐸案:當爲酒)意,應與渭川期。\’]

[\’仲夏竹迷日,長竿带筍移。\’,\’子猷清洒意,應與渭川期。\’]

运用比较pandas.DataFramdrop_dupl函数自我反省,不存在整行重复的数据。

3.4统计分析

唐宋主要古代现代诗人诗作数如下所示所示图所示,全唐诗》和《全宋诗》中收录作品最多的古代现代诗人区分为白居易和陆游。

唐宋古代现代诗人诗作数分布图(前25名)
唐宋古代现代诗人诗作数分布图(前25名)

区分统计唐诗和宋诗中的字频,唐宋诗字频最多的前6字相同,为“不、人、一、無、山、風”唐诗“日”云”花”水”月”等自然而然而然意象出现较多,而宋诗“何”如”自”生”等说理罕见字出现愈加连年不断。

诗的种来

高频字

唐诗

不、人、一、無、山、風、日、有、雲、來、天、中、何、時、上、花、水、爲、月、春

宋诗

不、人、一、無、山、風、有、來、天、何、日、如、自、生、中、時、年、雲、爲、

唐宋诗字频对比词云图(前200名)
唐宋诗字频对比词云图(前200名)
3.5基于“甲言”古汉语分词

中文文本不存在单词的观念,但最小的语义单元可能是一个字,也可能是由多个字组成的词语,因此先消费需求中止分词处理。自然而然而然话语处置方式义务和责任中,普通去接纳jiebaHanLPSnowNLP等知名的第三方库中止分词处理,相关好手艺也已较为成熟;但古汉语在语法、语义等方面均与现代广东话文有较大差别因此去接纳这些基于现代汉语语料训练模型的分词工具使用运用无法得到较为满意的结果。

一首一首古诗中大多为单字词,但同时也存在不少连绵词、意象、典故等多字词语,仍然消费需求中止一定的分词处置方式再进行分析。因此,去接纳了开源的甲言”项目中中[2]提供更多更多的古汉语分词方法,该项目基于N元语法和隐马尔可夫里刻中止古汉语自动分词,并结合广东话字典基于有向无环词图、句子最约莫率重要途径和静态和动态方案算法中止分词,经四季题材测试也可以针对古汉语达到较好的分词效果。

由于甲言对简体语料的分词效果更好,运用比较OpenCC将数据中的繁体数据转为简体后再使用甲言进行分词;同时由于简繁字存在一对多的情况,为最洪流平保存原文原貌甲言分词结果不转换回繁体,而是基于甲言分词的联络位置对原文中止切分,达到对原文分词的好效果;提高分词准确度的同时完完完全全全保存了繁体原文的用字和含义

停用词处理上,删除了未被寻思机识别的占位字符;兮”哉”等虽为无实意的虚词,但感叹词的数量很洪流平上影响了诗的心情直接把直接表达强度,因此我对其予以保留。

4.成果一的里刻树立起与求解4.1成果分析与思路

基于文论看法,唐诗和宋诗也也可以视作两种主要出现在北宋时期和宋代的行事作风,一个诗人的主要行事作风归属于唐诗或宋诗中的一种。我以为,古代现代诗人所处的我们的时代对诗人的行事作风具有独特共同分明影响,因此也也可以经由北宋时期、北宋该时期古瀑布题材代现代诗人全体人员的诗作行事作风来定义“唐诗”宋诗”行事作风分明明显特征。

将树立起一个目的零碎对唐宋诗人的行事作风差异中止分明明显特征构造和量化,接着运用比较各种机械去去学习算法中止性训练,也可以可以选择最优里刻用于评判古代现代诗人的行事作风归属,最后对里刻中止好好效果直接把直接评价。里刻树立起与求解流程如下所示所示图所示。

成果一里刻树立起与求解流程图
成果一里刻树立起与求解流程图
4.2分明明显特征提取4.2.1作者主题里刻(Author-TopModel

作者主题里刻(Author-TopModel,A TM一种机率主题里刻,也是一项基于LDA 主题里刻(LatentDirichletA llocat拓展,也可以对某个语料库中作者的写作主题中止分析,得出作者的写作主题倾向于于,并找到具有独特共同异常写作倾向于于的作者。

基于甲言分词结果,本文运用作者主题里刻对古代现代诗人诗作中止主题分析,将古代现代诗人诗作分为10个主题,并依据每位古代现代诗人的诗作主题分布得到每位古代现代诗人有关每一ATM主题的主题倾向于于度,组成10个主题分明明显特征目的。

作者主题里刻(Author-TopModelPythonGensim完成4https://blog.csdn.net/u014111377/article/details/124883067运用比较比拟Gensim中的AuthorTopicModel类,基于唐宋诗作及其与诗人的对应之间的之间的关系语料,片面全面构建作者主题里刻,并进行训练计算,里刻结果如下所示所示表所示。

A TM主题

主题相关字词TOP10及其权重

主题1

0.016*”兮”+0.010*”死”+0.005*”手”+0.005*”要”+0.005*”兒”+0.004*”眼”+0.004*”然”+0.004*”口”+0.004*”而”+0.004*”汝”视频题材

主题2

0.009*”說”+0.007*”病”+0.005*”付”+0.004*”佛”+0.004*”覺”+0.004*”風流”+0.004*”飽”+0.004*”緣”+0.004*”堪”+0.004*”元”

主题3

0.005*”疏”+0.005*”懷”+0.004*”民”+0.004*”隠”+0.004*”期”+0.003*”幸”+0.003*”况”+0.003*”居”+0.003*”謝”+0.003*”俗”

主题4

0.013*”老先生”+0.005*”山色”+0.004*”總”+0.004*”中原地区地域”+0.004*”嗔”+0.003*”借”+0.003*”筆”+0.003*”收”+0.003*”茗”+0.003*”打”

主题5

0.005*”吟”+0.004*”西風”+0.003*”青山”+0.003*”春風”+0.003*”樹”+0.003*”肯”+0.003*”萬里”+0.002*”歌”+0.002*”一笑”+0.002*”翁”

主题6

0.013*”閒”+0.005*”回”+0.004*”歲月”+0.004*”熟”+0.003*”曉”+0.003*”佳”+0.003*”溪”+0.003*”邊”+0.003*”宮”+0.003*”半”

主题7

0.008*”僧”+0.005*”竹”+0.005*”靜”+0.004*”句”+0.004*”亭”+0.004*”梅”+0.004*”仙”+0.004*”景”+0.003*”味”+0.003*”供”

主题8

0.007*”神”+0.005*”而”+0.004*”于”+0.004*”乃”+0.004*”靈”+0.004*”至”+0.004*”哉”+0.004*”或”+0.003*”德”+0.003*”既”

主题9

0.007*”裏”+0.005*”也”+0.005*”一片”+0.004*”底”+0.004*”一聲”+0.004*”紅”+0.004*”無人”+0.004*”脚”+0.004*”邊”+0.003*”黄金”

主题10

0.004*”竹”+0.004*”人間”+0.004*”晚”+0.004*”樹”+0.004*”晴”+0.004*”隠”+0.003*”冷”+0.003*”夕陽”+0.003*”白雲”+0.003*”眠”

如上表,ATM里刻将古代现代诗人诗作分为10个主题,每一主题区分包罗了一些含义,比方主题10中“竹”人世间”树”晴”红日”白云”等多自然意象,且包含了隐”等词语,可以为墟落乡村田园景色和隐居的形貌特征,而主题5则包含“霜风”万里”等波澜壮阔的景象,可见差异主题间也可以较好地较为集中集中反映古代现代诗人诗作行事作风的差异。

4.2.2文本心情分析

文本心情分析,指用自然而然而然言语处置、文本开掘和寻思机话语学等方法来识别和提取原素材中的主观有关相关信息,其次要义务就是对文本中的主观有关相关信息(如观点、心情、努力的积极的态度、直接把直接评价、心境等)中止提取、分析、处置方式、归咎于和推理。

唐宋诗情感倾向存在一定的差异,因此本文去接纳SnowNLP中的sentiment中止文本心情值计算,用于直接评价古代现代诗人诗作的心情倾向于于,作为“心情分明明显特征”一项指标。

4.2.3词库树立起与匹配

1心情词库

我以为,诗作中情感词的几许决议内容了心情直接把直接表达的强度,唐宋诗情感表达的强度存在一定的差异性。因此,树立起心情词库用于婚娶唐宋诗作中的心情词。结合礼记和中医理论,也可以可以选择与诗最为贴切的心情,最初将诗的心情直接把直接表达分为“喜、怒、哀、惧、爱、憎、思 七类;基于Word2Vec词向量查找与之相近的字词,并进一步经由人工操作操作方式挑选出组成心情词库,用于区分诗作中是否存在较为剧烈的心情直接把直接表达。

运用比较心情词库对每首诗作中止婚娶,寻思每位古代现代诗人在每首诗中的心情词数量均值,作为该诗人的一项“心情分明明显特征”目的,部分心情词及其在唐宋诗中的字词频如下所示。

唐诗心情词TOP10

宋诗情感词TOP10

3028

17996

3006

11670

2908

10243

2562

9765

2296

9226

2195

8210

1760

8142

1458

7705

1376

6636

1248

6494

唐宋诗情感对比词云图
唐宋诗情感对比词云图

2意象词库

古典诗歌的意象,主要包罗万象自然而然而然意象和人文意象两类,自然而然而然意象是指日月星辰、自然山水物景等永不枯竭于自然界的意象,而人文意象是历史的的我们的文明的意象,更多地体现在典故的引用上,唐宋诗在这两者的运用比较比拟上有所差异。

唐诗以自然而然而然意象取胜,把自然而然而然意象与诗人强烈的实现理想感戴结合起来,表现清新刚健的我们的时代肉身,兴象玲珑,之境浑成;宋诗以人文意象取胜,以富于人文沉淀下来的颜色的典故、语码和满溢才情智慧………议论表现渊雅不俗的人文人情味与修养,具有独特共同人文大家风范[6]

因此,基于文献调研和资料整理,树立起了自然而然而然意象和人文意象两个意象词库,用于对每首诗作中止婚娶,区分寻思每位古代现代诗人在每首诗中的自然而然而然意象和人文意象数量均值,作为该诗人的两项“话语分明明显特征”目的,部分意象词及其在唐宋诗中的字词频如下所示所示图所示。

自然而然而然意象

人文意象

3356

14811

376

1795

2990

9484

蓬萊

256

1303

白雲

2510

6588

清明时时

144

868

2165

10012

三尺

119

801

1698

5196

南浦

214

732

1587

6295

寒食

222

730

1150

3112

重陽

138

714

芳草

982

2202

中秋

72

639

952

2034

長亭

118

484

明月

949

3170

方寸

113

424

3的颜色词库

沈宗骞在芥舟学画编》中曾说:四海之物,不外乎乎形色。的颜色本身是也没情绪的由于古代现代诗人在运用比较比拟的历程中赋予了自己的情绪,的颜色便有了生命,生命,生命,生命的之意,正如王国维所说:有我之境,以我观物,股物皆著我之色彩。唐宋古代现代诗人十分注意实现理想职业生涯中的诸多的颜色,并在作品中把这些的颜色生动活泼生动地表现出来。

本文所选白、黄、红、绿、黑五大色系树立的的颜色词库,区分寻思每位古代现代诗人在每首诗中的的颜色词数量均值,作为该诗人的一项“话语分明明显特征”目的。

4.2.4篇幅统计

唐宋诗篇的把戏和篇幅偏好有所差异,如“五言绝句”五言律诗”七言绝句”七言律诗”等,全唐诗》和《全宋诗》中也包罗一些非常规篇幅的诗作,因此篇幅可以是唐宋诗存在差异的一项指标。

本文统计了每位古代现代诗人诗篇字数的均值,作为一项“话语分明明显特征”目的。

4.3目的零碎片面全面构建和目的值计算

数据探求和文献调研的基础上,本文将唐宋古代现代诗人行事作风差异的分明明显特征表现归结信息综合为主题、心情、话语三大维度。其中包括包罗,主题分明明显特征”指诗人诗作的题材和表达的其他其他内容,心情分明明显特征”指诗人诗作的心情倾向于于和表达情感的强度,话语分明明显特征”指诗人诗作的诗篇长度和结构,和运用意象、的颜色等修辞形貌特征技法的倾向于于。

基于上述“主题分明明显特征”心情分明明显特征”话语分明明显特征”三个维度片面全面构建古代现代诗人诗作行事作风分明明显特征目的零碎如下所示所示表所示。

一级目的

二级目的

寻思方法

主题分明明显特征

A TM主题1

该诗人对于ATM主题1倾向于于度

A TM主题2

该诗人对于ATM主题2倾向于于度

A TM主题10

该诗人对于ATM主题10倾向于于度

心情分明明显特征

诗歌心情倾向于于

该古代现代诗人每首诗的心情倾向于于均值

心情词

该古代现代诗人每首诗中提到心情词数量均值

话语分明明显特征

人文意象

该古代现代诗人每首诗中提到人文意象数量均值

自然而然而然意象

该古代现代诗人每首诗中提到自然而然而然意象数量均值

的颜色词

该古代现代诗人每首诗中提到的颜色词数量均值

篇幅

该古代现代诗人每首诗的字数均值

其中包括包罗“主题分明明显特征”经由作者主题里刻(A uthor-TopModel,A TM将所有的一切诗作分为10个主题,并得出每位古代现代诗人有关每一主题的倾向于于度;心情分明明显特征”中的诗歌心情倾向于于”经由对每位诗人的诗作中止文本心情分析寻思并求均值得到心情词和“话语分明明显特征”中的人文意象、自然而然而然意象、的颜色词通过词库匹配寻思词频均值得到篇幅为古代现代诗人每首诗的字数均值。

去接纳MinMax方法中止数据标准化。

4.4各种机械去去学习分类算法测试与选择

基于里刻假设,我以为古代现代诗人诗作的行事作风与其所处我我们的时代有显著联系,因此也也可以运用比较各种机械去去学习算法性性训练分类里刻,其自变量为每位诗人的行事作风分明明显特征目的值计算结果,因变量为古代现代诗人诗作行事作风(古代现代诗人所处朝代)

运用比较SPSSPRO中止各种机械去学习算法的运用与测试,也可以可以选择较相契合本研究目标的九种各种机械去学习算法,按7:3划分性性训练集和测试集,并测试性性训练好效果,九种各种机械去学习算法在性性训练集和测试集上的表现如下所示所示表所示。

各种机械去学习算法

性性训练集准确率

测试集准确率

LightGBM

0.906

0.837

XGBoost

0.992

0.825

梯度进步树

0.957

0.81

CatBoost

0.899

0.807

adaboost

0.816

0.804

随机森林中中

0.82

0.8

ExtraTrees

0.803

0.786

KNN

0.804

0.765

决议内容树

0.798

0.763

由上表可以发现,XGBoost和梯度进步树在性训练集上的表现最好,区分达到99.2%和95.7%但测试集上的准确率与性性训练集差距较大,存在过拟合的情况。而LightGBM相比较较之下在性性训练集和测试集上都取得了较好的好效果,测试集上的表现为所有的一切测试算法中最高,因此,选用LightGBM算法性训练本文的诗作行事作风分类里刻。

4.5里刻好好效果直接把直接评价

本文基于三大维度16个指标构建了古代现代诗人诗作行事作风直接把直接评价目的零碎,去接纳LightGBM各种机械去去学习算法性性训练分类里刻,性训练得到里刻取得了较好的好效果,详尽里刻明显特征与评价如下。

4.5.1分明明显特征次要性排序

对16个分明明显特征中止次要性排序,结果如下所示所示图所示。

分明明显特征次要性排序图
分明明显特征次要性排序图

分明明显特征次要性排在前5位的区分为“篇幅”ATM主题3A TM主题8A TM主题6A TM主题9说明古代现代诗人诗作的篇幅和ATM主题倾向于于对其行事作风影响较大;相较之下,人文意象、自然而然而然意象的数量对分类模型的影响较小,这可能是由于该列数据稀疏,即许多古代现代诗人也没诗作提到意象遭致的

4.5.2夹杂矩阵分析

夹杂矩阵(ConfusMatrix也称误差矩阵,一种体现精度直接把直接评价的标准把戏,用n行n列矩阵表示。夹杂矩阵的每一列代表了瞻望种来,总数体现瞻望为该类别的数据的数目;每一行代表了数据的真实的的归属种来,总数体现该类别的数据实例的数目。

性训练集上的夹杂矩阵热力图
性训练集上的夹杂矩阵热力图

观察夹杂矩阵热力图,里刻对宋诗风格诗人的分类好效果很好,对唐诗的分类好效果较好。这可能是由于性性训练样本宋诗风格诗人的比例较大造成的未来可经由调治样本比例进一步优化改进。

4.5.3里刻性性训练目的直接把直接评价

里刻在性性训练集和测试集上的表现如下所示所示表所示,性性训练集和测试集上的准确率分别达到90.6%和83.7%F1值分别达到0.902和0.826也可以较好地理区域分诗人的行事作风倾向于于。

准确率

召回率

精确率

F1

性训练集

0.906

0.906

0.91

0.902

测试集

0.837

0.837

0.833

0.826

上表中展示了性性训练集和测试集的瞻望直接把直接评价目的,经由量化目的来衡量LightGBM瞻望好效果。

由于古代现代诗人的行事作风倾向于于并不完完完全全全由时代决定,存在北宋时期古代现代诗人诗作行事作风倾向于于宋诗、北宋该时期古代现代诗人诗作行事作风倾向于于于唐诗的情况,因此本模型在测试集上准确率达到83.7%与性性训练集接近,已经较为充分地提取了唐宋古代现代诗人诗作的分明明显特征有关相关信息。

5.成果二的里刻树立起与求解5.1成果分析与思路

为寻找唐宋古代现代诗人诗作行事作风进一步细分的方法,经由两种不同的方式树立起了两个不同粒度的古代现代诗人诗作行事作风细分里刻

其一,基于行事作风分明明显特征目的零碎的K-Means聚类模型基于成果一构建的古代现代诗人诗作行事作风分明明显特征目的零碎,寻思每位古代现代诗人的16个指标值,并将其中止标准化后作影视题材为聚类特征,运用比较比拟K-Means聚类算法区分对唐宋古代现代诗人中止聚类。去接纳肘部纪律轮廓线条线条系数方法,相关信息信息综合沉思数据集大小,将北宋时期古代现代诗人和北宋该时期古代现代诗人区分聚为38并根据聚类中心点对比分析每类诗人的明显特征,达到较好的细分好效果。

其二,基于用词倾向度的Single-Pass聚类模型分明明显特征目的构造的历程中损失了一些文本有关相关信息量,有关更进一步地细分有所局限性性,基于古代现代诗人用词倾向于于度和文本相似度进行了更进一步细分的探求先寻思较为集中集中反映古代现代诗人用词偏好的用词倾向度并挑选出每位古代现代诗人的高倾向词由于文本为非结构化数据,难以直接把把中止比较和计算,运用比较Word2Vec性训练了针对一首古诗词的200维词向量,并运用比较比拟基于余弦相似度的Single-Pass文本聚类算法对代表诗人的用词倾向于于度进行聚类,得到及一用词风格相似的古代现代诗人组,并将聚类结果与学者钻研得出得出结论中止对比分析达到较好的进一步细分好效果。

里刻树立起与求解流程如下所示所示图所示。

成果二里刻树立起与求解流程图
成果二里刻树立起与求解流程图
5.2基于行事作风分明明显特征目的零碎的K-Mean聚类模型5.2.1K-Mean聚类K值选取

根据肘部纪律,随之聚类数K值的增大,SSE逐渐减小并趋于平稳。根据平均轮廓线条线条法,平均轮廓线条线条系数越大,说明聚类效果最好。由唐诗簇内偏向平方和与轮廓线条线条系数图所示,SSE出现转机点较为隐蔽,但K值等于3时平均轮廓线条线条系数取得最大值,因此唐诗的绝佳聚类数为3

由宋学生题材诗簇内偏向平方和与轮廓线条线条系数图所示,当K小于8时,随之K增大,SSE曲线斜率变化较大,当K大于8时,随之K增大,SSE曲线斜率逐步转变减小并趋于平稳,且K=8时轮廓线条线条系数取得次大值,同时由于宋诗数据量大,相比较较唐诗包括的行事作风种类更多,因此宋诗的绝佳聚类数为8

5.2.2K-Mean聚类结果与分析

目的值经过Z-Score标准化处理,每一类别的数量和聚类地方点如下所示所示图所示。

K-Mean聚类各组数量与地方点坐标再对照图
K-Mean聚类各组数量与地方点坐标再对照图

由图分析得知,聚类后差别种别的唐、宋诗的差异较为分明。全体人员而言,唐诗中唐Ⅲ占比居多,宋诗中宋Ⅲ占比也为最大。其中包括包罗,唐Ⅰ类别的诗以ATM主题8为主,心境心情较为充沛,且篇幅为唐诗3类之最;唐Ⅱ以主题5和6为主,稍偏主题10唐Ⅲ以主题4为主,其次为主题2和9宋Ⅰ以主题49为主但行事作风以人文意象见长;宋Ⅱ以主题9为主,其次为主题2和4心情分明明显特征和话语分明明显特征较少;宋Ⅲ以主题2和4大多,且心情较为充沛;宋Ⅳ以主题3和主题8为主,心境心情;宋Ⅴ以主题4为主,心情值居高,且以自然而然而然意象见长;宋Ⅵ以主题7和10为主;宋Ⅶ以主题3为主,心情最为充沛,心境饱满,其自然意象、的颜色词使用较多,篇幅为唐宋诗之最;宋Ⅷ则以主题1为主。

5.3基于用词倾向度的Single-Pass聚类模型5.3.1用词倾向于于度与风格

唐宋诗辅助研究的次要伎俩之一即为统计分析,也也可以经由词频较为集中集中反映作者对字词的运用比较偏好,进而分析词频与古代现代诗人行事作风之间的之间的之间的关系。但仅仅经由词频对古代现代诗人用词偏好的较为集中集中反映并不直观,因此本文参照胡俊峰[10]等人的钻研,引入了用词倾向度”定义,其公式如下。

cbe4e5a9260646dbb0e2264c41d99d92.png

其中包括包罗,wij体现第i个古代现代诗人运用比较第j个词的次数,N体现《全唐诗》全宋诗》中总词数(包罗万象单字词和多字词)M体现《全唐诗》全宋诗》中诗人总数。

部分代表古代现代诗人用词倾向于于度排序结果如下所示所示表所示。

朝代

古代现代诗人

用词倾向于于度排序结果

北宋时期

杜甫

白帝 飜 巫峽 戎馬 顏色 飢 劒 江漢 黃 風塵 干戈 峽…

李白

黃鶴 黃金 秋浦 劒 黃河 猨 顏 金陵 妾 樓船 猛虎 青…

元稹

春早 廻 耶 撩亂 邨 顏色 燄 潛 鬬 晝夜 劒 黃 漸

陸龜蒙

魚戲 秖 蓮葉 祗 煙 檝 詞 強 煙霞 櫂 劒 弦 鬬 帶…

李商隱

宓妃 鸎 黃昏 迢遰 佳期 帶 妬 宋玉 黃 玉樓 翡翠 鴛…

杜牧

窓 戌 羽林 褭褭 斾 罇 故國 紅粉 微雨 髪 秪 強 隣…

孟郊

魯山 視聽 常恐 賢人 顏 君子 結交 贈君 太行 始知 劒…

皮日休

徵君 共君 太湖 秖 魯山 歘 華陽 移時 相向 白蓮 盡日…

北宋该时期

梅堯臣

大梁 嘗聞 太守 曷 慙 畏 翦 贈 美 洛陽 吳 儻 邀

蘇軾

巌 詩題 東坡 使君 嗟我视频题材遥知 俯仰 逝 閱 首 作詩

歐陽修

眾 罇 嘉客 潁水 醉翁亭记亭记 京師 可愛 彊 鳥語 幼年时期 嗟我

陳師道

衝風 縮手 衰疾 贫苦穷困潦倒 鳥雀 稍稍 稍 西方 向來 相忘 獨…

楊萬里

半點 朶 儂 南溪 荆溪 水精 大爷 江西 忽然 渠 暄…

王安石

低徊 鍾山 咏 投老 柴荆 塵沙 洲渚 溝 陳迹 浪漫浪漫邂逅 岡

文天祥

楚囚 牢愁 睢陽 銅駝 燕山 我们的灵魂 志士 孤臣 囚 佞臣 柰…

陳與義

鄧州 麯 繩床 歲暮 衡山 綸巾 倚杖 竹籬 湖南 境况 莽…

5.3.2Word2Vec词向量性性训练和词嵌入

文本作为非结构化数据,难以直接把把中止比较和计算。Word2Vec也也可以将文本转换为向量的形式,止渴消痰权衡利弊差异文本之间的相似程度。Word2Vec里刻的字词与向量对应之间的之间的关系消费需求经由性训练得到

基于《全唐诗》全宋诗》一切诗句的语料,甲言分词的基础上使用Gensim中止词向量训练,得到一个200维的词向量,也也可以将诗句中的字词映射到向量,从而中止进一步的分析寻思。

5.3.3Single-Pass聚类算法

Single-Pass聚类算法是一种基于余弦相似度的随笔本聚类算法,去接纳增量聚类的方式将文本向量与已有话题内的其他其他内容中止比对,寻思文本相似度进行匹配。若与某个话题种来婚娶,则把该文本归为该话题,若该文本域所有的一切话题种来的相似度均小于某一阈值,则将该文本体现成新的种子话题。Single-Pass聚类算法详细具体步骤如下所示所示[12]1输入新文档d2寻思d与已有话题分类中每篇文档的相似度,可获取与d相似度最大的话题并得到相似度值T3若T大于阈值θ则文档d被分类到已知的话题种来,否者作为一个新的话题种来;4聚类过程结束。

本文去接纳Single-Pass算法用于对古代现代诗人高倾向词的聚类。

5.3.4Single-Pass聚类参数选择

再经文献调研,本文所选在在唐朝代表古代现代诗人37位,宋诗33位,详尽名单及所选依据详见附录。去接纳Single-Pass算法对诗人的用词偏好分明明显特征中止聚类,得到及一用词风格相似的古代现代诗人组。区分选用差异的参数和阈值中止选词和聚类,得到差异的结果对比分析如下所示所示图所示。

差异参数下Single-Pass算法聚类好好效果对比图
差异参数下Single-Pass算法聚类好好效果对比图

经由与学者研究的古代现代诗人派别中止比较,参考唐宋诗语料库大小的影响,也可以可以选择结果较好的参数作为里刻的最初参数,其中包括包罗:针对北宋时期古代现代诗人,选用频数前600字词到场用词倾向于于度进行计算,也可以可以选择其中包括包罗用词倾向度前150词语中止词嵌入和相似度聚类;针对北宋该时期古代现代诗人,选用频数前800字词到场用词倾向于于度进行计算,也可以可以选择其中包括包罗用词倾向度前100词语中止词嵌入和相似度聚类;聚类阈值均选用0.65

5.3.5Single-Pass聚类结果分析

由绝佳阈值得出的Single-Pass聚类结果如下。

种来

古代现代诗人

1

白居易、元稹、皮日休、孟郊、韓愈

2

杜甫、高適

3

李白、陸龜蒙、常建、

4

許渾、李商隱、杜牧、溫庭筠、韓偓、吳融、唐彥謙、

5

張說、沈佺期、陳子昂

6

司空圖、方干、杜荀鶴、李隆基、裴迪

7

岑參、王昌齡、王維、孟浩然、宋之問、駱賓王、盧照鄰、楊炯

8

張九齡

9

王績

10

上官儀、王勃

北宋时期部分代表古代现代诗人“用词倾向度-Single-Pass聚类”结果如上表所示,第一类中,白居易与元稹同属“元白诗派”孟郊、韩愈属于“韩孟诗派”这两个诗派的用词倾向于于具有独特共同一定的相似性;第五类中司空图、方干、杜荀鹤同属隐逸冲淡诗派,与学者钻研得出得出结论产生分歧。

第七类中,岑参、王昌龄同属边塞军旅诗派,王维、孟浩然同属自然而然自然山水墟落乡村田园诗派,骆宾王、卢照邻、杨炯则同属于士人诗派,这三者都被聚了出,但特殊自然而然自然山水墟落乡村田园诗和另两种存在较大的差异性,说明基于用词倾向的聚类有关同类古代现代诗人好效果优秀,但可以将不同类聚到一起,消费需求结合其他核心要素配合好沉思和评判。

种来

古代现代诗人

1

劉克莊、梅堯臣、歐陽修、蘇軾、陳師道

2

楊萬里、范成大

3

王安石、文天祥

4

戴復古、陳與義、潘閬

5

王禹偁、魏野

6

楊億、劉筠

7

汪元量、謝翱

8

慎密、林景熙、徐璣

9

蘇舜欽、石介、尹洙、鄭思肖

10

林逋、徐照、趙師秀、翁卷

11

錢惟演

12

尤袤、謝枋得

13

李防

北宋该时期部分代表古代现代诗人“用词倾向度-Single-Pass聚类”结果如上表所示,第二类中,杨万里、范成大同属华为四大古代现代诗人诗派,第七类中的汪元量、谢翱同属遗民诗派,第九类中苏舜钦、石介、尹洙同属复古诗派。

与唐代相同,基于用词倾向的聚类有关同类古代现代诗人好效果优秀,但可以将不同类聚到一起,消费需求结合其他核心要素配合好沉思和评判。

5.4里刻总结与对比

本钻研区分基于行事作风分明明显特征目的零碎和用词倾向于于度提出了两种不同粒度的古代现代诗人诗作行事作风细分里刻。

其中包括包罗,基于行事作风分明明显特征目的零碎的K-Mean聚类模型是面向尽数据集的细分探求,依据目的零碎的数值中止聚类和分析,将唐诗和宋诗区分细分为3类和8类,一个较为宏观的行事作风细分方法,聚类地方点坐标在目的零碎上的位置也可以在一定程度上较为集中集中反映该细分类别的中央行事作风明显特征。

而基于用词倾向度的Single-Pass聚类模型,直接把把引入了有关相关信息量更为全面的文本有关相关信息,并提出“用词倾向度”作为文本的增强优化方法,完成4了有关唐宋古代现代诗人诗作行事作风的更进一步细分,同时再经与部分代表古代现代诗人的学者钻研得出得出结论中止对比分析,里刻较为有效,但也存在一些改进空间。

两个里刻各有优势,差异的粒度上对唐宋诗的行事作风中止了细分。

6.成果三的里刻树立起与求解6.1成果分析与思路

成果三基于成果二中片面全面构建的K-Mean聚类里刻中止代表古代现代诗人所选。本文成果二已经片面全面构建出两个聚类模型,一是基于行事作风分明明显特征目的零碎的K-Mean聚类模型,另一个是基于用词倾向度的Single-Pass聚类模型。前者的聚类分明明显特征包罗主题、心情、话语三大维度,较为片面地,接着者的聚类分明明显特征为文本相似度,用词特征的进一步深化钻研。沉思到行事作风聚类的片面地性,本文依据K-Mean聚类模型的结果作为行事作风子类中止代表古代现代诗人和诗作的所选。

本题解决与直接把直接评价流程如下所示所示图所示。

成果三处置与直接把直接评价流程图
成果三处置与直接把直接评价流程图
6.2代表古代现代诗人所选后果

所选唐、宋诗三种行事作风代表古代现代诗人20位如下所示所示表所示,古代现代诗人代表诗作和选择依据(与聚类中心的距离)略。

唐Ⅰ

唐Ⅱ

唐Ⅲ

白元鑒

盧綸

衛準

劉禹錫

捧劒僕

鄧廷聞

張祜

楊凝

張敬之

崔詞

周繇

朱勰

楊真人

章孝標

法滿

朱評之

李益

曾扈

高宗皇帝李治

丁位

香兒

貞素

劉威

次休

延壽

牛希濟

周顓

陳元光

戴叔倫

崔懷寶

周朴

曹松

章碣

柳宗元

李羣玉

畢誠

金地藏

張喬

金可紀

陶彝之

虛中

蔣氏

殷潛之

李商隱

景龍文館學士

李翔

譚用之

胥偃

王孝廉

同礼

利涉

豆盧回

許渾

肅宗

林暈

于興宗

李善寧之子

王周

李涉

梁陟

宋Ⅰ

宋Ⅱ

宋Ⅲ

宋Ⅳ

宋Ⅴ

宋Ⅵ

宋Ⅶ

宋Ⅷ

何新之

潘鄭臺

趙士宇

葉夢得

王嚮

毛珝

曾原郕

釋法薰

王漁壑

徐忻

釋洪海

程公許

鮮于至

張伯玉

李師聖

釋慧方

衡泌

張一齋

余亢

洪炎

劉彥朝

鄧深

范良龔

釋懷深

程壯

釋法顯

杜師旦

葛勝仲

沈安義

王志道

陳允升

釋嗣宗

余力齋

皇甫韶

釋圓照

晁補之

楊元量

史彌寧

林夔孫

釋文禮

王伯瀑布题材

何甫

周光嶽

劉子寰

吳球

楊冠卿

趙彥假

釋智愚

劉師忠

吳弘鈺

馮開元

孔平仲

謝逵

余靖

頓起

釋清了

蔣夢炎

杜範兄

張仲武

張方平

胡宗哲

潘檉

孫漸

釋自齡

翁甫

崖州女子

何權

吳潛

姚愈

王安國

龔復

釋宗演

桂聞詩

徐遜綿

劉文毅

王信

黄希武

趙汝鐩

徐大忠

釋文準

袁思永

趙子泰

高衡

馬之純

楊本然

楊公遠

趙宗德

釋咸靜

丘岳

趙逵

趙師固

曹彥約

閻彥昭

王安中

周晞稷

釋智朋

醉道人

蕭克翁

蔡崑

洪皓

富嚴

戴復古

倪德元

釋道川

陳仲諤

周吟軒

普通平民某

李曾伯

蓋嶼

袁說友

蜀翁

釋法一

釋寶玄

忘懷老人

林應隆

趙燁

陳逢辰

張榘

郭波

釋鼎需

袁立儒

竺大本

劉三戒

方鳳

朱承祖

戴昺

唐耜

釋了朴

王毖

陳熊

吳白

張琮

趙汝旗

張藴

朱震

釋守珣

開先長老

洪天錫

貢宗舒

陳棣

趙善宣

曹勛

潘景良

李昴英

趙師聖

釋雲林

陳貴誠

王邁

徐文瀾

初惟深

謝璡

釋智深

釋正韶

黄岳年

虞薦發

曾班

王希旦

黄彥平

汪泌

釋紹隆

6.3代表古代现代诗人所选后果剖析

种来

代表古代现代诗人

主要分明明显特征目的

行事作风明显特征

唐Ⅰ

刘禹锡,张祜,柳宗元,周朴

主题8心情词,篇幅

风情俊爽,意象功力很深,甘美,清凉舒爽峭拔

唐Ⅱ

卢纶,章孝标,李益

主题56

威武雄壮小气,意境坦坦荡荡

唐Ⅲ

章碣

主题4

细腻著称

种来

代表古代现代诗人

主要分明明显特征目的

行事作风明显特征

宋Ⅰ

蒋梦炎,袁思永,袁立儒,陈仲谔,释宝玄

主题49人文意象

以人文意象见长

宋Ⅱ

赵逵,周吟轩,吴弘钰,皇甫韶,徐忻

主题9心情值、心情词较少

自然而然而然、豁达开朗爽朗,以说理为主

宋Ⅲ

余亢,周光岳,冯开元刘三戒

主题24心情值

诗歌心情较为伤感低沉

宋Ⅳ

叶梦得,葛胜仲,晁补之,孔平仲,吴潜

主题38

诗歌作风豪爽大方小气,

宋Ⅴ

吴球,谢逵,胡宗哲,阎彦昭,陈逢辰

主题4心情值,自然而然而然意象

形貌特征物景较多,以自然而然而然意象见长

宋Ⅵ

邓深,余靖,潘柽,王安国

主题710

古代现代诗人多为在朝官员,为人清正卫猛,节令甚伟,多用白描,重说理

宋Ⅶ

赵彦假,孙渐,周晞稷,唐耜,唐耜,潘景良

主题3心情值、心情词、自然而然而然意象、的颜色词、篇幅

诗作多为歌行体,用词或淡婉工雅,或豪放雄奇

宋Ⅷ

釋法薰,釋慧方,釋懷深,釋嗣宗,釋文禮

主题1

诗作其他其他内容多为僧侣纪录一样往常职业生涯,话语富于禅意,且不局限性性于格式,多为四六字

7.里刻直接把直接评价与推广7.1里刻的缺陷

本文有关唐宋古代现代诗人诗作行事作风的差异中止了定量分析与比较研究,本文树立起的里刻具有独特共同以下缺陷

数据预处理阶段:

1有关一首古诗而言,面向古汉语的甲言”分词,也可以达到相较于面向现代汉语的Jieba等罕见分词工具更好的分词效果;

2本文在分词历程中也没直接把把运用简繁转换,最洪流高山保存了繁体原文的用字和信息量。

以上两点为后续分析的准确性提供了较好的基础。

针对成果一的里刻:

1本文运用作者主题里刻、文本心情分析等方法,对非结构化的文本数据中止较深的开掘,提取了较多文本中包含的有关相关信息;

2结合主题、心情、话语3个维度中止量化和模型训练,对风格的归结信息综合较为片面地。

针对成果二和三的里刻:

1本文区分基于唐宋古代现代诗人诗作行事作风分明明显特征目的零碎和用词倾向于于度进行了聚类挖掘,差异粒度上达到对唐宋古代现代诗人诗作行事作风进一步细分的目的

2聚类地方点坐标值与ATM主题等指标的对应之间的之间的关系具有独特共同可解释性,也可以对每一细分种别的行事作风中止总结和对比分析。

7.2里刻的缺少之处与未来展望

同时,本文里刻也存在一些缺少之处

1成果一对风格的分明明显特征提取仍有改进空间,比方部分分明明显特征与篇幅相关性较大,取其与篇幅的商可能得到愈加有效的分明明显特征目的;

2成果三在代表古代现代诗人诗作的所选中仅考虑了其与聚类中心的距离,结合古代现代诗人诗作数量等核心要素可以得到更有代表性的结果。

7.3里刻大力推行

本文里刻主要针对唐宋诗的行事作风差异睁开眼睛钻研和分类,里刻可进一步大力推行到其他分类面,比方古代现代诗人天文区域内、身份等;也可向其他文体中止大力推行,比方对不同时代、差异天文区域内的广东话文中止分析和分类等。

8.参考文献

[1]王培友.唐宋诗之争、宋贤肉身及宋诗文化生态研究的实践思索[J].中国我们的文明钻研,201401:71-85.DOI:10.15990/j.cnki.cn11-3306/g2.2014.01.005.
[2]Jiaeyan.甲言Jiayan[EB/OL].https://github.com/jiaeyan/Jiayan,2022-4-10.
[3]流浪集.隐马尔可夫模型(HMM中文分词[EB/OL].https://www.cnblogs.com/leeshine/p/5804679.html,2016-09-24.
[4]Rosen-ZviM,GriffithT,SteyverM,etal.TheA uthor-TopModelforA uthorandDocuments[J].A UA IPress,2012.
[5]Corina.PythonSnowNLP基于心情字典的心情分析[EB/OL].2020-05-20.
[6]杨筱燕.浅析唐宋诗之分[J].新西部(下半月),200812:120-121.
[7]Microstrong.进一步深化了解LightGBM[EB/OL].https://zhuanlan.zhihu.com/p/99069186,2020-01-06.
[8]刘建平Pinard.K-Mean聚类算法原理[EB/OL].https://www.cnblogs.com/pinard/p/6164214.html,2016-12-12.
[9]刘金超DT.K-Mean中K值的所选[EB/OL].https://blog.csdn.net/weixin_45399233/article/details/101942911,2019-10-02.
[10]胡俊峰,俞士汶.唐宋诗之寻思机扶佐深层钻研[J].北京大学学报(自然而然而然迷信版),200105:727-733.DOI:10.13209/j.0479-8023.2001.126.
[11]好好老先生.小白看Word2Vec精确掀开姿势|一切了解和应用[EB/OL].https://zhuanlan.zhihu.com/p/120148300,2020-03-29.
[12]格桑多吉,乔少杰,韩楠,等.基于Single-Pass互联网舆情抢手不测意外发现算法[J].电子科技大学学报,2015,4404:599-604.

9.创新竞赛总结与启示

第一阶段由于时间把控的成果未能取得很好的结果,详细具体方案思索时过于发散致使于来不及完成44论文;第二阶段改变了整体战略,第一阶段钻研积累和经验的基础上快速明确成果,参考了优良论文的篇章结构和图表绘制,将更多时间花在处置成果和结果呈现上,更残缺地呈现了详细具体方案的其他其他内容和包罗万象第一阶段在内的义务,也算是赔偿了一点一点遗憾。

原文链接:https://blog.csdn.net/u014111377/article/details/124992659?ops_request_misc=%257B%2522request%255Fid%2522%253A %2522166856496116782414955790%2522%252C%2522scm%2522%253A %252220140713.130102334.pc%255Fblog.%2522%257D&request_id=166856496116782414955790&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-3-124992659-null-null.nonecase&utm_term=%E9%A 2%98%E6%9D%90

未经允许不得转载:题材网 » 2022年SPSSPRO认证杯数学建模B题第二阶段详细具体方案及赛后总结:唐宋诗的定量分析与比较研究

赞 (0) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏