第十五届“SPSSPRO杯”数学中国数学建模互联网迎敌赛(第二阶段)『特等奖』,@队友:
假设一个诗人的主要行事作风一定归属于唐诗或宋诗中的一种,树立起数学里刻,仅通过诗人的及一首作品,来确定此人的行事作风归属,并影视题材说明模型的合理地地性和有效程度; 树立起数学里刻,钻研唐诗和宋诗的行事作风是否也也可以进一步详实划分为子类,并说明每一子类的划分依据; 为每种行事作风子类选出及一最有代表性的诗作和诗人。
全唐诗》全宋诗》不存在误收,诗歌其他其他内容无错别字等情况; 主题、心情、话语是古代现代诗人诗作的三大分明明显特征,古代现代诗人的行事作风也也可以由这些分明明显特征较为集中集中反映; 一致位诗人的差异诗作行事作风是相似作文题材的
诗的行事作风也也可以分为两类,唐诗和宋诗; 一个诗人的主要行事作风归属于两者之一; 古代现代诗人所处我我们的时代对古代现代诗人诗作行事作风有较为显著的影响。
古代现代诗人的用词偏好一定程度上决定了古代现代诗人诗作的行事作风。
数据表
字段
其他其他内容和类型
唐宋诗数据表
author
字符串类型,作者名
paragraphs
列表类型,列小说题材表每一元素为一句诗
title
字符串类型,诗的标题
id
字符串类型,诗的ID标识
tags
列表类型,诗的标签
唐宋诗作者数据表
name
字符串类型,作者名
desc
字符串类型,作者一生简介
id
字符串类型,作者的ID唯一标识
永不枯竭
author
paragraphs
title
全唐诗》
王勃
[\’澗戶風前竹,山空月下琴。\’,\’項疑「山空」爲「山窗」之誤。\’,\’唯餘兩□□,應盡百年心。\’]
幽居斯五五五。下同)
魏奉古
[\’長安[二]桂殿倚空城,[三]昔同今八)屋,雲浮彫練此城[四]遊…]
長門怨[一]伯三一九五二七四八)
全宋诗》
扈蒙
[\’以上劉瑛整理)\’]
存目 其二
鄭將
[\’仲夏竹迷日,長竿带筍移。\’,\’子猷清洒鐸案:當爲酒)意,應與渭川期。\’]
和李侍郎移竹
濯洗前(原文)
濯洗后
[\’澗戶風前竹,山空月下琴。\’,\’項疑「山空」爲「山窗」之誤。\’,\’唯餘兩□□,應盡百年心。\’]
[\’澗戶風前竹,山空月下琴。\’,\’唯餘兩□□,應盡百年心。\’]
[\’長安[二]桂殿倚空城,[三]昔同今八)屋,雲浮彫練此城[四]遊…]
[\’長安桂殿倚空城,昔同今屋,雲浮彫練此城遊…]
[\’以上劉瑛整理)\’]
[]
[\’仲夏竹迷日,長竿带筍移。\’,\’子猷清洒鐸案:當爲酒)意,應與渭川期。\’]
[\’仲夏竹迷日,長竿带筍移。\’,\’子猷清洒意,應與渭川期。\’]
诗的种来
高频字
唐诗
不、人、一、無、山、風、日、有、雲、來、天、中、何、時、上、花、水、爲、月、春
宋诗
不、人、一、無、山、風、有、來、天、何、日、如、自、生、中、時、年、雲、爲、
A TM主题
主题相关字词TOP10及其权重
主题1
0.016*”兮”+0.010*”死”+0.005*”手”+0.005*”要”+0.005*”兒”+0.004*”眼”+0.004*”然”+0.004*”口”+0.004*”而”+0.004*”汝”视频题材
主题2
0.009*”說”+0.007*”病”+0.005*”付”+0.004*”佛”+0.004*”覺”+0.004*”風流”+0.004*”飽”+0.004*”緣”+0.004*”堪”+0.004*”元”
主题3
0.005*”疏”+0.005*”懷”+0.004*”民”+0.004*”隠”+0.004*”期”+0.003*”幸”+0.003*”况”+0.003*”居”+0.003*”謝”+0.003*”俗”
主题4
0.013*”老先生”+0.005*”山色”+0.004*”總”+0.004*”中原地区地域”+0.004*”嗔”+0.003*”借”+0.003*”筆”+0.003*”收”+0.003*”茗”+0.003*”打”
主题5
0.005*”吟”+0.004*”西風”+0.003*”青山”+0.003*”春風”+0.003*”樹”+0.003*”肯”+0.003*”萬里”+0.002*”歌”+0.002*”一笑”+0.002*”翁”
主题6
0.013*”閒”+0.005*”回”+0.004*”歲月”+0.004*”熟”+0.003*”曉”+0.003*”佳”+0.003*”溪”+0.003*”邊”+0.003*”宮”+0.003*”半”
主题7
0.008*”僧”+0.005*”竹”+0.005*”靜”+0.004*”句”+0.004*”亭”+0.004*”梅”+0.004*”仙”+0.004*”景”+0.003*”味”+0.003*”供”
主题8
0.007*”神”+0.005*”而”+0.004*”于”+0.004*”乃”+0.004*”靈”+0.004*”至”+0.004*”哉”+0.004*”或”+0.003*”德”+0.003*”既”
主题9
0.007*”裏”+0.005*”也”+0.005*”一片”+0.004*”底”+0.004*”一聲”+0.004*”紅”+0.004*”無人”+0.004*”脚”+0.004*”邊”+0.003*”黄金”
主题10
0.004*”竹”+0.004*”人間”+0.004*”晚”+0.004*”樹”+0.004*”晴”+0.004*”隠”+0.003*”冷”+0.003*”夕陽”+0.003*”白雲”+0.003*”眠”
如上表,ATM里刻将古代现代诗人诗作分为10个主题,每一主题区分包罗了一些含义,比方主题10中“竹”人世间”树”晴”红日”白云”等多自然意象,且包含了隐”等词语,可以为墟落乡村田园景色和隐居的形貌特征,而主题5则包含“霜风”万里”等波澜壮阔的景象,可见差异主题间也可以较好地较为集中集中反映古代现代诗人诗作行事作风的差异。
文本心情分析,指用自然而然而然言语处置、文本开掘和寻思机话语学等方法来识别和提取原素材中的主观有关相关信息,其次要义务就是对文本中的主观有关相关信息(如观点、心情、努力的积极的态度、直接把直接评价、心境等)中止提取、分析、处置方式、归咎于和推理。
唐宋诗情感倾向存在一定的差异,因此本文去接纳SnowNLP中的sentiment中止文本心情值计算,用于直接评价古代现代诗人诗作的心情倾向于于,作为“心情分明明显特征”一项指标。
1心情词库
我以为,诗作中情感词的几许决议内容了心情直接把直接表达的强度,唐宋诗情感表达的强度存在一定的差异性。因此,树立起心情词库用于婚娶唐宋诗作中的心情词。结合礼记和中医理论,也可以可以选择与诗最为贴切的心情,最初将诗的心情直接把直接表达分为“喜、怒、哀、惧、爱、憎、思 七类;基于Word2Vec词向量查找与之相近的字词,并进一步经由人工操作操作方式挑选出组成心情词库,用于区分诗作中是否存在较为剧烈的心情直接把直接表达。
运用比较心情词库对每首诗作中止婚娶,寻思每位古代现代诗人在每首诗中的心情词数量均值,作为该诗人的一项“心情分明明显特征”目的,部分心情词及其在唐宋诗中的字词频如下所示。
唐诗心情词TOP10 宋诗情感词TOP10 思 3028 樂 17996 樂 3006 好 11670 悲 2908 思 10243 愁 2562 喜 9765 好 2296 憂 9226 情 2195 嗟 8210 憂 1760 悲 8142 愛 1458 愁 7705 辭 1376 懷 6636 恨 1248 情 6494 2意象词库 古典诗歌的意象,主要包罗万象自然而然而然意象和人文意象两类,自然而然而然意象是指日月星辰、自然山水物景等永不枯竭于自然界的意象,而人文意象是历史的的我们的文明的意象,更多地体现在典故的引用上,唐宋诗在这两者的运用比较比拟上有所差异。 唐诗以自然而然而然意象取胜,把自然而然而然意象与诗人强烈的实现理想感戴结合起来,表现清新刚健的我们的时代肉身,兴象玲珑,之境浑成;宋诗以人文意象取胜,以富于人文沉淀下来的颜色的典故、语码和满溢才情智慧………议论表现渊雅不俗的人文人情味与修养,具有独特共同人文大家风范[6] 因此,基于文献调研和资料整理,树立起了自然而然而然意象和人文意象两个意象词库,用于对每首诗作中止婚娶,区分寻思每位古代现代诗人在每首诗中的自然而然而然意象和人文意象数量均值,作为该诗人的两项“话语分明明显特征”目的,部分意象词及其在唐宋诗中的字词频如下所示所示图所示。 自然而然而然意象 唐 宋 人文意象 唐 宋 竹 3356 14811 笛 376 1795 柳 2990 9484 蓬萊 256 1303 白雲 2510 6588 清明时时 144 868 魚 2165 10012 三尺 119 801 蘭 1698 5196 南浦 214 732 燕 1587 6295 寒食 222 730 蓮 1150 3112 重陽 138 714 芳草 982 2202 中秋 72 639 蟬 952 2034 長亭 118 484 明月 949 3170 方寸 113 424 3的颜色词库 沈宗骞在芥舟学画编》中曾说:四海之物,不外乎乎形色。的颜色本身是也没情绪的由于古代现代诗人在运用比较比拟的历程中赋予了自己的情绪,的颜色便有了生命,生命,生命,生命的之意,正如王国维所说:有我之境,以我观物,股物皆著我之色彩。唐宋古代现代诗人十分注意实现理想职业生涯中的诸多的颜色,并在作品中把这些的颜色生动活泼生动地表现出来。 本文所选白、黄、红、绿、黑五大色系树立的的颜色词库,区分寻思每位古代现代诗人在每首诗中的的颜色词数量均值,作为该诗人的一项“话语分明明显特征”目的。
唐宋诗篇的把戏和篇幅偏好有所差异,如“五言绝句”五言律诗”七言绝句”七言律诗”等,全唐诗》和《全宋诗》中也包罗一些非常规篇幅的诗作,因此篇幅可以是唐宋诗存在差异的一项指标。
本文统计了每位古代现代诗人诗篇字数的均值,作为一项“话语分明明显特征”目的。
数据探求和文献调研的基础上,本文将唐宋古代现代诗人行事作风差异的分明明显特征表现归结信息综合为主题、心情、话语三大维度。其中包括包罗,主题分明明显特征”指诗人诗作的题材和表达的其他其他内容,心情分明明显特征”指诗人诗作的心情倾向于于和表达情感的强度,话语分明明显特征”指诗人诗作的诗篇长度和结构,和运用意象、的颜色等修辞形貌特征技法的倾向于于。
基于上述“主题分明明显特征”心情分明明显特征”话语分明明显特征”三个维度片面全面构建古代现代诗人诗作行事作风分明明显特征目的零碎如下所示所示表所示。
一级目的
二级目的
寻思方法
主题分明明显特征
A TM主题1
该诗人对于ATM主题1倾向于于度
A TM主题2
该诗人对于ATM主题2倾向于于度
A TM主题10
该诗人对于ATM主题10倾向于于度
心情分明明显特征
诗歌心情倾向于于
该古代现代诗人每首诗的心情倾向于于均值
心情词
该古代现代诗人每首诗中提到心情词数量均值
话语分明明显特征
人文意象
该古代现代诗人每首诗中提到人文意象数量均值
自然而然而然意象
该古代现代诗人每首诗中提到自然而然而然意象数量均值
的颜色词
该古代现代诗人每首诗中提到的颜色词数量均值
篇幅
该古代现代诗人每首诗的字数均值
其中包括包罗“主题分明明显特征”经由作者主题里刻(A uthor-TopModel,A TM将所有的一切诗作分为10个主题,并得出每位古代现代诗人有关每一主题的倾向于于度;心情分明明显特征”中的诗歌心情倾向于于”经由对每位诗人的诗作中止文本心情分析寻思并求均值得到心情词和“话语分明明显特征”中的人文意象、自然而然而然意象、的颜色词通过词库匹配寻思词频均值得到篇幅为古代现代诗人每首诗的字数均值。
去接纳MinMax方法中止数据标准化。
基于里刻假设,我以为古代现代诗人诗作的行事作风与其所处我我们的时代有显著联系,因此也也可以运用比较各种机械去去学习算法性性训练分类里刻,其自变量为每位诗人的行事作风分明明显特征目的值计算结果,因变量为古代现代诗人诗作行事作风(古代现代诗人所处朝代)
运用比较SPSSPRO中止各种机械去学习算法的运用与测试,也可以可以选择较相契合本研究目标的九种各种机械去学习算法,按7:3划分性性训练集和测试集,并测试性性训练好效果,九种各种机械去学习算法在性性训练集和测试集上的表现如下所示所示表所示。
各种机械去学习算法
性性训练集准确率
测试集准确率
LightGBM
0.906
0.837
XGBoost
0.992
0.825
梯度进步树
0.957
0.81
CatBoost
0.899
0.807
adaboost
0.816
0.804
随机森林中中
0.82
0.8
ExtraTrees
0.803
0.786
KNN
0.804
0.765
决议内容树
0.798
0.763
由上表可以发现,XGBoost和梯度进步树在性训练集上的表现最好,区分达到99.2%和95.7%但测试集上的准确率与性性训练集差距较大,存在过拟合的情况。而LightGBM相比较较之下在性性训练集和测试集上都取得了较好的好效果,测试集上的表现为所有的一切测试算法中最高,因此,选用LightGBM算法性训练本文的诗作行事作风分类里刻。
本文基于三大维度16个指标构建了古代现代诗人诗作行事作风直接把直接评价目的零碎,去接纳LightGBM各种机械去去学习算法性性训练分类里刻,性训练得到里刻取得了较好的好效果,详尽里刻明显特征与评价如下。
对16个分明明显特征中止次要性排序,结果如下所示所示图所示。
分明明显特征次要性排在前5位的区分为“篇幅”ATM主题3A TM主题8A TM主题6A TM主题9说明古代现代诗人诗作的篇幅和ATM主题倾向于于对其行事作风影响较大;相较之下,人文意象、自然而然而然意象的数量对分类模型的影响较小,这可能是由于该列数据稀疏,即许多古代现代诗人也没诗作提到意象遭致的
夹杂矩阵(ConfusMatrix也称误差矩阵,一种体现精度直接把直接评价的标准把戏,用n行n列矩阵表示。夹杂矩阵的每一列代表了瞻望种来,总数体现瞻望为该类别的数据的数目;每一行代表了数据的真实的的归属种来,总数体现该类别的数据实例的数目。
观察夹杂矩阵热力图,里刻对宋诗风格诗人的分类好效果很好,对唐诗的分类好效果较好。这可能是由于性性训练样本宋诗风格诗人的比例较大造成的未来可经由调治样本比例进一步优化改进。
里刻在性性训练集和测试集上的表现如下所示所示表所示,性性训练集和测试集上的准确率分别达到90.6%和83.7%F1值分别达到0.902和0.826也可以较好地理区域分诗人的行事作风倾向于于。
准确率
召回率
精确率
F1
性训练集
0.906
0.906
0.91
0.902
测试集
0.837
0.837
0.833
0.826
上表中展示了性性训练集和测试集的瞻望直接把直接评价目的,经由量化目的来衡量LightGBM瞻望好效果。
由于古代现代诗人的行事作风倾向于于并不完完完全全全由时代决定,存在北宋时期古代现代诗人诗作行事作风倾向于于宋诗、北宋该时期古代现代诗人诗作行事作风倾向于于于唐诗的情况,因此本模型在测试集上准确率达到83.7%与性性训练集接近,已经较为充分地提取了唐宋古代现代诗人诗作的分明明显特征有关相关信息。
为寻找唐宋古代现代诗人诗作行事作风进一步细分的方法,经由两种不同的方式树立起了两个不同粒度的古代现代诗人诗作行事作风细分里刻
其一,基于行事作风分明明显特征目的零碎的K-Means聚类模型基于成果一构建的古代现代诗人诗作行事作风分明明显特征目的零碎,寻思每位古代现代诗人的16个指标值,并将其中止标准化后作影视题材为聚类特征,运用比较比拟K-Means聚类算法区分对唐宋古代现代诗人中止聚类。去接纳肘部纪律和轮廓线条线条系数方法,相关信息信息综合沉思数据集大小,将北宋时期古代现代诗人和北宋该时期古代现代诗人区分聚为3类和8类并根据聚类中心点对比分析每类诗人的明显特征,达到较好的细分好效果。
其二,基于用词倾向度的Single-Pass聚类模型分明明显特征目的构造的历程中损失了一些文本有关相关信息量,有关更进一步地细分有所局限性性,基于古代现代诗人用词倾向于于度和文本相似度进行了更进一步细分的探求先寻思较为集中集中反映古代现代诗人用词偏好的用词倾向度并挑选出每位古代现代诗人的高倾向词由于文本为非结构化数据,难以直接把把中止比较和计算,运用比较Word2Vec性训练了针对一首古诗词的200维词向量,并运用比较比拟基于余弦相似度的Single-Pass文本聚类算法对代表诗人的用词倾向于于度进行聚类,得到及一用词风格相似的古代现代诗人组,并将聚类结果与学者钻研得出得出结论中止对比分析达到较好的进一步细分好效果。
里刻树立起与求解流程如下所示所示图所示。
根据肘部纪律,随之聚类数K值的增大,SSE逐渐减小并趋于平稳。根据平均轮廓线条线条法,平均轮廓线条线条系数越大,说明聚类效果最好。由唐诗簇内偏向平方和与轮廓线条线条系数图所示,SSE出现转机点较为隐蔽,但K值等于3时平均轮廓线条线条系数取得最大值,因此唐诗的绝佳聚类数为3
由宋学生题材诗簇内偏向平方和与轮廓线条线条系数图所示,当K小于8时,随之K增大,SSE曲线斜率变化较大,当K大于8时,随之K增大,SSE曲线斜率逐步转变减小并趋于平稳,且K=8时轮廓线条线条系数取得次大值,同时由于宋诗数据量大,相比较较唐诗包括的行事作风种类更多,因此宋诗的绝佳聚类数为8
目的值经过Z-Score标准化处理,每一类别的数量和聚类地方点如下所示所示图所示。
由图分析得知,聚类后差别种别的唐、宋诗的差异较为分明。全体人员而言,唐诗中唐Ⅲ占比居多,宋诗中宋Ⅲ占比也为最大。其中包括包罗,唐Ⅰ类别的诗以ATM主题8为主,心境心情较为充沛,且篇幅为唐诗3类之最;唐Ⅱ以主题5和6为主,稍偏主题10唐Ⅲ以主题4为主,其次为主题2和9宋Ⅰ以主题49为主但行事作风以人文意象见长;宋Ⅱ以主题9为主,其次为主题2和4心情分明明显特征和话语分明明显特征较少;宋Ⅲ以主题2和4大多,且心情较为充沛;宋Ⅳ以主题3和主题8为主,心境心情;宋Ⅴ以主题4为主,心情值居高,且以自然而然而然意象见长;宋Ⅵ以主题7和10为主;宋Ⅶ以主题3为主,心情最为充沛,心境饱满,其自然意象、的颜色词使用较多,篇幅为唐宋诗之最;宋Ⅷ则以主题1为主。
唐宋诗辅助研究的次要伎俩之一即为统计分析,也也可以经由词频较为集中集中反映作者对字词的运用比较偏好,进而分析词频与古代现代诗人行事作风之间的之间的之间的关系。但仅仅经由词频对古代现代诗人用词偏好的较为集中集中反映并不直观,因此本文参照胡俊峰[10]等人的钻研,引入了用词倾向度”定义,其公式如下。
其中包括包罗,wij体现第i个古代现代诗人运用比较第j个词的次数,N体现《全唐诗》全宋诗》中总词数(包罗万象单字词和多字词)M体现《全唐诗》全宋诗》中诗人总数。
部分代表古代现代诗人用词倾向于于度排序结果如下所示所示表所示。
朝代
古代现代诗人
用词倾向于于度排序结果
北宋时期
杜甫
白帝 飜 巫峽 戎馬 顏色 飢 劒 江漢 黃 風塵 干戈 峽…
李白
黃鶴 黃金 秋浦 劒 黃河 猨 顏 金陵 妾 樓船 猛虎 青…
元稹
春早 廻 耶 撩亂 邨 顏色 燄 潛 鬬 晝夜 劒 黃 漸
陸龜蒙
魚戲 秖 蓮葉 祗 煙 檝 詞 強 煙霞 櫂 劒 弦 鬬 帶…
李商隱
宓妃 鸎 黃昏 迢遰 佳期 帶 妬 宋玉 黃 玉樓 翡翠 鴛…
杜牧
窓 戌 羽林 褭褭 斾 罇 故國 紅粉 微雨 髪 秪 強 隣…
孟郊
魯山 視聽 常恐 賢人 顏 君子 結交 贈君 太行 始知 劒…
皮日休
徵君 共君 太湖 秖 魯山 歘 華陽 移時 相向 白蓮 盡日…
北宋该时期
梅堯臣
大梁 嘗聞 太守 曷 慙 畏 翦 贈 美 洛陽 吳 儻 邀
蘇軾
巌 詩題 東坡 使君 嗟我视频题材遥知 俯仰 逝 閱 首 作詩
歐陽修
眾 罇 嘉客 潁水 醉翁亭记亭记 京師 可愛 彊 鳥語 幼年时期 嗟我
陳師道
衝風 縮手 衰疾 贫苦穷困潦倒 鳥雀 稍稍 稍 西方 向來 相忘 獨…
楊萬里
半點 朶 儂 南溪 荆溪 水精 大爷 江西 忽然 渠 暄…
王安石
低徊 鍾山 咏 投老 柴荆 塵沙 洲渚 溝 陳迹 浪漫浪漫邂逅 岡
文天祥
楚囚 牢愁 睢陽 銅駝 燕山 我们的灵魂 志士 孤臣 囚 佞臣 柰…
陳與義
鄧州 麯 繩床 歲暮 衡山 綸巾 倚杖 竹籬 湖南 境况 莽…
文本作为非结构化数据,难以直接把把中止比较和计算。Word2Vec也也可以将文本转换为向量的形式,止渴消痰权衡利弊差异文本之间的相似程度。Word2Vec里刻的字词与向量对应之间的之间的关系消费需求经由性训练得到
基于《全唐诗》全宋诗》一切诗句的语料,甲言分词的基础上使用Gensim中止词向量训练,得到一个200维的词向量,也也可以将诗句中的字词映射到向量,从而中止进一步的分析寻思。
Single-Pass聚类算法是一种基于余弦相似度的随笔本聚类算法,去接纳增量聚类的方式将文本向量与已有话题内的其他其他内容中止比对,寻思文本相似度进行匹配。若与某个话题种来婚娶,则把该文本归为该话题,若该文本域所有的一切话题种来的相似度均小于某一阈值,则将该文本体现成新的种子话题。Single-Pass聚类算法详细具体步骤如下所示所示[12]1输入新文档d2寻思d与已有话题分类中每篇文档的相似度,可获取与d相似度最大的话题并得到相似度值T3若T大于阈值θ则文档d被分类到已知的话题种来,否者作为一个新的话题种来;4聚类过程结束。
本文去接纳Single-Pass算法用于对古代现代诗人高倾向词的聚类。
再经文献调研,本文所选在在唐朝代表古代现代诗人37位,宋诗33位,详尽名单及所选依据详见附录。去接纳Single-Pass算法对诗人的用词偏好分明明显特征中止聚类,得到及一用词风格相似的古代现代诗人组。区分选用差异的参数和阈值中止选词和聚类,得到差异的结果对比分析如下所示所示图所示。
经由与学者研究的古代现代诗人派别中止比较,参考唐宋诗语料库大小的影响,也可以可以选择结果较好的参数作为里刻的最初参数,其中包括包罗:针对北宋时期古代现代诗人,选用频数前600字词到场用词倾向于于度进行计算,也可以可以选择其中包括包罗用词倾向度前150词语中止词嵌入和相似度聚类;针对北宋该时期古代现代诗人,选用频数前800字词到场用词倾向于于度进行计算,也可以可以选择其中包括包罗用词倾向度前100词语中止词嵌入和相似度聚类;聚类阈值均选用0.65
由绝佳阈值得出的Single-Pass聚类结果如下。
种来
古代现代诗人
1
白居易、元稹、皮日休、孟郊、韓愈
2
杜甫、高適
3
李白、陸龜蒙、常建、
4
許渾、李商隱、杜牧、溫庭筠、韓偓、吳融、唐彥謙、
5
張說、沈佺期、陳子昂
6
司空圖、方干、杜荀鶴、李隆基、裴迪
7
岑參、王昌齡、王維、孟浩然、宋之問、駱賓王、盧照鄰、楊炯
8
張九齡
9
王績
10
上官儀、王勃
北宋时期部分代表古代现代诗人“用词倾向度-Single-Pass聚类”结果如上表所示,第一类中,白居易与元稹同属“元白诗派”孟郊、韩愈属于“韩孟诗派”这两个诗派的用词倾向于于具有独特共同一定的相似性;第五类中司空图、方干、杜荀鹤同属隐逸冲淡诗派,与学者钻研得出得出结论产生分歧。
第七类中,岑参、王昌龄同属边塞军旅诗派,王维、孟浩然同属自然而然自然山水墟落乡村田园诗派,骆宾王、卢照邻、杨炯则同属于士人诗派,这三者都被聚了出,但特殊自然而然自然山水墟落乡村田园诗和另两种存在较大的差异性,说明基于用词倾向的聚类有关同类古代现代诗人好效果优秀,但可以将不同类聚到一起,消费需求结合其他核心要素配合好沉思和评判。
种来
古代现代诗人
1
劉克莊、梅堯臣、歐陽修、蘇軾、陳師道
2
楊萬里、范成大
3
王安石、文天祥
4
戴復古、陳與義、潘閬
5
王禹偁、魏野
6
楊億、劉筠
7
汪元量、謝翱
8
慎密、林景熙、徐璣
9
蘇舜欽、石介、尹洙、鄭思肖
10
林逋、徐照、趙師秀、翁卷
11
錢惟演
12
尤袤、謝枋得
13
李防
北宋该时期部分代表古代现代诗人“用词倾向度-Single-Pass聚类”结果如上表所示,第二类中,杨万里、范成大同属华为四大古代现代诗人诗派,第七类中的汪元量、谢翱同属遗民诗派,第九类中苏舜钦、石介、尹洙同属复古诗派。
与唐代相同,基于用词倾向的聚类有关同类古代现代诗人好效果优秀,但可以将不同类聚到一起,消费需求结合其他核心要素配合好沉思和评判。
本钻研区分基于行事作风分明明显特征目的零碎和用词倾向于于度提出了两种不同粒度的古代现代诗人诗作行事作风细分里刻。
其中包括包罗,基于行事作风分明明显特征目的零碎的K-Mean聚类模型是面向尽数据集的细分探求,依据目的零碎的数值中止聚类和分析,将唐诗和宋诗区分细分为3类和8类,一个较为宏观的行事作风细分方法,聚类地方点坐标在目的零碎上的位置也可以在一定程度上较为集中集中反映该细分类别的中央行事作风明显特征。
而基于用词倾向度的Single-Pass聚类模型,直接把把引入了有关相关信息量更为全面的文本有关相关信息,并提出“用词倾向度”作为文本的增强优化方法,完成4了有关唐宋古代现代诗人诗作行事作风的更进一步细分,同时再经与部分代表古代现代诗人的学者钻研得出得出结论中止对比分析,里刻较为有效,但也存在一些改进空间。
两个里刻各有优势,差异的粒度上对唐宋诗的行事作风中止了细分。
成果三基于成果二中片面全面构建的K-Mean聚类里刻中止代表古代现代诗人所选。本文成果二已经片面全面构建出两个聚类模型,一是基于行事作风分明明显特征目的零碎的K-Mean聚类模型,另一个是基于用词倾向度的Single-Pass聚类模型。前者的聚类分明明显特征包罗主题、心情、话语三大维度,较为片面地,接着者的聚类分明明显特征为文本相似度,用词特征的进一步深化钻研。沉思到行事作风聚类的片面地性,本文依据K-Mean聚类模型的结果作为行事作风子类中止代表古代现代诗人和诗作的所选。
本题解决与直接把直接评价流程如下所示所示图所示。
所选唐、宋诗三种行事作风代表古代现代诗人20位如下所示所示表所示,古代现代诗人代表诗作和选择依据(与聚类中心的距离)略。
唐Ⅰ
唐Ⅱ
唐Ⅲ
白元鑒
盧綸
衛準
劉禹錫
捧劒僕
鄧廷聞
張祜
楊凝
張敬之
崔詞
周繇
朱勰
楊真人
章孝標
法滿
朱評之
李益
曾扈
高宗皇帝李治
丁位
香兒
貞素
劉威
次休
延壽
牛希濟
周顓
陳元光
戴叔倫
崔懷寶
周朴
曹松
章碣
柳宗元
李羣玉
畢誠
金地藏
張喬
金可紀
陶彝之
虛中
蔣氏
殷潛之
李商隱
景龍文館學士
李翔
譚用之
胥偃
王孝廉
同礼
利涉
豆盧回
許渾
肅宗
林暈
于興宗
李善寧之子
王周
李涉
梁陟
宋Ⅰ
宋Ⅱ
宋Ⅲ
宋Ⅳ
宋Ⅴ
宋Ⅵ
宋Ⅶ
宋Ⅷ
何新之
潘鄭臺
趙士宇
葉夢得
王嚮
毛珝
曾原郕
釋法薰
王漁壑
徐忻
釋洪海
程公許
鮮于至
張伯玉
李師聖
釋慧方
衡泌
張一齋
余亢
洪炎
劉彥朝
鄧深
范良龔
釋懷深
程壯
釋法顯
杜師旦
葛勝仲
沈安義
王志道
陳允升
釋嗣宗
余力齋
皇甫韶
釋圓照
晁補之
楊元量
史彌寧
林夔孫
釋文禮
王伯瀑布题材淮
何甫
周光嶽
劉子寰
吳球
楊冠卿
趙彥假
釋智愚
劉師忠
吳弘鈺
馮開元
孔平仲
謝逵
余靖
頓起
釋清了
蔣夢炎
杜範兄
張仲武
張方平
胡宗哲
潘檉
孫漸
釋自齡
翁甫
崖州女子
何權
吳潛
姚愈
王安國
龔復
釋宗演
桂聞詩
徐遜綿
劉文毅
王信
黄希武
趙汝鐩
徐大忠
釋文準
袁思永
趙子泰
高衡
馬之純
楊本然
楊公遠
趙宗德
釋咸靜
丘岳
趙逵
趙師固
曹彥約
閻彥昭
王安中
周晞稷
釋智朋
醉道人
蕭克翁
蔡崑
洪皓
富嚴
戴復古
倪德元
釋道川
陳仲諤
周吟軒
普通平民某
李曾伯
蓋嶼
袁說友
蜀翁
釋法一
釋寶玄
忘懷老人
林應隆
趙燁
陳逢辰
張榘
郭波
釋鼎需
袁立儒
竺大本
劉三戒
方鳳
朱承祖
戴昺
唐耜
釋了朴
王毖
陳熊
吳白
張琮
趙汝旗
張藴
朱震
釋守珣
開先長老
洪天錫
貢宗舒
陳棣
趙善宣
曹勛
潘景良
李昴英
趙師聖
釋雲林
陳貴誠
王邁
徐文瀾
初惟深
謝璡
釋智深
釋正韶
黄岳年
虞薦發
曾班
王希旦
黄彥平
汪泌
釋紹隆
种来
代表古代现代诗人
主要分明明显特征目的
行事作风明显特征
唐Ⅰ
刘禹锡,张祜,柳宗元,周朴
主题8心情词,篇幅
风情俊爽,意象功力很深,甘美,清凉舒爽峭拔
唐Ⅱ
卢纶,章孝标,李益
主题56
威武雄壮小气,意境坦坦荡荡
唐Ⅲ
章碣
主题4
细腻著称
种来
代表古代现代诗人
主要分明明显特征目的
行事作风明显特征
宋Ⅰ
蒋梦炎,袁思永,袁立儒,陈仲谔,释宝玄
主题49人文意象
以人文意象见长
宋Ⅱ
赵逵,周吟轩,吴弘钰,皇甫韶,徐忻
主题9心情值、心情词较少
自然而然而然、豁达开朗爽朗,以说理为主
宋Ⅲ
余亢,周光岳,冯开元刘三戒
主题24心情值
诗歌心情较为伤感低沉
宋Ⅳ
叶梦得,葛胜仲,晁补之,孔平仲,吴潜
主题38
诗歌作风豪爽大方小气,
宋Ⅴ
吴球,谢逵,胡宗哲,阎彦昭,陈逢辰
主题4心情值,自然而然而然意象
形貌特征物景较多,以自然而然而然意象见长
宋Ⅵ
邓深,余靖,潘柽,王安国
主题710
古代现代诗人多为在朝官员,为人清正卫猛,节令甚伟,多用白描,重说理
宋Ⅶ
赵彦假,孙渐,周晞稷,唐耜,唐耜,潘景良
主题3心情值、心情词、自然而然而然意象、的颜色词、篇幅
诗作多为歌行体,用词或淡婉工雅,或豪放雄奇
宋Ⅷ
釋法薰,釋慧方,釋懷深,釋嗣宗,釋文禮
主题1
诗作其他其他内容多为僧侣纪录一样往常职业生涯,话语富于禅意,且不局限性性于格式,多为四六字
本文有关唐宋古代现代诗人诗作行事作风的差异中止了定量分析与比较研究,本文树立起的里刻具有独特共同以下缺陷
数据预处理阶段:
1有关一首古诗而言,面向古汉语的甲言”分词,也可以达到相较于面向现代汉语的Jieba等罕见分词工具更好的分词效果;
2本文在分词历程中也没直接把把运用简繁转换,最洪流高山保存了繁体原文的用字和信息量。
以上两点为后续分析的准确性提供了较好的基础。
针对成果一的里刻:
1本文运用作者主题里刻、文本心情分析等方法,对非结构化的文本数据中止较深的开掘,提取了较多文本中包含的有关相关信息;
2结合主题、心情、话语3个维度中止量化和模型训练,对风格的归结信息综合较为片面地。
针对成果二和三的里刻:
1本文区分基于唐宋古代现代诗人诗作行事作风分明明显特征目的零碎和用词倾向于于度进行了聚类挖掘,差异粒度上达到对唐宋古代现代诗人诗作行事作风进一步细分的目的
2聚类地方点坐标值与ATM主题等指标的对应之间的之间的关系具有独特共同可解释性,也可以对每一细分种别的行事作风中止总结和对比分析。
同时,本文里刻也存在一些缺少之处
1成果一对风格的分明明显特征提取仍有改进空间,比方部分分明明显特征与篇幅相关性较大,取其与篇幅的商可能得到愈加有效的分明明显特征目的;
2成果三在代表古代现代诗人诗作的所选中仅考虑了其与聚类中心的距离,结合古代现代诗人诗作数量等核心要素可以得到更有代表性的结果。
本文里刻主要针对唐宋诗的行事作风差异睁开眼睛钻研和分类,里刻可进一步大力推行到其他分类面,比方古代现代诗人天文区域内、身份等;也可向其他文体中止大力推行,比方对不同时代、差异天文区域内的广东话文中止分析和分类等。
[1]王培友.唐宋诗之争、宋贤肉身及宋诗文化生态研究的实践思索[J].中国我们的文明钻研,201401:71-85.DOI:10.15990/j.cnki.cn11-3306/g2.2014.01.005.
[2]Jiaeyan.甲言Jiayan[EB/OL].https://github.com/jiaeyan/Jiayan,2022-4-10.
[3]流浪集.隐马尔可夫模型(HMM中文分词[EB/OL].https://www.cnblogs.com/leeshine/p/5804679.html,2016-09-24.
[4]Rosen-ZviM,GriffithT,SteyverM,etal.TheA uthor-TopModelforA uthorandDocuments[J].A UA IPress,2012.
[5]Corina.PythonSnowNLP基于心情字典的心情分析[EB/OL].2020-05-20.
[6]杨筱燕.浅析唐宋诗之分[J].新西部(下半月),200812:120-121.
[7]Microstrong.进一步深化了解LightGBM[EB/OL].https://zhuanlan.zhihu.com/p/99069186,2020-01-06.
[8]刘建平Pinard.K-Mean聚类算法原理[EB/OL].https://www.cnblogs.com/pinard/p/6164214.html,2016-12-12.
[9]刘金超DT.K-Mean中K值的所选[EB/OL].https://blog.csdn.net/weixin_45399233/article/details/101942911,2019-10-02.
[10]胡俊峰,俞士汶.唐宋诗之寻思机扶佐深层钻研[J].北京大学学报(自然而然而然迷信版),200105:727-733.DOI:10.13209/j.0479-8023.2001.126.
[11]好好老先生.小白看Word2Vec精确掀开姿势|一切了解和应用[EB/OL].https://zhuanlan.zhihu.com/p/120148300,2020-03-29.
[12]格桑多吉,乔少杰,韩楠,等.基于Single-Pass互联网舆情抢手不测意外发现算法[J].电子科技大学学报,2015,4404:599-604.
第一阶段由于时间把控的成果未能取得很好的结果,详细具体方案思索时过于发散致使于来不及完成44论文;第二阶段改变了整体战略,第一阶段钻研积累和经验的基础上快速明确成果,参考了优良论文的篇章结构和图表绘制,将更多时间花在处置成果和结果呈现上,更残缺地呈现了详细具体方案的其他其他内容和包罗万象第一阶段在内的义务,也算是赔偿了一点一点遗憾。
原文链接:https://blog.csdn.net/u014111377/article/details/124992659?ops_request_misc=%257B%2522request%255Fid%2522%253A %2522166856496116782414955790%2522%252C%2522scm%2522%253A %252220140713.130102334.pc%255Fblog.%2522%257D&request_id=166856496116782414955790&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-3-124992659-null-null.nonecase&utm_term=%E9%A 2%98%E6%9D%90
未经允许不得转载:题材网 » 2022年SPSSPRO认证杯数学建模B题第二阶段详细具体方案及赛后总结:唐宋诗的定量分析与比较研究