华西都市报

首页 » 常识 » 诊断 » GPT2中文摘要生成
TUhjnbcbe - 2020/10/23 10:04:00
丙酸倍氯米松乳膏白癜风患者能用吗 https://m-mip.39.net/pf/mipso_4345626.html
前言:

本文主要使用GPT2来进行中文生成式摘要的任务。

1.整体思路

传闻GPT2的生成式任务效果不错,所以手动实现验证一下。首先使用的是GPT2-Chinese的项目,使用wiki中文通用语料训练了一个通用语言模型,果然还是小马拉大车,训练的比较慢,使用训练之后的通用语言模型在GPT2-chitchat的基础上修改数据的输入方式来对摘要任务进行进一步的训练。

2.数据集

该任务的数据集使用的是NLPCC的SingleDocumentSummarization。数据集来源于新闻领域,是NLPCC举办提供的任务数据,可用于单文本摘要。数据集包含train_with_summ.txt和train_without_summ.txt两个文件。其中train_with_summ.txt的数据格式如下:

{"summarization":"知情人透露*怀孕后,父母很高兴。章母已开始悉心照料。据悉,预产期大概是12月底","article":"四海网讯,近日,有媒体报道称:*真怀孕了!报道还援引知情人士消息称,“*怀孕大概四五个月,预产期是年底前后,现在已经不接工作了。”这到底是怎么回事?消息是真是假?针对此消息,23日晚8时30分,华西都市报记者迅速联系上了与*家里关系极好的知情人士,这位人士向华西都市报记者证实说:“子怡这次确实怀孕了。她已经36岁了,也该怀孕了。*怀上汪峰的孩子后,子怡的父母亲十分高兴。子怡的母亲,已开始悉心照料女儿了。子怡的预产期大概是今年12月底。”当晚9时,华西都市报记者为了求证*怀孕消息,又电话联系*的亲哥哥章子男,但电话通了,一直没有人Paragraph接听。有关*怀孕的新闻自从年9月份*和汪峰恋情以来,就被传N遍了!不过,时间跨入年,事情却发生着微妙的变化。年3月21日,*担任制片人的电影《从天儿降》开机,在开机发布会上几张合影,让网友又燃起了好奇心:“*真的怀孕了吗?”但后据证实,*的“大肚照”只是影片宣传的噱头。过了四个月的7月22日,《太平轮》新一轮宣传,*又被发现状态不佳,不时深呼吸,不自觉想捂住肚子,又觉得不妥。然后在8月的一天,*和朋友吃饭,在酒店门口被风行工作室拍到了,疑似有孕在身!今年7月11日,汪峰本来在上海要举行演唱会,后来因为台风“灿鸿”取消了。而消息人士称,汪峰原来打算在演唱会上当着*的面宣布重大消息,而且*已经赴上海准备参加演唱会了,怎知遇到台风,只好延期,相信9月26日的演唱会应该还会有惊喜大白天下吧。"}{"summarization":"青海首次野外发现濒危大火烈鸟尚不清楚具体来源","article":"中新社西宁11月22日电Paragraph(赵凛松)青海省林业厅野生动植物和自然保护区管理局高级工程师张毓22日向中新社记者确认:“经过中国林业科学院、中科院*生态与地理研究所和青海省林业厅的共同认定,出现在青海省海西州境内的三只体型较大的鸟为世界极度濒危的红鹳目红鹳科红鹳属的大红鹳。”11月18日,青海省海西州可鲁克湖—托素湖国家级陆生野生动物疫源疫病监测站在野外监测巡护过程中,在可鲁克湖西南岸入水口盐沼滩发现三只体型较大的鸟类。张毓说:“此前在该区域从未发现过这种体型的鸟类。”可鲁克湖—托素湖位于青海省柴达木盆地东北部,海拔米,水域湿地环境内的优势种动物主要是水禽,共有30余种。根据拍摄的照片以及视频,张毓根据动物学体型得出了初步结论,然后会同中国林业科学院和中科院*生态与地理研究所的相关专家,确认了这三只鸟为红鹳目红鹳科红鹳属的大红鹳。大红鹳也称为大火烈鸟、红鹤等,三只鸟类特征为大红鹳亚成体。根据世界自然保护联盟、世界濒危动物红色名录,该鸟主要分布于非洲、中亚、南亚等区域,分布广、种群数量较大,无威胁因子,以往在中国并无分布。但年在*野外首次发现并确定该鸟在中国境内有分布,为中国鸟类新纪录,年在四川也发现一只该鸟亚成体。此次野外发现在中国属第三次。“我们现在还无法判断这三只鸟从何而来。不过我个人倾向于是从中亚国家迁徙至此。”张毓强调说,该种鸟国内也有人工饲养,因此也有人判断为从动物园逃逸。“我们对这三只鸟进行了详尽的记录,如果明年这个时间还在此地出现这种鸟,那就能肯定是迁徙的鸟类,而不是从动物园里跑出来的。”由于目前可鲁克湖—托素湖已开始结冰,鸟类采食困难,不排除三只鸟由于无法获得能量补给而进行远距离迁飞的可能。青海省林业厅野生动物行*主管部门将随时做好野外救护的各项准备工作。(完)"}

“summarization“:新闻的摘要部分,“article”article“:新闻的正文部分。下载

1
查看完整版本: GPT2中文摘要生成