以chatgpt为代表的大模型已经成为了一个重要的生产力加速工具,尤其对于学术群体而言,知道有哪些工具以及如何更好的使用工具十分重要。
而如何更好的使用这些工具,需要我们对工具的具体实现原理和思想有一定的了解,并且对其中发挥重要作用的prompt加以掌握,即知其然,也知其所以然。
因此,为了解决以上问题,本文主要从实现思想、功能以及实际效果三个方面,介绍当前开放且受欢迎的大模型辅助学术的项目工具,包括ChatPaper论文初筛、ChatReviewer论文预审稿、ChatImprovement论文润色、ChatResponse论文审稿意见回复、ChatGenTitle论文标题生成以及AutoResearcher论文综述生成共6个工具,涵盖论文筛选过滤、审稿、改稿、标题生成以及综述等环节,供大家一起参考。
ChatPaper,通过ChatGPT实现对论文进行总结,帮助科研人进行论文初筛,可以根据用户输入的关键词,自动在arxiv上下载最新的论文,再利用ChatGPT3.5的API接口强大的总结能力,将论文总结为固定的格式,以最少的文本,最低的阅读门槛,为大家提供最大信息量,以决定该精读哪些文章,也可以提供本地的PDF文档地址,直接处理。
在实现思想上,先提取摘要和introduction的内容,因为abstract很少会告诉你过去的方案是什么,存在什么问题,,然后提取method章节,总结方法的具体步骤,最后提取conclusion章节,总结全文。
其底层依赖于arxiv网站,从中找到对应的论文信息,并依赖于chatgpt接口进行分析。
地址:https://chatpaper.org/、https://github.com/kaixindelele/ChatPaper
ChatReviewer,利用ChatGPT对论文进行预审稿,对论文进行批量总结和评审,提高科研人员的文献阅读和理解的效率。 对自己的论文进行评估,根据ChatReviewer生成的审稿意见进行查漏补缺,进一步提高自己的论文质量。辅助论文审稿,给出参考的审稿意见,提高审稿效率和审稿质量。
地址:https://huggingface.co/spaces/ShiwenNi/ChatReviewer、https://github.com/nishiwen1214/ChatReviewer
基本思想:首先提取论文中的重要部分,然后根据提取的重要部分进行评审。
1、stage_1:提取论文中的重要部分
从messages中的content字段中,我们可以看到这一步的prompt:
2、 chat_review:根据提取的重要部分进行评审
从messages中的content字段中,我们可以看到review的prompt:
ChatImprovement,利用ChatGPT对论文初稿进行润色、翻译等
地址:https://huggingface.co/spaces/wangrongsheng/ChatImprovement、https://github.com/binary-husky/chatgpt_academic
1、生成函数注释
2、全文润色
ChatResponse,根据收到的审稿意见,ChatResponse自动提取其中各个审稿人的问题和担忧,并生成点对点的回复,即利用ChatGPT对审稿人的提问进行回复
地址:https://huggingface.co/spaces/ShiwenNi/ChatResponse、https://github.com/nishiwen1214/ChatReviewer
基本思想:将给定评审意见作为输入,并构造prompt,要求chatgpt按照约定格式进行打分。
其中我们可以看到其对应的prompt如下:
ChatGenTitle,利用220万arXiv论文元信息训练出来的论文题目生成模型,根据论文摘要生成合适题目
实现思想:以LLaMA模型为基础模型,使用百万的arXiv论文元信息进行微调【自动构造问答对】,并利用lora进行加速,形成微调模型。不过,meta发布的LLaMA模型禁止商用,因此,只开放了LoRA模型,必须搭配对应版本的LLaMA模型才能使用,其总共发布一下版本:
其中:
1、提示词
2、摘要
地址:https://github.com/WangRongsheng/ChatGenTitle
通过调用不同的基础模型,可以得到不同的生成效果,如下图所示:
一个基于GPT AI模型的开源项目,可以根据给定的研究问题自动生成学术文献综述,可以从Semantic Scholar API中获取论文,提取相关信息,并将研究结果汇总成简明的文献综述。
GitHub: github.com/eimenhmdt/autoresearcher
1、使用原理
具体实现路径主要包括以下几个步骤:定研究问题research_question,顺序执行如下步骤:
生成关键词组合->取出研究问题的前20篇论文->从前20篇论文中提取答案->将答案合并成一个简明的学术文献回顾->从答案中提取引文,并将参考文献列表附在文献综述中->将关键词组合添加到文献综述中->如果提供output_file参数,将文献综述保存到文件中,最终形成答案。
其核心还是将流程中各个阶段都构造对应的prompt,然后调用openai接口,完成抽取,在semantic-scholar方面,通过接口获取论文数据。
例如,下图展示了在semantic-scholar()中,以“knowledge graph and large language model”为关键词得到的论文信息,其中包括title、paperAbstract、authors等字段信息。
从其api:https://www.semanticscholar.org/api/1/search中,可以拿到相应结果信息。
2、关键步骤:生成关键词组合
对应的关键词抽取prompt:
对应的关键词组合接口为:
3、关键步骤:取出研究问题的前20篇论文
与此对应的是SemanticScholar的访问接口,通过调取SemanticScholar的搜索结果,然后进行排序:
4、关键步骤:从前20篇论文中提取答案
对应的提取方法如下:
5、关键步骤:将答案合并成一个简明的学术文献回顾
对应的提取接口为:
6、关键步骤:从答案中提取引文,并将参考文献列表附在文献综述中
对应的引文提取方式为:
7、关键步骤:将关键词组合添加到文献综述中
8、关键步骤:如果提供output_file参数,将文献综述保存到文件中
本文主要从实现思想、功能以及实际效果三个方面,介绍当前开放且受欢迎的大模型辅助学术的项目工具,包括ChatPaper论文初筛、ChatReviewer论文预审稿、ChatImprovement论文润色、ChatResponse论文审稿意见回复、ChatGenTitle论文标题生成以及AutoResearcher论文综述生成共6个工具,涵盖论文筛选过滤、审稿、改稿、标题生成以及综述等环节。
对于具体的细节,我们可以查看原项目,从源码角度进行分析,增进自己的了解。
1、https://github.com/eimenhmdt/autoresearcher
2、https://github.com/kaixindelele/ChatPaper
3、https://github.com/WangRongsheng/ChatGenTitle
4、https://github.com/nishiwen1214/ChatReviewer
5、https://github.com/binary-husky/chatgpt_academic
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。