商务服务
ChaGPT+学术研究之开源工具原理概述:ChatPaper、ChatReviewer、ChatGenTitle等项目源码实现
2024-11-07 19:58

以chatgpt为代表的大模型已经成为了一个重要的生产力加速工具,尤其对于学术群体而言,知道有哪些工具以及如何更好的使用工具十分重要。

ChaGPT+学术研究之开源工具原理概述:ChatPaper、ChatReviewer、ChatGenTitle等项目源码实现

而如何更好的使用这些工具,需要我们对工具的具体实现原理和思想有一定的了解,并且对其中发挥重要作用的prompt加以掌握,即知其然,也知其所以然。

因此,为了解决以上问题,本文主要从实现思想、功能以及实际效果三个方面,介绍当前开放且受欢迎的大模型辅助学术的项目工具,包括ChatPaper论文初筛、ChatReviewer论文预审稿、ChatImprovement论文润色、ChatResponse论文审稿意见回复、ChatGenTitle论文标题生成以及AutoResearcher论文综述生成共6个工具,涵盖论文筛选过滤、审稿、改稿、标题生成以及综述等环节,供大家一起参考。

ChatPaper,通过ChatGPT实现对论文进行总结,帮助科研人进行论文初筛,可以根据用户输入的关键词,自动在arxiv上下载最新的论文,再利用ChatGPT3.5的API接口强大的总结能力,将论文总结为固定的格式,以最少的文本,最低的阅读门槛,为大家提供最大信息量,以决定该精读哪些文章,也可以提供本地的PDF文档地址,直接处理。

在实现思想上,先提取摘要和introduction的内容,因为abstract很少会告诉你过去的方案是什么,存在什么问题,,然后提取method章节,总结方法的具体步骤,最后提取conclusion章节,总结全文。

其底层依赖于arxiv网站,从中找到对应的论文信息,并依赖于chatgpt接口进行分析。

地址:https://chatpaper.org/、https://github.com/kaixindelele/ChatPaper

ChatReviewer,利用ChatGPT对论文进行预审稿,对论文进行批量总结和评审,提高科研人员的文献阅读和理解的效率。 对自己的论文进行评估,根据ChatReviewer生成的审稿意见进行查漏补缺,进一步提高自己的论文质量。辅助论文审稿,给出参考的审稿意见,提高审稿效率和审稿质量。

地址:https://huggingface.co/spaces/ShiwenNi/ChatReviewer、https://github.com/nishiwen1214/ChatReviewer

基本思想:首先提取论文中的重要部分,然后根据提取的重要部分进行评审。

1、stage_1:提取论文中的重要部分

从messages中的content字段中,我们可以看到这一步的prompt:

2、 chat_review:根据提取的重要部分进行评审

从messages中的content字段中,我们可以看到review的prompt:

ChatImprovement,利用ChatGPT对论文初稿进行润色、翻译等

地址:https://huggingface.co/spaces/wangrongsheng/ChatImprovement、https://github.com/binary-husky/chatgpt_academic

1、生成函数注释

2、全文润色

ChatResponse,根据收到的审稿意见,ChatResponse自动提取其中各个审稿人的问题和担忧,并生成点对点的回复,即利用ChatGPT对审稿人的提问进行回复

地址:https://huggingface.co/spaces/ShiwenNi/ChatResponse、https://github.com/nishiwen1214/ChatReviewer

基本思想:将给定评审意见作为输入,并构造prompt,要求chatgpt按照约定格式进行打分。

其中我们可以看到其对应的prompt如下:

ChatGenTitle,利用220万arXiv论文元信息训练出来的论文题目生成模型,根据论文摘要生成合适题目

实现思想:以LLaMA模型为基础模型,使用百万的arXiv论文元信息进行微调【自动构造问答对】,并利用lora进行加速,形成微调模型。不过,meta发布的LLaMA模型禁止商用,因此,只开放了LoRA模型,必须搭配对应版本的LLaMA模型才能使用,其总共发布一下版本:

其中:

1、提示词

2、摘要

地址:https://github.com/WangRongsheng/ChatGenTitle

通过调用不同的基础模型,可以得到不同的生成效果,如下图所示:

一个基于GPT AI模型的开源项目,可以根据给定的研究问题自动生成学术文献综述,可以从Semantic Scholar API中获取论文,提取相关信息,并将研究结果汇总成简明的文献综述。

GitHub: github.com/eimenhmdt/autoresearcher

1、使用原理

具体实现路径主要包括以下几个步骤:定研究问题research_question,顺序执行如下步骤:

生成关键词组合->取出研究问题的前20篇论文->从前20篇论文中提取答案->将答案合并成一个简明的学术文献回顾->从答案中提取引文,并将参考文献列表附在文献综述中->将关键词组合添加到文献综述中->如果提供output_file参数,将文献综述保存到文件中,最终形成答案。

其核心还是将流程中各个阶段都构造对应的prompt,然后调用openai接口,完成抽取,在semantic-scholar方面,通过接口获取论文数据。

例如,下图展示了在semantic-scholar()中,以“knowledge graph and large language model”为关键词得到的论文信息,其中包括title、paperAbstract、authors等字段信息。

从其api:https://www.semanticscholar.org/api/1/search中,可以拿到相应结果信息。

2、关键步骤:生成关键词组合

对应的关键词抽取prompt:

对应的关键词组合接口为:

3、关键步骤:取出研究问题的前20篇论文

与此对应的是SemanticScholar的访问接口,通过调取SemanticScholar的搜索结果,然后进行排序:

4、关键步骤:从前20篇论文中提取答案

对应的提取方法如下:

5、关键步骤:将答案合并成一个简明的学术文献回顾

对应的提取接口为:

6、关键步骤:从答案中提取引文,并将参考文献列表附在文献综述中

对应的引文提取方式为:

7、关键步骤:将关键词组合添加到文献综述中

8、关键步骤:如果提供output_file参数,将文献综述保存到文件中

本文主要从实现思想、功能以及实际效果三个方面,介绍当前开放且受欢迎的大模型辅助学术的项目工具,包括ChatPaper论文初筛、ChatReviewer论文预审稿、ChatImprovement论文润色、ChatResponse论文审稿意见回复、ChatGenTitle论文标题生成以及AutoResearcher论文综述生成共6个工具,涵盖论文筛选过滤、审稿、改稿、标题生成以及综述等环节。

对于具体的细节,我们可以查看原项目,从源码角度进行分析,增进自己的了解。

1、https://github.com/eimenhmdt/autoresearcher

2、https://github.com/kaixindelele/ChatPaper

3、https://github.com/WangRongsheng/ChatGenTitle

4、https://github.com/nishiwen1214/ChatReviewer

5、https://github.com/binary-husky/chatgpt_academic

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

    以上就是本篇文章【ChaGPT+学术研究之开源工具原理概述:ChatPaper、ChatReviewer、ChatGenTitle等项目源码实现】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.tongchengxian.cn/news/179.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 通成线资讯移动站 http://zleialh.tongchengxian.cn/mobile/ , 查看更多   
最新新闻
【AI系统的出现】数据、算法与计算力的完美交响
在数字化时代的洪流中,人工智能(AI)如同破茧的凤凰,展翅高飞。这篇文章深入剖析了AI系统崛起的三大支柱:海量数据的积累、计
做小说推文发布哪个平台好?小说推文视频什么类型比较好做
小说推广是不挑平台的,抖音,小红书,快手,视频号都可以,这是个真正可以做到一鱼多吃的项目。brbr抖音是转化率最好的平台,快
《抖音短视频》活跃状态查看方法
最近很多小伙伴发现自己的抖音中多了一个“活跃状态”的标识,那么这个活跃状态是什么意思?在哪里可以看到呢?下面小编为大家带
复旦中文文本分类语料库:助力中文NLP研究的利器
复旦中文文本分类语料库是由复旦大学计算机科学与技术系的李荣陆老师精心打造的一项宝贵资源。该语料库旨在为中文自然语言处理&#
为什么你的设计总是同质化?
解决设计问题,是我们每个设计师必须要具备的能力,但是又不能为了不一样而不一样,所以以自身品牌出发来做差异化,才是正确的方
“不买年”成新年关键词:不是不买,而是高质量“买买买”
2022年第一天,在北京工作的王芳语在朋友圈留下这样一句签名——“2022年,挑战‘不买年’”。新年伊始,很多年轻人纷纷在社交平
怎么查询百度搜索关键词的用户数量呢【怎么查百度关键词检索量】
在当今数字化的时代,了解市场行情和用户需求对于企业和个人都至关重要,查询百度搜索关键词的用户数量是一种常用的方法,它可以
今日沪深300股指期货行情价格分析[有帮助]
注:点此进入主页查看全部最新行情分析。10月15日沪深300股指期货策略:中性。短期财政刺激预期落空,股指转入震荡回落,建议观
本企业新闻