推广 热搜: 贵州  试题  暑期档  如何做  五日游  新趋势  种方法  影响力  怎么看  怎么做 

ChaGPT+学术研究之开源工具原理概述:ChatPaper、ChatReviewer、ChatGenTitle等项目源码实现

   日期:2024-11-07     作者:caijiyuan    caijiyuan   评论:0    移动:http://zleialh.tongchengxian.cn/mobile/news/179.html
核心提示:以chatgpt为代表的大模型已经成为了一个重要的生产力加速工具,尤其对于学术群体而言,知道有哪些工具以及如何更好的使用工具十

以chatgpt为代表的大模型已经成为了一个重要的生产力加速工具,尤其对于学术群体而言,知道有哪些工具以及如何更好的使用工具十分重要。

ChaGPT+学术研究之开源工具原理概述:ChatPaper、ChatReviewer、ChatGenTitle等项目源码实现

而如何更好的使用这些工具,需要我们对工具的具体实现原理和思想有一定的了解,并且对其中发挥重要作用的prompt加以掌握,即知其然,也知其所以然。

因此,为了解决以上问题,本文主要从实现思想、功能以及实际效果三个方面,介绍当前开放且受欢迎的大模型辅助学术的项目工具,包括ChatPaper论文初筛、ChatReviewer论文预审稿、ChatImprovement论文润色、ChatResponse论文审稿意见回复、ChatGenTitle论文标题生成以及AutoResearcher论文综述生成共6个工具,涵盖论文筛选过滤、审稿、改稿、标题生成以及综述等环节,供大家一起参考。

ChatPaper,通过ChatGPT实现对论文进行总结,帮助科研人进行论文初筛,可以根据用户输入的关键词,自动在arxiv上下载最新的论文,再利用ChatGPT3.5的API接口强大的总结能力,将论文总结为固定的格式,以最少的文本,最低的阅读门槛,为大家提供最大信息量,以决定该精读哪些文章,也可以提供本地的PDF文档地址,直接处理。

在实现思想上,先提取摘要和introduction的内容,因为abstract很少会告诉你过去的方案是什么,存在什么问题,,然后提取method章节,总结方法的具体步骤,最后提取conclusion章节,总结全文。

其底层依赖于arxiv网站,从中找到对应的论文信息,并依赖于chatgpt接口进行分析。

地址:https://chatpaper.org/、https://github.com/kaixindelele/ChatPaper

ChatReviewer,利用ChatGPT对论文进行预审稿,对论文进行批量总结和评审,提高科研人员的文献阅读和理解的效率。 对自己的论文进行评估,根据ChatReviewer生成的审稿意见进行查漏补缺,进一步提高自己的论文质量。辅助论文审稿,给出参考的审稿意见,提高审稿效率和审稿质量。

地址:https://huggingface.co/spaces/ShiwenNi/ChatReviewer、https://github.com/nishiwen1214/ChatReviewer

基本思想:首先提取论文中的重要部分,然后根据提取的重要部分进行评审。

1、stage_1:提取论文中的重要部分

从messages中的content字段中,我们可以看到这一步的prompt:

2、 chat_review:根据提取的重要部分进行评审

从messages中的content字段中,我们可以看到review的prompt:

ChatImprovement,利用ChatGPT对论文初稿进行润色、翻译等

地址:https://huggingface.co/spaces/wangrongsheng/ChatImprovement、https://github.com/binary-husky/chatgpt_academic

1、生成函数注释

2、全文润色

ChatResponse,根据收到的审稿意见,ChatResponse自动提取其中各个审稿人的问题和担忧,并生成点对点的回复,即利用ChatGPT对审稿人的提问进行回复

地址:https://huggingface.co/spaces/ShiwenNi/ChatResponse、https://github.com/nishiwen1214/ChatReviewer

基本思想:将给定评审意见作为输入,并构造prompt,要求chatgpt按照约定格式进行打分。

其中我们可以看到其对应的prompt如下:

ChatGenTitle,利用220万arXiv论文元信息训练出来的论文题目生成模型,根据论文摘要生成合适题目

实现思想:以LLaMA模型为基础模型,使用百万的arXiv论文元信息进行微调【自动构造问答对】,并利用lora进行加速,形成微调模型。不过,meta发布的LLaMA模型禁止商用,因此,只开放了LoRA模型,必须搭配对应版本的LLaMA模型才能使用,其总共发布一下版本:

其中:

1、提示词

2、摘要

地址:https://github.com/WangRongsheng/ChatGenTitle

通过调用不同的基础模型,可以得到不同的生成效果,如下图所示:

一个基于GPT AI模型的开源项目,可以根据给定的研究问题自动生成学术文献综述,可以从Semantic Scholar API中获取论文,提取相关信息,并将研究结果汇总成简明的文献综述。

GitHub: github.com/eimenhmdt/autoresearcher

1、使用原理

具体实现路径主要包括以下几个步骤:定研究问题research_question,顺序执行如下步骤:

生成关键词组合->取出研究问题的前20篇论文->从前20篇论文中提取答案->将答案合并成一个简明的学术文献回顾->从答案中提取引文,并将参考文献列表附在文献综述中->将关键词组合添加到文献综述中->如果提供output_file参数,将文献综述保存到文件中,最终形成答案。

其核心还是将流程中各个阶段都构造对应的prompt,然后调用openai接口,完成抽取,在semantic-scholar方面,通过接口获取论文数据。

例如,下图展示了在semantic-scholar()中,以“knowledge graph and large language model”为关键词得到的论文信息,其中包括title、paperAbstract、authors等字段信息。

从其api:https://www.semanticscholar.org/api/1/search中,可以拿到相应结果信息。

2、关键步骤:生成关键词组合

对应的关键词抽取prompt:

对应的关键词组合接口为:

3、关键步骤:取出研究问题的前20篇论文

与此对应的是SemanticScholar的访问接口,通过调取SemanticScholar的搜索结果,然后进行排序:

4、关键步骤:从前20篇论文中提取答案

对应的提取方法如下:

5、关键步骤:将答案合并成一个简明的学术文献回顾

对应的提取接口为:

6、关键步骤:从答案中提取引文,并将参考文献列表附在文献综述中

对应的引文提取方式为:

7、关键步骤:将关键词组合添加到文献综述中

8、关键步骤:如果提供output_file参数,将文献综述保存到文件中

本文主要从实现思想、功能以及实际效果三个方面,介绍当前开放且受欢迎的大模型辅助学术的项目工具,包括ChatPaper论文初筛、ChatReviewer论文预审稿、ChatImprovement论文润色、ChatResponse论文审稿意见回复、ChatGenTitle论文标题生成以及AutoResearcher论文综述生成共6个工具,涵盖论文筛选过滤、审稿、改稿、标题生成以及综述等环节。

对于具体的细节,我们可以查看原项目,从源码角度进行分析,增进自己的了解。

1、https://github.com/eimenhmdt/autoresearcher

2、https://github.com/kaixindelele/ChatPaper

3、https://github.com/WangRongsheng/ChatGenTitle

4、https://github.com/nishiwen1214/ChatReviewer

5、https://github.com/binary-husky/chatgpt_academic

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

本文地址:http://zleialh.tongchengxian.cn/news/179.html    通成线 http://zleialh.tongchengxian.cn/ , 查看更多
 
标签: 学术研究
 
更多>同类最新资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号