商务服务
python爬虫:爬虫的简单介绍及requests模块的简单使用
2024-11-13 07:33

(学习爬虫前建议先去了解一下前端的知识,不要求很熟悉,差不多入门即可学习爬虫,如果有不了解的,我也会补充个一些小知识.)

python爬虫:爬虫的简单介绍及requests模块的简单使用

(了解一些前端的知识对于学习爬虫有很大的帮助.)

这边还是先说一下,作者使用pycharm,推荐这个软件,因为这个文本编译器,有很多优秀的功能,对于新手也是非常友好的。(以后如果工作,可能是写python的程序员,用到这个软件的频率也是很高的。)

————————————————————————————————————————————————————————————————

question: 为什么我们编写爬虫就可以获取网页里的各种数据,代码 ?

  我们使用浏览器上网,来获取网页,从而来获得我们想要的内容,

而我们编写爬虫,其实就是模拟浏览器上网,来获取网页中我们想要的内容。

requests 模块:

requests 模块是爬虫的最重要的部分之一,我们通过这个模块,来获取网页的数据,

像我们比如说,要获取某个网页的网页源码,或者是要爬取B站的某个up主的粉丝数,

或者你为了能够在一些网站白嫖某些小说,就用到了requests模块,

(注:为了获取网页的数据,requests模块并不是唯一的,在python中还有urllib模块,

也可以获取网页数据,但是urllib模块相对比较老,且不比requests模块方便,所以作者在这边选择requests模块。)


一点前端知识:

http的请求类型有很多种,我们写爬虫时主要是用到post和get这两种。(其他的也有用,暂时不做介绍)

简单说一下,暂时就先知道get可以直接获取网页的内容,

但是有些网页的加载,需要用户输入参数才能动态加载出来,所以就比较需要post,它可以携带一些参数,从而返回我们想要的内容。


在导入requests模块后,我们就可以使用里面的对象来实现我们的要求。

requests.get(url="...",headers=...):这个函数可以返回我们想要的数据,不过返回的是一个对象,我们要自己定义个对象来承接,然后可以将其重构成我们想要的格式。

requests.post(url="...",headers=...,params=...):这个跟get差不多,区别是后面params携带的是你要的参数。(比如你要做一个翻译器,params就可以是你要翻译的内容。)

url就是你要爬取的网址,像headers的话,就是用来包装你的爬虫,让你的爬虫伪装成浏览器,(因为大部分的网站,会有反爬机制,他不想让爬虫来爬取自己的内容,所以我们就需要包装一下我们的爬虫。)这样就可以成功爬取网页。

这里介绍一种常见的伪装方法:UA伪装,顾名思义,就是用户引擎伪装。这样可以让网站认为,你是一台电脑,而不是一个爬虫。

方法:

随便打开一个网页,摁F12,也就是java的调试工具,然后点击上面的【网络】这个键。

然后刷新你的网页,在你的调试工具网络那边左下角就会有这些出现,

接下来就是随便点击一个,在他的右边,就会出现一堆内容,先不用管,直接拉到最底下,你就会找到一个叫做【"User-Agent"】的东西。

然后就是复制到你的代码里面用字典进行包装了。

示意如下:

然后就可以用进你的代码里面了。


一般来说,爬虫的步骤,可以概括为,指定url,获取网页内容,解析网页内容,最后进行存储。然后比如你要做一些特定需求的爬虫,也是在这些步骤之上,做些变化而已。

在自己电脑的终端输入"pip install requests"即可成功安装requests包。

(记得自己写,这边贴作者代码,还有就是这边爬取这个搜狗的代码,不需要用到headers包装。)

爬取完了之后,作者是存到了自己的文件夹下面,然后打开 搜狗.html ,我们就可以看到网页的源码了。

如下图:

看起来是不是很抽象,看不懂,我们这时候,只要用编译器打开你爬取回来的网页代码,就可以看见你爬取回来的,是不是正确的网页源码。

比如这个搜狗的搜索网页:

在这里这一句,就可以充分表明,是你自己本地的网页,而不是自己又打开了搜狗搜索的网页。

    以上就是本篇文章【python爬虫:爬虫的简单介绍及requests模块的简单使用】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.tongchengxian.cn/news/633.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 通成线资讯移动站 http://zleialh.tongchengxian.cn/mobile/ , 查看更多   
最新新闻
【AI系统的出现】数据、算法与计算力的完美交响
在数字化时代的洪流中,人工智能(AI)如同破茧的凤凰,展翅高飞。这篇文章深入剖析了AI系统崛起的三大支柱:海量数据的积累、计
做小说推文发布哪个平台好?小说推文视频什么类型比较好做
小说推广是不挑平台的,抖音,小红书,快手,视频号都可以,这是个真正可以做到一鱼多吃的项目。brbr抖音是转化率最好的平台,快
《抖音短视频》活跃状态查看方法
最近很多小伙伴发现自己的抖音中多了一个“活跃状态”的标识,那么这个活跃状态是什么意思?在哪里可以看到呢?下面小编为大家带
复旦中文文本分类语料库:助力中文NLP研究的利器
复旦中文文本分类语料库是由复旦大学计算机科学与技术系的李荣陆老师精心打造的一项宝贵资源。该语料库旨在为中文自然语言处理&#
为什么你的设计总是同质化?
解决设计问题,是我们每个设计师必须要具备的能力,但是又不能为了不一样而不一样,所以以自身品牌出发来做差异化,才是正确的方
“不买年”成新年关键词:不是不买,而是高质量“买买买”
2022年第一天,在北京工作的王芳语在朋友圈留下这样一句签名——“2022年,挑战‘不买年’”。新年伊始,很多年轻人纷纷在社交平
怎么查询百度搜索关键词的用户数量呢【怎么查百度关键词检索量】
在当今数字化的时代,了解市场行情和用户需求对于企业和个人都至关重要,查询百度搜索关键词的用户数量是一种常用的方法,它可以
今日沪深300股指期货行情价格分析[有帮助]
注:点此进入主页查看全部最新行情分析。10月15日沪深300股指期货策略:中性。短期财政刺激预期落空,股指转入震荡回落,建议观
本企业新闻