最新动态
如何采集抖音的数据,视频数据采集教程
2024-11-07 19:41
如何采集抖音的数据,视频数据采集教程
抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。

如何采集抖音的数据,视频数据采集教程

不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。 这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。 下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐“你可能感兴趣”的数据(如下图所示)用于商品营销。 点击“查看更多”可以看到更多的系统推荐用户列表数据,如下图所示。 我们按如下步骤模拟操作App: 1.启动抖音。 2.点击搜索按钮。 3.输入搜索关键词(抖音用户ID),点击搜索。 4.找到匹配的用户,点击关注。 5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。 于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。 模拟操作抖音App的脚本核心代码如下所示: view plaincopy to clipboardprint? from com.dtmilano.android.viewclient import ViewClient def search_douyin_for_recommend_user(douyin_id): """采集指定抖音账号的关注推荐数据 """ log(u'准备采集"{}"对应的关注推荐数据'.format(douyin_id)) # 连设备 serialno = None if serialno: os.system('adb connect {}'.format(serialno or '')) time.sleep(3) device, serialno = ViewClient.connectToDeviceOrExit(serialno=serialno) vc = ViewClient(device, serialno, autodump=False) # 强制关闭抖音 log(u'强制关闭抖音.') device.shell('am force-stop com.ss.android.ugc.aweme') # 启动抖音 log(u'启动抖音.') device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity') time.sleep(5) # 暂停视频播放 log(u'点击屏幕,暂停视频播放.') device.touch(514, 1048) search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/amj') log(u'点击搜索按钮,跳转到搜索页面.') # 点击搜索输入框 search_input = vc.findViewById('com.ss.android.ugc.aweme:id/ad_') if search_input: log(u'点击搜索框,准备输入关键词.') search_input.touch() # 输入抖音ID log(u'输入搜索关键词: {}.'.format(douyin_id)) device.type(douyin_id.encode('UTF-8')) search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/cp8') log(u'提交搜索.') ## 切换到用户 #user_tab = vc.findViewWithText(u'用户') #user_tab.touch() # 找到匹配的 matches = [] def find_matches(view): if view.getClass() == 'android.widget.TextView': text = view.getText() if douyin_id.lower() in text.lower(): # 找到匹配的了 log(u'找到匹配的: {}'.format(text)) matches.append(view) #print text pass vc.traverse(transform=lambda view: find_matches(view)) if matches: # 有没有已关注按钮 btn = vc.findViewWithText(u'已关注') if btn: # 先取消关注 log(u'之前关注过,先取消关注.') btn.touch() user_matched = matches[0] log(u'点击进入个人主页.') user_matched.touch() # 点关注 follow_btn = vc.findViewById('com.ss.android.ugc.aweme:id/aei') if follow_btn: # 点击关注 log(u'点击关注') follow_btn.touch() viewmore_btn = vc.findViewById('com.ss.android.ugc.aweme:id/bqn') if viewmore_btn: log(u'点击查看更多系统推荐') viewmore_btn.touch() i = 0 while True: # 上滑动 device.drag((345, 1762), (345, 550), duration=100) log(u'上滑以加载更多') i += 1 if i % 5 == 0: # 拖动10次判断一下是否还有更多 if vc.findViewWithText(u'暂时没有更多了'): log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id)) # 采集成功了 return True failed_tip = vc.findViewWithText(u'加载失败,点击重试') if failed_tip: log(u'加载失败,点击重试.') failed_tip.touch() # 没有找到查看更多按钮 log(u'没有找到查看更多按钮') # 没有找到加关注按钮 log(u'没有找到加关注按钮') # 没有找到匹配的用户 log(u'没有找到匹配的用户') # 没有找到搜索提交按钮 log(u'没有找到搜索提交按钮.') # 没有找到搜索输入框 log(u'没有找到搜索输入框.') # 没有找到搜索按钮 log(u'没有找到搜索按钮.')
    以上就是本篇文章【如何采集抖音的数据,视频数据采集教程】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.tongchengxian.cn/news/68.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 通成线资讯移动站 http://zleialh.tongchengxian.cn/mobile/ , 查看更多   
最新新闻
学生暑假计划
  【实用】学生暑假计划  时间就如同白驹过隙般的流逝,我们的工作又迈入新的阶段,是时候开始写计划了。计划到底怎么拟定才
“火” 2018年度百度最具有影响力的女演员出榜啦!
大家看看是不是心里期待的榜单!第一名赵丽颖赵丽颖,1987年10月16日生于河北省廊坊市,国内影视女演员。2006年,因获得雅虎搜星
【强国青年说·2024】全国青年岗位能手怎样炼成?
(点击图片观看视频)全国青年岗位能手如何炼成?怎样从“世界冠军”成长为最年轻的“上海工匠”?靠技术吃饭也能成才吗?如何不
你关心的内容,这个 App 都知道:今日热榜
许多人都尝试过制定一套基于自己标准的信息筛选机制,从即刻 App 到自定规则的 RSS 订阅,我们可以找到无数种筛选信息的方法
「知乎运营攻略」品牌方如何正确运营知乎
不久前,我写了一篇文章,提到了一些关于知乎运营的知识。今天,我将谈谈我对知乎运营的一些想法。未来,每个公司和品牌都需要做
一文读懂儿童青少年体适能周期性训练计划制定方法
  周期化训练计划的制订是基于几个不同层级的计划。这些计划的设定必须符合运动员发展的总体目标,并考虑青少年运动员在不同阶
小学生跨学科项目主题方案
  小学生跨学科项目主题方案范文(精选12篇)  为了确保工作或事情顺利进行,通常需要预先制定一份完整的方案,方案的内容和
常用的方法:最常用的几个SEO工具
  常用的方法:最常用的几个SEO工具  作为站长,了解和熟悉seo优化和推广工作中需要的seo工具更有利于seo工作,通过关键词数
怎么管理网站的友情链接?增加外链的途径和注意事项总结
  这两天与大家分享的都是关于网站外链的一些优化策略,对于外链的优化很多人都说其价值已经远远不如以前了,甚至有的人说外链
抖音粉丝黑科技软件(抖音粉丝黑科技软件下载安装)
什么是抖音黑科技(支点科技)?抖音黑科技(支点科技)真的有那么神奇吗?今天一文带大家来揭秘,神秘的抖音黑科技(支点科技)
本企业新闻