本文目录一览:
超级战舰里的三艘舰船叫什么名字???
约翰.保罗.琼斯号
桑普森号
妙高号
前两个是美国阿利博克级驱逐舰,那艘日本的则是仿照阿利博克级生产的。
阿利博克级驱逐舰的配备导弹发射装置:MK41-0型(首)和MK41-1型(尾)垂直发射系统各1组。1型为64单元,备弹61枚,0型为32单元,备弹29枚。从DDG59开始改为MK41-2型。导弹:“标准”-2(Ⅳ)型舰空导弹,垂直发射,从Ⅱ型开始改为“标准”-2增程舰空导弹,ⅡA型从3号舰装LASM激光半主动导弹;“战斧”巡航导弹,垂直发射;“鱼叉”反舰导弹(2座四联装);“阿斯洛克”反潜导弹(垂直发射)。舰炮:1座 MK45-2型 127 mm/54舰炮,2000年起可能装127mm/62舰炮,发射增程制导炮弹,由GPS制导。ⅡA型舰从3号舰开始装MK45-4型127mm/62舰炮,2座 MK15型六管20mm“密集阵”近程武器系统,正在装红外探测器,用来跟踪小艇(ⅡA型从第5艘开始以垂直发射的具有反导能力的“海麻雀”导弹取代之)。鱼雷:2座三联MK32型鱼雷发射管,发射MK46-5或MK50型鱼雷,备雷24枚。直升飞机:仅设SH-60B/F“海鹰”直升机降落平台和加油设施ⅡA型:设2个直升机库和直升机安全回收与搬运系统。
电线的型号与平方换算关系是什么?
英国线规(BWG或SWG),其中,BWG也称为伯明翰线规,SWG为英国标准线规,与美国线规AWG是不一样的。按照你所说的6平方电线要说成8号电线,好像应该按照美国线规AWG,实际上AWG8#线的截面是8.367mm^2。下面列出国标截面与三种线规的参考对照:\x0d\x0a1mm^2:BWG——19或18#;SWG——19或18# ;(AWG ——17#)\x0d\x0a1.5mm^2:BWG——18或17#;SWG——18或17#;(AWG ——16或15#)\x0d\x0a2.5mm^2:BWG——16或15#;SWG——16或15#;(AWG ——13#)\x0d\x0a4mm^2:BWG——14或13#;SWG——13#;(AWG ——11#)\x0d\x0a6mm^2:BWG——12#;SWG——12#;(AWG ——10或9#)\x0d\x0a10mm^2:BWG——10或9#;SWG——9#;(AWG ——7#)\x0d\x0a16mm^2:BWG——7#;SWG——7#;(AWG ——5#)\x0d\x0a25mm^2:BWG——6或5#;SWG——5或4#;(AWG ——3#)\x0d\x0a50mm^2:BWG——1#;SWG——1或0#;(AWG ——0#)\x0d\x0a你要确认一下到底采用的是那种线规,希望对你的工作有帮助!
文件后缀名
后缀名也称扩展名,就是文件名中的那个“.”后面的字符,在DOS下(FAT16)文件名规定为11个字符,即8.3格式,也就是文件名长度为8字符(英文),扩展名长度为3字符,在Windows系统中文件名长度及扩展名则不作规定,由于windows中允许使用“.”作为文件名字符,所以在最后一个“.”后面的字符串才是文件的真正扩展名。Windows和DOS把扩展名作为识别文件类型的重要依据.
常见的文件后缀名:
ACA Microsoft的代理使用的角色文档
acf 系统管理配置
acm 音频压缩管理驱动程序,为Windows系统提供各种声音格式的编码和解码功能
aif 声音文件,支持压缩,可以使用WindowsMediaPlayer和QuickTimePlayer播放
AIF 音频文件,使用WindowsMediaPlayer播放
AIFC 音频文件,使用WindowsMediaPlayer播放
AIFF 音频文件,使用WindowsMediaPlayer播放
ani 动画光标文件扩展名,例如动画沙漏。
ans ASCII字符图形动画文件
arc 一种较早的压缩文件,可以使用WinZip,WinRAR,PKARC等软件打开
arj 压缩文件。可以使用WinZip,WinRAR,PKARC等软件打开
asf 微软的媒体播放器支持的视频流,可以使用WindowsMediaPlayer播放
asp 微软的视频流文件,可以使用WindowsMediaPlayer打开
asp 微软提出的ActiveServerPage,是服务器端脚本,常用于大型网站开发,支持数据库连接,类似PHP。可以使用VisualInterDev编写,是
目前的大热门
asx WindowsMedia媒体文件的快捷方式
au 是Internet中常用的声音文件格式,多由Sun工作站创建,可使用软件WaveformHoldandModify播放。NetscapeNavigator中的LiveAudio
也可以播放.au文件
avi 一种使用MicrosoftRIFF规范的Windows多媒体文件格式,用于存储声音和移动的图片
bak 备份文件,一般是被自动或是通过命令创建的辅助文件,它包含某个文件的最近一个版本,并且具有于该文件相同的文件名
bas Basic语言源程序文件,可编译成可执行文件,目前使用Basic开发系统的是VisualBasic
bat 批处理文件,在MS-DOS中,.bat文件是可执行文件,有一系列命令构成,其中可以包含对其他程序的调用
bbs 电子告示板系统文章信息文件
bfc Windows的公文包文件
bin 二进制文件,其用途依系统或应用而定
bmp Bitmap位图文件,这是微软公司开发Paint的自身格式,可以被多种Windows和WindowsNT平台及许多应用程序支持,支持32位颜色,用
于为Windows界面创建图标的资源文件格式。
c C语言源程序文件,在C语言编译程序下编译使用
cab Microsoft制订的压缩包格式,常用于软件的安装程序,使用Windows自带的实用程序,Extract.exe可以对其解压缩,WinZip,WinRAR等
都支持这种格式
cal Windows中的日历文件
cdf InternetExplorer的频道文件
cdr CorelDraw中的一种图形文件格式,它是所有CorelDraw应用程序中均能够使用的一种图形图像文件格式
cdx 索引文件,存在于Dbase,Foxbase,Foxpro系统软件环境下
cfc 配置文件,系统或应用软件用于进行配置自己功能,特性的文件
chm 编译过后的HTML文件,常用于制作帮助文件和电子文档
clp 在Windows下剪贴板中的文件格式
cmd 用于WindowsNT/2000的批处理文件,其实与BAT文件功能相同,只是为了与DOS/Windows9x下的BAT有所区别
cmf 声卡标准的音乐文件,FM合成器等可以回放
cnf NetMeetting会议连接文件
cnt 联机帮助文件目录索引文件,通常和同名的.hlp文件一起保存
col 由AutodeskAnimator,AutodeskAnimatorPor等程序创建的一种调色板文件格式,其中存储的是调色板中各种项目的RGB值
com DOS可执行命令文件,一般小于64KB
cpl 控制面板扩展文件,Windows操作系统使用
cpp C++语言源程序,非常强大的语言,在各种平台中都有相应的开发系统
crd Windows中的卡片文件
crt 用于安全方面的证书认证文件
cur Windows下的光标资源文件格式,可用光标编辑软件编辑
css Text/css文件
dat 数据文件,在应用程序中使用
dat VCD中的图象声音文件,VCD播放软件可调用,或是通过VCD机播放
dbf 数据库文件,Foxbase,Dbase,VisualFoxPro,等数据库处理系统所产生的数据库文件
dcx 传真浏览文档文件
ddi 映象文件,DUP,HD,IMG等工具可展开
dev 设备驱动程序
dib 设备无关位图文件,这是一种文件格式,其目的是为了保证用某个应用程序创建的位图图形可以被其它应用程序装载或显示一样
dir 目录文件
dll Windows动态连接库,几乎无处不在,但有时由于不同版本DLL冲突会造成败各种各样的问踢
doc 是目前市场占有率最高的办公室软件MicrosoftOffice中的字处理软件Word创建的文档
dos Windows保留的MS-DOS的某些系统文件
dot MicrosoftWord的文档模板文件,通过模板可以简化一些常用格式文档的创建工作,而且可以内嵌VBA程序来实现某些自动化功能
drv 设备驱动程序文件,用在各种系统中
dwg AutoCAD的图纸文件,也是许多绘图软件都支持的格式,常用于共享数据
dxb AutoCAD创建的一中图形文件格式
dxf 图形交换格式,一种计算机辅助设计的文件格式,最初开发用来与AutoCAD一起使用,以便于图形文件在应用程序之间的传递,它以ASCI
I方式储存图形,在表现图形的大小方面十分精确
der Certiticate文件
dic Txt文件
emf 由Microsoft公司开发的Windows32位扩展图元文件格式,其总体设计目标是要弥补在MicrosoftWindows3.1(Win16)中用的*.wmf文件格
式的不足,使得图元文件更加易于使用
eps 用PostScript语言描述的一种图形文件格式,以文本文件保存,在PostScript图形打印机上能打印出高品质的图形图象,最高能表示32
位图形图象
err 编译错误文件,存在于Dbase,Foxbase,Foxpro系列软件环境下
exe 可执行文件,虽然后缀名相同,但具有不同的格式和版本
exp 3DS使用的显示卡驱动程序
exc Txt文件
flc AutodeskAnimator和Animatorpro的动画文件,支持256色,最大的图象象索是64000*64000,支持压缩,广泛用于动画图形中的动画序列
,计算机辅助设计和计算机游戏应用程序
fnd 保存的搜索结果
fon 点阵字库文件
for Fortran语言程序
fot 指向字体的快捷键
fp 配置文件,存在于Dbase,Foxbase,Foxpro系列软件的环境下
fpt 备注字段文件,存在于Dbase,Foxbase,Foxpro系列软件的环境下
frt 报表文件,存在于Dbase,Foxbase,Foxpro系列软件的环境下
frx 报表文件,存在于Dbase,Foxbase,Foxpro系列软件的环境下
fxp 编译后的程序,存在于Dbase,Foxbase,Foxpro系列软件的环境下
gif 在各种平台的各种图形处理软件上均能够处理的,经过压缩的一种图形文件格式
grh 方正公司的图象排版文件
grp Windows下的程序管理器产生的组窗口文件
goc Gocserve
gra MSGraph.Chart.5
h C语言源程序头文件
hlp Windows应用程序帮助文件
hqx Macintosh中使用BinHex将二进制文件编码为7位的文本文件,大多数Macintosh文件皆以.hqx出现(.bin极少使用),在Macintosh中,可
使用StuffItExpander对.hqx解码,在Windows中可使用BinHex13解码
ht 超级终端
htm 保存超文本描述语言的文本文件,用于描述各种各样的网页,使用各种浏览器打开
html 同.htm文件
icm 图象配色描述文件
ico Windows中的图标文件,可以包含同一个图标的多种格式,使用图标编辑软件创建
idf MIDI乐器定义
idx 索引文件,存在于Dbase,Foxbase,Foxpro系列软件的环境下
iff 文件交换格式文件,这种文件格式多用于Amiga平台,在这种平台上它几乎可以存储各种类型的数据,在其它平台上,IFF文件格式多用
于存储图象和声音文件
image MAcintosh磁盘映象文件,常见于萍果机的FTP网点,在Macintosh中由ShrinkWrap处理
ime Windows下的输入法文件
img 磁盘映象文件,用HD-COPY,WinImage等工具打开后可以恢复到一张磁盘上
inc 汇编语言包含文件,类似C/C++中的.H文件
inf Windows下的软件安装信息,Windows的标准安装程序根据此文件内的安装信息对软件,驱动程序等进行安装
ini Windows中的初始化信息文件,已经用的不多了,新的应用程序将设置保存在系统的注册表中
jar 一种压缩文件,ARJ的新版本,不过不太流行,可以使用WinJar,Winrar等打开
jpeg 一种图片压缩文件,同.jpg
jpg 静态图象专家组制订的静态图象压缩标准,具有很高的压缩比,使用非常广泛,可使用PhotoShop等图象处理软件创建
lnk 快捷方式,这个文件指向另一个文件,开始菜单的程序文件夹下每条项目都是一个LNK文件
log 日志文件,通常用来记录一些事件之类
lzh 一种古老的压缩文件,可以使用WinRAR打开
mac Macintosh中使用的一中灰度图形文件格式,在MacintoshPaintbrush中使用,其分辨率只能是720*567
mag 图形文件格式
mdb MicrosoftAccess使用的数据库格式,是非常流行的桌面数据库
men 内存应用文件,存在于Dbase,Foxbase,Foxpro系列软件的环境下
mid 音频压缩文件,曾经非常流行,不过在现在的软件中用的很少了
mif MIDI乐器
mov 使用Apple'sQuickTime格式的电影文件,在Macintosh中由Sparkle,FastPlayer,MoviePlayer等软件播放,在Windows中可由Quicktime
播放
movie QuickTime或苹果机的影视格式,在Macintosh中由Sparkle,FastPlayer,MoviePlayer等软件播放,在Windows中可由QuickTime播放
mp3 采用MPEG-1Layout3标准压缩的音频文件,是网上主要的压缩音频文件,这种文件由于具有极高的压缩率和失真低的特点,是目前音乐
盗版的主要文件格式,但目前受到VQF,WMA等新标准的挑战
mpg 采用MPEG-1标准压缩的视频文件,与VCD使用的格式非常相近,提供CD质量的音频信号和320*240的视频分辩率,目前的媒体播放软件大
都能播放,Microsoft的WMV8和MPEG-4压缩的AVI文件是其强大的竞争对手
mpt Macintosh中使用的一种图形文件格式
msg Microsoft邮件文档
obj 对象代码
ovl 由于软件功能多,内存偏小,不能一次性全部调入内存的可执行文件可能有同文件名的ovl文件
pcd 位图文件,由EastmanKodak开发,被所有的平台所支持,PCD支持24位颜色,最大的图象像索是2048*3072,用于在CD-ROM上保存图片
pcs 动画文件,是Macromedia开发的动画文件格式,为Macintosh应用程序使用,支持压缩,支持256色,用于保存动画数据,是QuickTime的
前身
pcx 图像文件,PCX格式是ZSOFT公司在开发图像处理软件Paintbrush是开发的一种格式,这是一种经过压缩的格式,占用磁盘空间较少
pdf 图文多媒体文件,Adobe公司定义的电子印刷品文件格式,它是一种事实上的标准,在Internet网上的很多电子印刷品,都是.pdf格式
的
psd 是PhotoShop中使用的一种标准图形文件格式,能够保存图像数据的每一个细小部分,包括层,附加的蒙版通道以及其他内容
pwl Windows下的口令文件
qt Machintosh的QuickTime影视格式,在Macintosh中由Sparkle,FastPlayer,MoviePlayer等软件播放,在Windows中可由Quicktime播放
qtm 动画文件,这种文件格式是由Apple计算机公司开发,被AppleMacintosh和MicrosoftWindows平台所支持,支持25位颜色,最大图像分
辩率是64000*64000,支持压缩,用于保存音频和运动视频信息
rec Windows下的记录器宏文件
reg Windows95/98的系统及应用程序注册文件,这种文件虽然以纯文本文件保存,但一样存在版本问题,不同的操作系统使用的REG文件版
本是不同的
rle 一种压缩过的位图文件格式,RLE压缩方案是一种极其成熟的压缩方案,特点是无损失压缩,既节省了磁盘空间又不损失任何图像数据
,但在打开这种压缩文件时,要花费更多时间,此外,一些兼容性不太好的应用程序可能会搭不开
rm Windows下的RealPlayer所支持的视频压缩文件,网上非常流行的流式视频文件,很多实时视频新闻等都是采用这种格式的,不过,最新
的WindowsMediaVideoV8已经对其发起了强大的攻势
rmi MIDI音序文件
rtf 丰富文本格式文件,以纯文本描述内容,能够保存各种格式信息,可以用写字版,Word等创建
sav 存档文件
scp 用于Windows系统中Internet拨号用户,自动拨号登录用的脚本文件,可避免手动登录时繁琐的键盘输入
scr 屏障保护文件
sct 屏幕文件
scx 屏幕文件
set Microsoft备份集文件,用于保存要备份的内容,设置等信息
shb 指向一个文档的快捷方式
snd Mac声音文件,Apple计算机公司开发的声音文件格式,被Macintosh平台和多种Macintosh应用程序所支持,支持某些压缩
sql 查询文件,在Dbase,Foxbase,Foxpro系列软件的环境下使用
svg SVG可以算是目前最火热的图像文件格式了,它是基于XML由WorldWideWebConsortium联盟开发的,SVG是可缩放的矢量图形
svx Amiga声音文件,Commodore所开发的声音文件格式,被Amiga平台和应用程序所支持,不支持压缩
swf flash是Micromedia公司的产品,严格说它是一种动画编辑软件,实际上它是制作出一种后缀名为.swf的动画,这种格式的动画能用比
较小的体积来表现丰富的多媒体形式,并且还可以与HTML文件达到一种"水乳交融"的境界
swg 虚拟内存交换文件,由操作系统使用
sys 系统文件,驱动程序等,在不同的操作系统中有不同的定义
tbk 临时数据库文件,在Dbase,Foxbase,Foxpro系列软件的环境下使用
tga 图像文件,此文件格式的结构比较简单,属于一种图形,图像数据的通用格式,在多媒体领域有着很大影响,是计算机生成图像向电视
转换的一种首选格式
tiff 图像文件,此图像格式复杂,存储内容多,占用存储空间大,其大小是GIF图像的3倍,是相应的JPEG图像的10倍,最早流行于Macinto
sh,现在Windows主流的图像应用程序都支持此格式
tmp 临时文件,一般是系统和应用程序产生的临时使用的文件,当系统和应用程序退出时,会自动地删除其建立的临时文件,如果是非正常
退出,临时文件可能保留在磁盘上,在单任务系统下,可立即删除它们,在多任务系统下,应删除那些不是正在使用的临时文件
txt 文本文件
url InternetShortcut(internet上URL地址的快捷方式)
vcd 虚拟光驱工具制作的光盘镜像文件
ver 版本描述,用于描述某个软件的版本信息的文件,内容因软件而异
voc 声音文件,此文件格式由CreativeLabs公司开发,被Windows和DOS平台所支持,支持压缩
vxd 虚拟设备驱动程序,在Windows操作系统中非常常见,是重要的系统文件
wab 通信簿文件,由系统中的通信簿程序使用
wav 音频文件,此文件格式是在Windows上用于保存音频信息的资源格式,Windows中由WaveformHoldandModify或Navigator,或"媒体播放
机"播放,存在许多编码方式,需要相应的解码程序才能播放
win 窗口文件,在Dbase,Foxbase,Foxpro系列软件的环境下使用
wmf MicrosoftWindows中常见的一种图元文件格式,它具有文件短小,图案造型化的特点,整个图形常由各个独立的组成部分拼接而成,但
其图形往往较粗糙,并且只能在MicrosoftOffice中调用编辑
wpc 写字板文档转换
wps Wps文本文件,有多种版本,可以使用WpsOffice,Wps2000等打开
wri Windows写字板文档
xab Microsoft邮件地址簿
xbm AnimatorPro创建的一种图形文件格式,其中包含用来描述多边形的一系列点的信息
zip 是DOS/Windows中最常见文件压缩格式,也是互联网上的标准压缩格式,可以包含路径和多个文件
python怎么爬取简书用户名
初步的思路
今天在用Scrapy写代码的时候,对网页的结构也有了大致的分析,再加上之前罗罗攀的思路,初步我是通过专题入口
热门专题
image.png
image.png
专题管理员 (一般粉丝、文章、字数、收获喜欢、这几项数据都非常漂亮)
image.png
image.png
以上红框里的数据项就是我需要爬取的字段
但是以上的思路存在一点的问题:
存在一些简书用户并不是一些热门专题的管理员,但是其人气粉丝量也很高,这个思路可能无法将这些用户爬取下来
进阶的思路
热门专题
专题关注的人
专题关注的人的动态
推荐作者 粉丝信息
image.png
image.png
image.png
优点:
数据大而全,基本包含了99%的用户(个人猜测,不严谨)
缺点:
因为许多用户不止关注一个专题,而且其中包含了大量的新注册用户(数据很多为空),并且也有大量重复数据需要去重
代码部分:
jianshu.py 还在调试阶段,待更新...
# -*- coding: utf-8 -*-
import sys
import json
import requests
import scrapy
import re
from lxml import etree
from scrapy.http import Request
reload(sys)
sys.path.append('..')
sys.setdefaultencoding('utf-8')
class jianshu(scrapy.Spider):
name = 'jianshu'
# topic_category = ['city']
topic_category = ['recommend', 'hot', 'city']
base_url = 'lections?page=%sorder_by=%s'
cookies={
'UM_distinctid': '15b89d53a930-02ab95f11ccae2-51462d15-1aeaa0-15b89d53a9489b',
'CNZZDATA1258679142': '1544557204-1492664886-%7C1493280769',
'_session_id': 'Q3RteU9BeTA3UVh1bHp1d24ydmZJaGdkRDZJblE3SWg3dTlNR2J1WmJ5NS9HNlpOZVg4ZUk0TnNObE5wYXc3SjhYcU5WR0NKZ3RhcE9veFVDU2RNWkpqNE44MWxuVmtoR1ZDVXBFQ29Kc1kzZmd4SVNZakJyWVN4c1RFQXZNTFhmUUtxemVDVWlVU1l3VW92NFpTeEE2Q0ppUVN0QVFEMUpLZjFHdHViR21zZko2b1lFTW9DR08yNDh5Z0pvd0VJRzc4aFBqRnZYbGt6QXlmSzMxdU1QTVFwUVcxdUViaElqZzh2Y1RwcENtSWxWbW5PMUVGZ2UrZ2xVcm1NTlpMK2x2UTdOWlZjUVNPK1dCTERpMnd6U3ZxbXlROENML2VseTRHUTBqbFE1ZUlqN1FqazJJK0tsV1htdEt1bnl5MkhCbHNJTmh1ejFLTW9pYVcrVmx0bit1blNXV1VCQ3JNbHAvK1Z5T1ZvUk5IMVMzR1dUNHBlWFZBamcwYjQxSzBjZVRvMGRZSDRmV0xtTGZHekF1M3V6dGcwMHhpQ24zdmVKelV5eDRFSWZ4QT0tLW1uSXNLakp6SW54SUo0QU16a2dFSkE9PQ%3D%3D--0849c37208f8c573960d857029c7d6a15145c419',
'remember_user_token':'W1szNDgxMjU3XSwiJDJhJDEwJDlSS3VLcFFWMlZzNFJuOFFNS1JQR3UiLCIxNDk0MjEzNDQ3LjYwODEwNzgiXQ%3D%3D--9241542a4e44d55acaf8736a1d57dd0e96ad4e7a',
'_ga': 'GA1.2.2016948485.1492666105',
'_gid': 'GA1.2.382495.1494550475',
'Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068': '1494550475',
'Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068': '1494213432,1494213612,1494321303,1494387194'
}
headers = {
'Accept-Encoding': 'gzip, deflate, sdch',
'Accept - Language': 'zh - CN, zh;q = 0.8',
'Connection': 'close',
'Cookie': 'UM_distinctid=15b89d53a930-02ab95f11ccae2-51462d15-1aeaa0-15b89d53a9489b; CNZZDATA1258679142=1544557204-1492664886-%7C1493280769; remember_user_token=W1szNDgxMjU3XSwiJDJhJDEwJDlSS3VLcFFWMlZzNFJuOFFNS1JQR3UiLCIxNDk0MjEzNDQ3LjYwODEwNzgiXQ%3D%3D--9241542a4e44d55acaf8736a1d57dd0e96ad4e7a; _ga=GA1.2.2016948485.1492666105; _gid=GA1.2.824702661.1494486429; _gat=1; Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1494213432,1494213612,1494321303,1494387194; Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1494486429; _session_id=czl6dzVOeXdYaEplRVdndGxWWHQzdVBGTll6TVg5ZXFDTTI5cmN2RUsvS2Y2d3l6YlkrazZkZWdVcmZDSjFuM2tpMHpFVHRTcnRUVnAyeXhRSnU5UEdhaGMrNGgyMTRkeEJYOE9ydmZ4N1prN1NyekFibkQ5K0VrT3paUWE1bnlOdzJrRHRrM0Z2N3d3d3hCcFRhTWdWU0lLVGpWWjNRdjArZkx1V2J0bGJHRjZ1RVBvV25TYnBQZmhiYzNzOXE3VWNBc25YSS93WUdsTEJFSHVIck4wbVI5aWJrUXFaMkJYdW41WktJUDl6OVNqZ2k0NWpGL2dhSWx0S2FpNzhHcFZvNGdQY012QlducWgxNVhoUEN0dUpCeUI4bEd3OXhiMEE2WEplRmtaYlR6VTdlZXFsaFFZMU56M2xXcWwwbmlZeWhVb0dXKzhxdEtJaFZKaUxoZVpUZEZPSnBGWmF3anFJaFZpTU9Icm4wcllqUFhWSzFpYWF4bTZmSEZ1QXdwRWs3SHNEYmNZelA4VG5zK0wvR0MwZDdodlhZakZ6OWRVbUFmaE5JMTIwOD0tLXVyVEVSeVdOLy9Cak9nVG0zV0hueVE9PQ%3D%3D--ea401e8c501e7b749d593e1627dbaa88ab4befc2',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36',
'Host':'',
"X-Requested-With": 'XMLHttpRequest'
}
def get_total_page(self):
#获取专题总页数 包含3个字典的列表 [{"hot": xx}, {"recommend":xx}, {"city": xx}]
total_page_list = []
for order in self.topic_category:
order = order.decode('utf-8')
total_page = 100
dict = {}
for page in range(1, total_page):
url = self.base_url % (page, order)
html = requests.get(url, headers=self.headers).content
selector = etree.HTML(html)
#print html
try:
elements = selector.xpath('//*[@id="list-container"]/div[1]/div/h4/a/text()')[0]
if elements is not Exception:
continue
except Exception :
dict['total_page'] = page - 1
dict['category'] = order
break
total_page_list.append(dict)
return total_page_list
def get_topic_info(self):
#获取专题信息
topic_info_list = []
total_page_list = self.get_total_page()
base_url = self.base_url
for dict in total_page_list:
category = dict['category']
total_page = int(dict['total_page'])
for page in range(1, total_page + 1):
url = base_url % (page, category)
html = requests.get(url, headers=self.headers,cookies=self.cookies).content
selector = etree.HTML(html)
topic_href = selector.xpath('//*[@id="list-container"]')[0]
for href in topic_href:
dict = {}
topic_name = href.xpath('./div/h4/a/text()')[0]
topic_url = "" + href.xpath('./div/h4/a/@href')[0]
topic_img_url = href.xpath('./div/a/img/@src')[0]
img_num = topic_img_url.split("/")[5]
dict['topic_name'] = topic_name
dict['topic_url'] = topic_url
#
dict['img_num'] = img_num
topic_info_list.append(dict)
return topic_info_list
def get_topic_admin_info(self):
#获取管理员信息
topic_admin_info_list = []
topic_info_list = self.get_topic_info()
for d in topic_info_list:
img_num = str(d['img_num'])
base_url = "s/editors_and_subscribers" % img_num
base_url_response = requests.get(base_url, headers=self.headers, cookies=self.cookies)
json_data_base = json.loads(base_url_response.text.decode('utf-8'))
editors_total_pages = json_data_base['editors_total_pages']
for page in range(1, int(editors_total_pages) + 1):
if page == 1:
editors = json_data_base['editors']
for editor in editors:
dict = {}
dict['nickname'] = editor['nickname']
dict['slug'] = editor['slug']
topic_admin_info_list.append(dict)
else:
try:
url = "}/editors?page={}".format(img_num, page)
response = requests.get(url,headers=self.headers,cookies=self.cookies)
json_data = json.loads(response.text.decode('utf-8'))
editors = json_data['editors']
for editor in editors:
dict = {}
dict['nickname'] = editor['nickname']
dict['slug'] = editor['slug']
topic_admin_info_list.append(dict)
except Exception:
pass
return topic_admin_info_list
def get_followers_following_list(self):
# 获取管理员粉丝列表
followers_list = []
topic_admin_list = self.get_topic_admin_info()
followers_base_url = "s/%s/followers"
for dict in topic_admin_list:
url = followers_base_url % dict['slug']
headers = self.headers
headers['Referer'] = url
headers['DNT'] = '1'
response = requests.get(url, headers=headers, cookies=self.cookies).content
total_followers = re.fi