Python爬虫自动下载Discuz论坛附件。

因工作需要,要定期收集卡饭论坛的病毒样本板块的病毒样本,所以就考虑用 Python做个爬虫,然后自动下载附件。

核心功能有3个:

1· 登录
2· 伪造cookie保持session
3. 下载样本

首先,登录就是先抓取登录页面,找到登录表单会post的数据,当然你也可以用firefox的httpfox插件。

需要注意的是,discuz的登录表单里有个hashform字段,是会随时间变的,所以要登录,必须分两个步骤:

1· 先抓取登录页面,找到hashform值

2· 生成post数据,然后登录 登录成功后,服务器端会返回给我们两个cookie字段,我本来是想先解析这些cookie,然后再生成自己的cookie,作为每次post的数据之一。后来发现cookielib可以安装opener,所以你只要用urllib2.urlopen(req)来取代urllib.urlopen(uri),返回的cookie每次就会被保存,并且自动包在每次发送的请求里。

接下来就是解析网页,获得附件的下载地址了。解析网页无非就是正则。没有什么新的技术含量,就不多说了。

下面上代码,给需要类似功能的朋友做参考。代码写的乱,就不要见怪了。 帖子列表,我是从板块的RSS中获得的。

import urllib,urllib2,cookielib,re,datetime

def getPageHtml(uri):
  req = urllib2.Request(uri)
  return urllib2.urlopen(req).read()
  #return urllib.urlopen(uri).read()

def login():
'''登陆论坛

设置cookie,获得formhash,然后提交post数据 '''

#获得formhash
  pattern = re.compile("<input name="\"formhash\"" type="\"hidden\"" value="\"\w*\"" />")
  content = getPageHtml('http://bbs.kafan.cn/logging.php?action=login')
  formhash = pattern.findall(content)
  if (len(formhash) > 0):
    formhash = formhash[0]
    formhash = formhash[-12:-4]

  #cookie
  cookieJar = cookielib.CookieJar()
  cookie_support= urllib2.HTTPCookieProcessor(cookieJar)
  opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
  urllib2.install_opener(opener)

  #login
  postdata=urllib.urlencode({
    'loginfield':'username',
    'username':'用户名',
    'password':'密码',
    'referer':'http://bbs.kafan.cn/',
    'formhash':formhash,
    'questionid':'0',
    'answer':''
  })

  headers = {
    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6',
    'referer':'http://bbs.kafan.cn'
  }

  req = urllib2.Request(
    url = 'http://bbs.kafan.cn/logging.php?action=login&loginsubmit=yes&inajax=1',
    data = postdata,
    headers = headers
  )
  result = urllib2.urlopen(req).read()

def getPages():
  page = getPageHtml('http://bbs.kafan.cn/rss.php?fid=31&auth=0')
  pattern = re.compile(".*viewthread.php.*< \/link>")
  linkArray = pattern.findall(page)
  return linkArray

def getLinks(urls):
#遍历页面
  count = 1
  for url in urls:
    url = url[6:-7]
    print "解析" + url
    pageContent = getPageHtml(url)
    #print pageContent
    pattern = re.compile('<a href="\"attachment\.php\?aid=.*">.*<; \/a>;')
    anchors = pattern.findall(pageContent)
    #遍历下载节点
    for anchor in anchors:
      print anchor
      linkPattern = re.compile('\"attachment\.php\?aid=[a-zA-Z0-9\%&;=\?-_\B]*\"')
      link = linkPattern.findall(anchor)
      link = "http://bbs.kafan.cn/" + link[0][1:-1]
      namePattern = re.compile('>;[^<;>;].*[^<;>;]<;\/')
      name = namePattern.findall(anchor)
      name = name[0][1:-2]
      date = GetDateString()
      time = GetTimeString()
      name = rootpath + date + "\\" + time + "_" + name
      print "下载" + link
      print "至" + name
      count = count + 1
      download(link,name)

def download(url,filename):
  MakeDateFolder(rootpath)
  urllib.urlretrieve(url, filename)

def GetTimeString():
  from datetime import datetime
  todayStr = datetime.today().strftime("%H_%M_%S")
  return todayStr

def GetDateString():
  from datetime import date
  todayStr = date.today().strftime("%Y_%m_%d")
  return todayStr

def MakeDateFolder( inFolderName ):
  import os
  if os.path.isdir( inFolderName ):
    newFolderName = inFolderName + '\\\\' + GetDateString()
    print(newFolderName)
  if os.path.isdir( newFolderName ):
    print(newFolderName," Exists already ")
  else:
    os.mkdir( newFolderName )
    print(newFolderName," Create OK ")

rootpath = 'c:\\kafan\\'
login()
pagelinks = getPages()
attlinks = getLinks(pagelinks)

 

11 thoughts on “Python爬虫自动下载Discuz论坛附件。”

  1. 白菜说,不知道要怎么改才能登陆成功,登陆会跳转到“http://www.kafan.cn/member.php?mod=logging&action=login&mmm=1”

    1. 话说楼主也知道升级了,但是最近也用不到这个程序了,所以也就没改。不过楼主猜想改起来应该不难,抓抓包看看,改动应该不大的说。

  2. 登陆会跳转到“http://www.kafan.cn/member.php?mod=logging&action=login&mmm=1”,楼主要怎么改才能登陆成功

  3. 好贴子,我试图用你的方法下载安卓网的Android App:http://bbs.hiapk.com, 碰到下面的问题请指教

    怎样才能验证登陆的确成功,而且cookie也被放到每一个请求中吗?

    我把login中 result = urllib2.urlopen(req).read()的结果保存下来,在firefox里面打开,的确能看到我的用户名在页面上显示。但是过几秒钟,页面自动刷新,显示的主页上我还是未登陆状态

    后面下载得到的返回页面显示的都是要登陆的信息

    1. 我估计是discuz版本不一样的问题。
      但是我想cookie的伪造方法还是行得通的。你刚才说刷新页面后,仍然显示未登录,我想应该是cookie的问题。你多试几次。
      判断是否登录成功,我一般是先把response回来的网页全部打印出来,先把程序调通。
      anyway,不知道你能不能看到我的回复。这个程序很久前写的了,也不知道我有没有回答你的问题。

  4. wordpress…那我自己應該能搞定了,謝謝提醒,我的mail: df1@qq.com
    有Python3K做的东西,我想做一个到内网查数据的脚本,可刚接触Python,,不会用,

  5. 兄弟,能不能给我MAIL一个你网站的源码,我想搭个类似的网站,,

    1. 白菜兄,你啥信息也不留,我怎么给你……另外,这个就是个wordpress而已。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*