宇宙主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

欧基零壹微头条IP归属甄别会员请立即修改密码
查看: 6225|回复: 32

python3一个简单爬虫程序。。目标站是mm131

  [复制链接]
发表于 2018-2-1 01:04:58 | 显示全部楼层 |阅读模式
本帖最后由 eqblog 于 2018-2-1 01:06 编辑

程序只会爬一个分类 具体原因是懒的再写获取分类了
新手上路,代码很糙,大神勿喷
效果图:

用了requests库,而且是用python3写的
所以 提前安装requests
pip install requests
代码如下:
直链下载:https://eqblog.com/script/base_spider.py
论坛附件: base_spider.zip (965 Bytes, 下载次数: 458)

  1. import requests
  2. import re
  3. import os
  4. def download_pic(b,dir):
  5.     headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36Name','Referer':'http://www.mm131.com'}
  6.     a=1
  7.     while True:
  8.         url='http://img1.mm131.me/pic/'+str(b)+'/'+str(a)+'.jpg'
  9.         req=requests.get(url=url,headers=headers)
  10.         if req.status_code==200:
  11.             with open(str(dir)+'/'+str(a)+'.jpg','wb') as f:
  12.                 f.write(req.content)
  13.                 a=a+1
  14.         else:
  15.             break
  16. flag=1
  17. while True:
  18.     if flag==1:
  19.         get=requests.get('http://www.mm131.com/xinggan/')
  20.         b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
  21.         for a in b:
  22.             getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
  23.             tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
  24.             for t in tittle:
  25.                 if os.path.exists(t)==False:
  26.                     os.makedirs(t)
  27.                     print('开始下载:'+t)
  28.                     download_pic(a,t)
  29.                     print('下载完成')
  30.                 else:
  31.                     print('文件夹已存在,跳过')
  32.         flag=flag+1
  33.         print('这一页的任务已经完成了')
  34.     else:
  35.         get=requests.get('http://www.mm131.com/xinggan/list_6_'+str(flag)+'.html')
  36.         if get.status_code==200:
  37.             b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
  38.             for a in b:
  39.                 getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
  40.                 tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
  41.                 for t in tittle:
  42.                     if os.path.exists(t)==False:
  43.                         os.makedirs(t)
  44.                         print('开始下载:'+t)
  45.                         download_pic(a,t)
  46.                         print('下载完成')
  47.                     else:
  48.                         print('文件夹已存在,跳过')
  49.             flag=flag+1
  50.             print('这一页的任务已经完成了')
  51.         else:
  52.             break
复制代码
发表于 2018-2-1 01:43:38 | 显示全部楼层
支持 爬虫 程序员的第一步...
发表于 2018-2-1 02:21:17 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2018-2-1 02:35:32 | 显示全部楼层
火车头一开。。呜呜叫
 楼主| 发表于 2018-2-1 03:03:26 | 显示全部楼层
ecosway598 发表于 2018-2-1 02:21
爬图片有啥用啊。。?

爬点图片 自己看呗。。。
发表于 2018-2-1 08:21:52 | 显示全部楼层
营养快跟不上了。
发表于 2018-2-1 08:29:01 | 显示全部楼层
楼主把爬好的图片百度网盘分享下吧
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|兜哪儿主机交流论坛

GMT+8, 2024-9-22 23:36 , Processed in 0.067612 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表