鱼C论坛

 找回密码
 立即注册
查看: 1416|回复: 0

[技术交流] 第 53 讲 论一只爬虫的自我修养

[复制链接]
发表于 2018-5-2 06:34:47 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. 测试题:
  2. 0.
  3. url是统一资源定位符,uniform resource locator
  4. URI标志互联网资源,URL标志互联网资源的地址,URL是URI的子类.
  5. 1.
  6. 自动获取网页信息的程序

  7. 2.
  8. 设计的算法真正爬去和用户搜索相关度高的
  9. 不要重复爬取URL,否则会无线递归.
  10. 3.
  11. (静态)
  12. 1.header反爬

  13. 2.用户行为反爬:
  14.   1. 用代理ip
  15.   2. 降低请求频率

  16. (动态)
  17. 3.用户页面的加载方式反爬
  18. 动态页面反爬

  19. (进一步)
  20.   1. cookie反爬
  21.   2. 验证码反爬
  22.   3. Noscript

  23. 网站根目录建立robots.txt,里面表明内容,说明这些地方不想被爬取.对非法爬虫无效.

  24. 4.
  25. 类类型
  26. HTTTPResponse的实例对象

  27. 5.
  28. urllib.error.HTTPError: HTTP Error 502: Bad Gateway

  29. 6.
  30. utf-8 审查元素

  31. 7.
  32. unicode

  33. 动动手:
  34. 0.
  35. urllib.error.HTTPError: HTTP Error 502: Bad Gateway

  36. 1.
  37. import urllib.request as r

  38. url = 'http://www.' + input('请输入URL:')

  39. def findcharset(url):
  40.     response = r.urlopen(url)
  41.     html = (response.read()).decode()
  42.     start = html.find('<meta charset="')
  43.     end = start
  44.     while html[end] != '>':
  45.         end +=1
  46.     return html[start+15:end-1]

  47. print('该网页使用的编码是:',findcharset(url))
  48.             
  49. 2.
  50. import urllib.request as r

  51. def get_html(url):
  52.     response = r.urlopen(url)
  53.     html = response.read()
  54. ##    html = html.decode()
  55.     return html

  56. ##print(get_html('http://www.baidu.com'))

  57. def save2file(name,url,file_path = '/Users/yufan/Documents/python编程/52/52dds2/'):
  58.     file_path += name
  59.     with open(file_path,'wb') as f:
  60.         f.write(get_html(url))

  61.    
  62. with open('/Users/yufan/Documents/python编程/52/52dds2/urls.txt') as f:
  63.     txtsort = 1
  64.     for each in f:
  65.         name = 'url_%d.txt' % txtsort
  66.         save2file(name,each)
  67.         txtsort += 1

复制代码

本帖被以下淘专辑推荐:

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-7-1 06:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表