鱼C论坛

 找回密码
 立即注册
查看: 2234|回复: 4

我刚学的爬虫,怎么把print的字典弄到一个txt里?我想要把这个txt发给别人。求助。

[复制链接]
发表于 2017-12-7 15:26:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x

  1. from bs4 import BeautifulSoup
  2. import requests
  3. import time
  4. import sys
  5. url = 'http://www.chinaseed114.com/seed/pzdq/'
  6. r = requests.get(url)
  7. r.encoding = r.apparent_encoding
  8. soup = BeautifulSoup(r.text,'lxml')
  9. def get_url(url):
  10.     url1=[]
  11.     urls=soup.select('tr > td > a')
  12.     for url in urls:
  13.         url1.append(url.get('href'))
  14.     return url1
  15. def get_single_url(url):
  16.     c=[]
  17.     urls =[str(url)+'{}.html'.format(str(i)) for i in range(1,80,1)]
  18.     for single_url in urls:
  19.         c.extend(get_detail_name(single_url))
  20.     return c   
  21. def get_detail_name(url):
  22.     try:
  23.         a=[]
  24.         r = requests.get(url,timeout=8)
  25.         r.encoding = r.apparent_encoding
  26.         soup = BeautifulSoup(r.text,'lxml')
  27.         if 'miaomu' in url:
  28.             return(get_miaomu_name(url))
  29.         else:
  30.             names=soup.select('tr > td > ul > li.t_c > a.px14')
  31.             for name in names:
  32.                 a.append(name.get_text())
  33.             return a
  34.    
  35.     except:
  36.         pass
  37.    
  38. def get_miaomu_name(url):
  39.     b=[]
  40.     r = requests.get(url)
  41.     r.encoding = r.apparent_encoding
  42.     soup = BeautifulSoup(r.text,'lxml')
  43.     names1=soup.select('ul > li.catlist_li > a')
  44.     for name1 in names1:
  45.         b.append(name1.get_text())
  46.     return b   
  47. def get_item_info(url):
  48.     names=soup.select('tr > td > a')
  49.     urls=get_url(url)
  50.     for name,url1 in zip(names,urls):
  51.         r = requests.get(url1)
  52.         r.encoding = r.apparent_encoding
  53.         soup1 = BeautifulSoup(r.text,'lxml')
  54.         data={
  55.             '品种':name.get_text(),
  56.             '详细':get_single_url(url1)
  57.             }                                               #这是一个字典。
  58.         print(data)                                    #print在这里,怎么把字典弄到一个txt里?
  59. get_item_info(url)
复制代码

代码内容并不重要。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-12-7 15:56:31 | 显示全部楼层
打开一个文件,循环写入即可:
  1. with open("test.txt",'w') as f:
  2.         for key,value in data.items():
  3.                 temp = str(key) + ' : ' + str(value) + '\n'
  4.                 f.writelines(temp)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-12-7 16:02:50 | 显示全部楼层
BngThea 发表于 2017-12-7 15:56
打开一个文件,循环写入即可:


报错了
UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd' in position 0: illegal multibyte sequence
我打开txt只有一小部分的内容
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-7 16:28:47 | 显示全部楼层
密发小和尚 发表于 2017-12-7 16:02
报错了
UnicodeEncodeError: 'gbk' codec can't encode character '%ufffd' in position 0: illegal m ...

统一一下你的数据编码格式
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-12-7 16:46:12 | 显示全部楼层
BngThea 发表于 2017-12-7 16:28
统一一下你的数据编码格式

怎么做?求教
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-26 10:11

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表