鱼C论坛

 找回密码
 立即注册
查看: 608|回复: 6

[已解决]爬取的数据带有换行符

[复制链接]
发表于 2020-4-2 17:50:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
从网上爬取的数据,里面带换行符,没法排版出去,求大佬解答下
最佳答案
2020-4-2 17:58:45
  1. import requests
  2. import bs4
  3. from bs4 import BeautifulSoup

  4. r = requests.get('https://yanyu.huijiwiki.com/wiki/伙伴成长以及加点属性排行一览')
  5. r.encoding = r.apparent_encoding
  6. html = r.text
  7. soup = BeautifulSoup(html, "html.parser")
  8. table = soup.find('table').children
  9. ulist = []

  10. for tr in table:
  11.     if isinstance(tr, bs4.element.Tag):
  12.         td = tr('td')
  13.         if not td:
  14.             continue
  15.         ulist.append([td[0].string, td[1].string, td[2].string, td[3].string])

  16. print(*(" ".join(j[:-1] for j in i) for i in ulist), sep="\n")
复制代码
fc28604af06a0dc631f14adb92b3358.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-2 17:51:53 | 显示全部楼层
发代码,不要只贴张图
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-2 17:53:02 | 显示全部楼层
zltzlt 发表于 2020-4-2 17:51
发代码,不要只贴张图

import requests
import bs4
from bs4 import BeautifulSoup

r = requests.get('https://yanyu.huijiwiki.com/wiki/伙伴成长以及加点属性排行一览')
r.encoding = r.apparent_encoding
html = r.text
soup = BeautifulSoup(html,"html.parser")
table = soup.find('table').children
ulist = []

for tr in table:
    if isinstance(tr,bs4.element.Tag):
        td = tr('td')
        if td ==[]:
            continue
        ulist.append([td[0].string,td[1].string,td[2].string,td[3].string])
      
print(ulist)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-2 17:54:18 | 显示全部楼层
这样可以吗:

  1. import requests
  2. import bs4
  3. from bs4 import BeautifulSoup

  4. r = requests.get('https://yanyu.huijiwiki.com/wiki/伙伴成长以及加点属性排行一览')
  5. r.encoding = r.apparent_encoding
  6. html = r.text
  7. soup = BeautifulSoup(html, "html.parser")
  8. table = soup.find('table').children
  9. ulist = []

  10. for tr in table:
  11.     if isinstance(tr, bs4.element.Tag):
  12.         td = tr('td')
  13.         if not td:
  14.             continue
  15.         ulist.append([td[0].string, td[1].string, td[2].string, td[3].string])

  16. print(*("".join(i) for i in ulist), sep="\n")
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-2 17:56:16 | 显示全部楼层

不行,还是就一列下来,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-2 17:58:45 | 显示全部楼层    本楼为最佳答案   
  1. import requests
  2. import bs4
  3. from bs4 import BeautifulSoup

  4. r = requests.get('https://yanyu.huijiwiki.com/wiki/伙伴成长以及加点属性排行一览')
  5. r.encoding = r.apparent_encoding
  6. html = r.text
  7. soup = BeautifulSoup(html, "html.parser")
  8. table = soup.find('table').children
  9. ulist = []

  10. for tr in table:
  11.     if isinstance(tr, bs4.element.Tag):
  12.         td = tr('td')
  13.         if not td:
  14.             continue
  15.         ulist.append([td[0].string, td[1].string, td[2].string, td[3].string])

  16. print(*(" ".join(j[:-1] for j in i) for i in ulist), sep="\n")
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-2 18:00:16 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 16:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表