请问这个数据怎么解析,有人知道吗
想爬取2016年豆瓣书籍年度榜单中的单月热门书籍,为什么爬取结果一直为空 麻烦给一下网站地址…… 。。。我发的过不了审? 无语,Xpath 发内容都要过审核,所以只能发图片了liuzhengyuan 发表于 2020-6-7 19:50
麻烦给一下网站地址……
https://book.douban.com/annual/2016?source=book_navigation
只爬取月度热门关注图书 Twilight6 发表于 2020-6-7 20:01
无语,Xpath 发内容都要过审核,所以只能发图片了
结果还是为空呀铁汁 塞在背包里的人 发表于 2020-6-7 20:07
结果还是为空呀铁汁
代码拷贝发上来 你代码有问题 Twilight6 发表于 2020-6-7 20:08
代码拷贝发上来 你代码有问题
import requests
from lxml import etree
url = 'https://book.douban.com/annual/2016?source=book_navigation'
headers = {
"User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
}
response = requests.get(url=url,headers=headers)
page_text = response.text
tree = etree.HTML(page_text)
title = tree.xpath('//ul/li/a/@title')
print(title)
麻烦大佬看一下 塞在背包里的人 发表于 2020-6-7 20:13
麻烦大佬看一下
他那个数据不在html文件中
可能在其他文件中 塞在背包里的人 发表于 2020-6-7 20:13
麻烦大佬看一下
不行网页应该被js动态渲染了要用 selenium 试试 Twilight6 发表于 2020-6-7 20:18
不行网页应该被js动态渲染了要用 selenium 试试
这里看看
这里就有:
https://book.douban.com/ithil_j/activity/book_annual2016/widget/4 xiaosi4081 发表于 2020-6-7 20:19
这里看看
这里就有:
https://book.douban.com/ithil_j/activity/book_annual2016/widget/4
1对 Twilight6 发表于 2020-6-7 20:18
不行网页应该被js动态渲染了要用 selenium 试试
奥奥奥,我说呢 xiaosi4081 发表于 2020-6-7 20:19
这里看看
这里就有:
https://book.douban.com/ithil_j/activity/book_annual2016/widget/4
这是什么?原网页吗 本帖最后由 xiaosi4081 于 2020-6-7 20:36 编辑
塞在背包里的人 发表于 2020-6-7 20:22
这是什么?原网页吗
是储存数据的文件,你可以去抓取那里
代码:
import requests
import json
import re
url = 'https://book.douban.com/ithil_j/activity/book_annual2016/widget/4'
headers = {
"User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
}
response = requests.get(url=url,headers=headers)
target = json.loads(response.text)
html_url = []
title = []
for i in range(0,9+1):
html_url.append(target['res']['subjects']['m_url'])
title.append(target['res']['subjects']['title'])
for each in range(0,9+1):
print(title,html_url,sep = ':')
如果帮助到你了,记得设置最佳哈{:10_287:}
页:
[1]