江安叔叔 发表于 2020-6-25 22:21:52

相关

本帖最后由 江安叔叔 于 2020-6-25 22:21 编辑

看python终于看到了爬虫,现有几个问题求助各路大佬:1.跟视频输出网页源代码,如果输出百度,淘宝的会崩?有啥解决方法吗?代码如下

import urllib.request
response=urllib.request.urlopen("百度地址")
html=response.read()
print(html)

2.获取一些网页源代码,看不到他的解码格式(是真的看不到,翻了很久审查元素),请问怎么看的?相关代码:html=html.decode("解码格式")

Twilight6 发表于 2020-6-25 22:27:07



1.跟视频输出网页源代码,如果输出百度,淘宝的会崩?有啥解决方法吗?

没懂你的问题....

2.获取一些网页源代码,看不到他的解码格式(是真的看不到,翻了很久审查元素),请问怎么看的?

这个比较,一般都是在网页审核元素最前面的 charset 属性里 如图:

江安叔叔 发表于 2020-6-25 22:31:58

Twilight6 发表于 2020-6-25 22:27
没懂你的问题....




第一个问题,意思就是用这几行代码输出 百度淘宝的源代码 ,python会卡死

Twilight6 发表于 2020-6-25 22:33:35

江安叔叔 发表于 2020-6-25 22:31
第一个问题,意思就是用这几行代码输出 百度淘宝的源代码 ,python会卡死



我的不会?完全正常运行

江安叔叔 发表于 2020-6-25 22:36:11

Twilight6 发表于 2020-6-25 22:33
我的不会?完全正常运行

额,好吧,谢谢你

Twilight6 发表于 2020-6-25 22:38:13

江安叔叔 发表于 2020-6-25 22:36
额,好吧,谢谢你



运行下看看,截图发上来


import urllib.request
response=urllib.request.urlopen("https://www.baidu.com/")
html=response.read()
print(html)

江安叔叔 发表于 2020-6-26 11:27:01

Twilight6 发表于 2020-6-25 22:38
运行下看看,截图发上来

emmm,我等级低,不能直接发图,简单描述下。前面说错,百度是可以,获取360主页会崩,python IDLE界面顶头会出现未响应
像这样:*Python 3.7.0 shell*(未响应)
然后卡死

Twilight6 发表于 2020-6-26 11:27:45

江安叔叔 发表于 2020-6-26 11:27
emmm,我等级低,不能直接发图,简单描述下。前面说错,百度是可以,获取360主页会崩,python IDLE界面顶 ...

360的 url 发我试试看吧?话说你的电脑配置怎么样?{:10_297:}

_2_ 发表于 2020-6-26 11:29:44

江安叔叔 发表于 2020-6-26 11:27
emmm,我等级低,不能直接发图,简单描述下。前面说错,百度是可以,获取360主页会崩,python IDLE界面顶 ...

由 1# 得
解码方式都包含在<head>元素的<meta>里
所以用正则(不知道你有没有学到)匹配就可

江安叔叔 发表于 2020-6-26 16:08:52

Twilight6 发表于 2020-6-26 11:27
360的 url 发我试试看吧?话说你的电脑配置怎么样?

url;https://hao.360.com,配置一般
页: [1]
查看完整版本: 相关