鱼C论坛

 找回密码
 立即注册
查看: 2658|回复: 7

关于爬虫的问题

[复制链接]
发表于 2017-8-19 10:33:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 1b1n1m 于 2017-8-19 11:27 编辑

为什么我的代码输入网址以后就不动了:
import urllib.request
import re

#定义网页抓取函数
def source(url):
    print("正在分析url...")
    source = urllib.request.urlopen(url)
    html = source.read()
    html = html.decode("utf - 8")
    print("网页抓取完毕...")
    return html
#正则过滤函数
def filter(html):
    print("正在进行正则表达式匹配...")
    re.sub('<br/>', '\n', html)#将网页中的换行符转换为\n
    regular = "[\u4e00-\u9fa5]+|\d+|\n|,|。|:|“|”"#正则表达式筛选出汉字和汉字标点符号
    doc = re.findall(regular,html)
    for i in range(170):
        doc.pop(0)
    for i in range(145):
        doc.pop()
    print("正则表达式匹配结束...")
    return doc
#写入txt文件函数
def txt(doc):  
    print("正在追加写入文档...")
    txt = ''.join(doc)
    f = open("重生之神级学霸.txt",'a')
    print("写入完毕...")
    print(txt)
    return txt
url = input("请输入需要爬的网址:\n")
S = source(url)
html = filter(S)
txt(html)
print("程序结束!!!")
TIM截图20170819112559.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-8-19 10:51:41 | 显示全部楼层
想问个小白的问题,python学完能让我们怎么应用,比如楼主用python爬一些网上的数据,这跟搜索引擎有啥区别。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-8-19 11:07:43 | 显示全部楼层
截图,没图没真相
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-8-19 15:56:33 | 显示全部楼层
2017-08-19_155435.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-8-20 22:15:04 | 显示全部楼层

在Python官方的IED上面可以运行,但是使用VScode就会出现卡死的情况,这个很是蛋疼啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-8-20 22:16:34 | 显示全部楼层
amanionly 发表于 2017-8-19 10:51
想问个小白的问题,python学完能让我们怎么应用,比如楼主用python爬一些网上的数据,这跟搜索引擎有啥区别 ...

跟搜索引擎的区别在于,写爬虫可以自动化的检索你需要的信息而不需要你自己手动操作,比如在草榴上面把图片都爬下来放在电脑里面慢慢看.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-8-21 08:58:16 | 显示全部楼层
六楼  《草榴》  行家呀  例子举的很清晰。

说正经的,索搜引擎只是搜到,还是在网上,自己编写出来的爬虫下载到本地,那这样来说意义不大呀,python除了爬网上的信息以外,python还能有啥其他的应用么。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-8-22 20:10:42 | 显示全部楼层
amanionly 发表于 2017-8-21 08:58
六楼  《草榴》  行家呀  例子举的很清晰。

说正经的,索搜引擎只是搜到,还是在网上,自己编写 ...

据说华尔街的天才们做量化交易用的就是Python哦~这个应用很牛逼了吧?现在大热的机器学习往往也用Python实现~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-24 14:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表