鱼C论坛

 找回密码
 立即注册
查看: 1088|回复: 5

[已解决]爬取小说

[复制链接]
发表于 2019-5-17 16:03:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
代码可以运行,
怎样把爬取的内容中的标签去掉,再转换成字符串?
请教大侠指点,谢谢
from bs4 import BeautifulSoup
import requests
import codecs
import os
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_url_list(url):
    html = requests.get(url,headers)
    soup = BeautifulSoup(html.content, 'lxml')   
    con_list = []
    x1 = soup.find_all('div',attrs={'id':'content'})
    print(x1)
                  
   
if '__main__' == __name__:
    url = 'http://www.xinshubao.net/22/22070/3179772_2.html'
    url_list = get_url_list(url)
最佳答案
2019-5-20 08:35:35
casanava 发表于 2019-5-17 17:48
还是不成,还没能转换成字符串,第二步再去掉 换行符及标签

转换字符串简单  一个str 就可以了
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-5-17 16:24:23 | 显示全部楼层
  1. from bs4 import BeautifulSoup
  2. import requests
  3. import codecs
  4. import os,re
  5. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

  6. def get_url_list(url):
  7.     html = requests.get(url,headers)
  8.     soup = BeautifulSoup(html.content, 'lxml')   
  9.     con_list = []
  10.     x1 = soup.find_all('div',attrs={'id':'content'})
  11.     x2=re.sub("[a-zA-Z0-9\<\>\/\(\);\=\[\]"]+",'',str(x1))
  12.     print(x2)
  13.                   
  14.    
  15. if '__main__' == __name__:
  16.     url = 'http://www.xinshubao.net/22/22070/3179772_2.html'
  17.     url_list = get_url_list(url)
复制代码


试一下看
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-5-17 17:48:17 | 显示全部楼层
还是不成,还没能转换成字符串,第二步再去掉 换行符及标签
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-5-20 08:34:55 | 显示全部楼层
>>>
========================== RESTART: C:\Python3\1.py ==========================
咳嗽一声,对薛水舞道:“水舞姑娘,实不相瞒,其实……其实我根本不是上门娶亲的,杨霖大人也并没有把女儿许给我,当时只是迫于形势,不得不这么说,否则你我二人怕是已被浸了猪笼……”


&nbsp;&nbsp;&nbsp;&nbsp;水舞清澈的眼神一下子柔和靓丽起来,她轻轻低下头,柔声道:“我知道,一开始我也很惊讶,后来想想就明白了。瑶瑶这么小,老爷怎么可能将她许人……”


&nbsp;&nbsp;&nbsp;&nbsp;叶小天松了口气,道:“既然你明白,我倒不必多费唇舌了。其实杨大人让我送的那封信,是要吩咐家人分割财产,给令爱留一份丰厚嫁妆的,只可惜如今没了那封信,这件事却是想都不用想了。”


&nbsp;&nbsp;&nbsp;&nbsp;水舞轻轻摇摇头,道:“杨家的钱,我根本不想的。我现在只想把女儿好好抚养成人就够了,余此再无所求。”她扭过头,望着自己的女儿,轻轻摸了摸她的头,神色间充满怜爱。


&nbsp;&nbsp;&nbsp;&nbsp;叶小天又咳嗽一声,道:“水舞姑娘可有亲友可以投靠么?”


&nbsp;&nbsp;&nbsp;&nbsp;水舞黯然摇头,叶小天心中一宽:“这就好办了,孤儿寡母的才好下手啊!”


&nbsp;&nbsp;&nbsp;&nbsp;他马上一脸正气地道:“有杨夫人与你为难,你母女在靖州是住不下去的,不管你们是不是去京城,又或另奔他处,总要先离开这靖州地界才好决定。


&nbsp;&nbsp;&nbsp;&nbsp;我既然把你母女二人带出来,就不能弃而不顾。只是你我三人同行,若是没个合适的称呼,不免会引人猜疑,没准还会招惹出什么是非。一路之上,你我二人就以夫妻相称,瑶瑶扮作你我的女儿,如何?”


&nbsp;&nbsp;&nbsp;&nbsp;叶小天拼命地藏着他的狐狸尾巴,说的正气凛然。水舞听了脸儿一红,羞涩地垂下头,那整齐而细密的睫毛眨动半晌,轻轻摇一摇头,抿着薄薄的红唇,细声道:“叶大哥,这样……这样只怕不妥。”


&nbsp;&nbsp;&nbsp;&nbsp;叶小天可不想刚刚说破真相,就暴露自己**裸的目的,那样很容易把人家吓跑的,所以他才想到用这样委婉的办法徐徐图之,却不想只是名义上的夫妻,只为方便路上同行,水舞姑娘居然也不同意。


&nbsp;&nbsp;&nbsp;&nbsp;叶小天皱起眉道:“有何不妥?”


&nbsp;&nbsp;&nbsp;&nbsp;水舞咬了咬下唇,怯生生地道:“这一路下去,你我若以夫妻相称,打尖住店时怎么办呢?总不好住进一间房吧,若是分房而睡,就更容易叫人识破,不如……我们以兄妹相称,可好?”


&nbsp;&nbsp;&nbsp;&nbsp;“哎呀!这小美妞并不蠢啊,我本来就是打的这个主意,却不想已经被她猜到了。”


&nbsp;&nbsp;&nbsp;&nbsp;叶小天犹不死心,讪笑道:“若是以兄妹名义同行,妹妹却带着一个孩子,这样一行三人,同样会惹人生疑吧?”


&nbsp;&nbsp;&nbsp;&nbsp;水舞飞快地瞟了他一眼,垂下眼睛,小声道:“那……叫瑶瑶也扮作叶大哥的妹子,你看行么?”


&nbsp;&nbsp;&nbsp;&nbsp;“兄妹三人么……,倒是说的过去。”


&nbsp;&nbsp;&nbsp;&nbsp;叶小天干巴巴地说着,心中有些气馁,但他并不失望,兄妹就兄妹呗,‘干柴烈火好做饭,干兄干妹好做亲嘛。’想要捕捉猎物,总得先叫猎物失去戒心才成啊。


&nbsp;&nbsp;&nbsp;&nbsp;叶小天爽快地答应下来,道:“好!那你我三人,从此便以兄妹相称。”


&nbsp;&nbsp;&nbsp;&nbsp;叶小天弯下腰,扮出一副骗小萝莉去看金鱼的嘴脸,对还在冲着梨核用功的小萝莉道:“瑶瑶啊,从今天起,管你娘要叫姐姐,管我要叫哥哥,记住了没有?叫错了没饭吃喔。”


&nbsp;&nbsp;&nbsp;&nbsp;说着,叶小天从怀里掏出一个梨子,笑眯眯地
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-5-20 08:35:35 | 显示全部楼层    本楼为最佳答案   
casanava 发表于 2019-5-17 17:48
还是不成,还没能转换成字符串,第二步再去掉 换行符及标签

转换字符串简单  一个str 就可以了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-5-20 08:49:16 | 显示全部楼层
谢谢大侠指导
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-9-11 03:43

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表