[已解决]爬取小说

casanava · 发表于 2019-5-17 16:03:05

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

代码可以运行，
怎样把爬取的内容中的标签去掉，再转换成字符串？
请教大侠指点，谢谢
from bs4 import BeautifulSoup
import requests
import codecs
import os
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_url_list(url):
html = requests.get(url,headers)
soup = BeautifulSoup(html.content, 'lxml')
con_list = []
x1 = soup.find_all('div',attrs={'id':'content'})
print(x1)

if '__main__' == __name__:
url = 'http://www.xinshubao.net/22/22070/3179772_2.html'
url_list = get_url_list(url)

最佳答案

月排行榜 / 总排行榜

wp231957

2019-5-20 08:35:35

casanava 发表于 2019-5-17 17:48
还是不成，还没能转换成字符串,第二步再去掉换行符及标签

转换字符串简单一个str 就可以了

跳转到最佳答案楼层

wp231957 · 发表于 2019-5-17 16:24:23

from bs4 import BeautifulSoup
import requests
import codecs
import os,re
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
def get_url_list(url):
html = requests.get(url,headers)
soup = BeautifulSoup(html.content, 'lxml')
con_list = []
x1 = soup.find_all('div',attrs={'id':'content'})
x2=re.sub("[a-zA-Z0-9\<\>\/\(\);\=\[\]"]+",'',str(x1))
print(x2)
if '__main__' == __name__:
url = 'http://www.xinshubao.net/22/22070/3179772_2.html'
url_list = get_url_list(url)

复制代码

试一下看

casanava · 发表于 2019-5-17 17:48:17

还是不成，还没能转换成字符串,第二步再去掉换行符及标签

wp231957 · 发表于 2019-5-20 08:34:55

>>>
========================== RESTART: C:\Python3\1.py ==========================
咳嗽一声，对薛水舞道:“水舞姑娘，实不相瞒，其实……其实我根本不是上门娶亲的，杨霖大人也并没有把女儿许给我，当时只是迫于形势，不得不这么说，否则你我二人怕是已被浸了猪笼……”

    水舞清澈的眼神一下子柔和靓丽起来，她轻轻低下头，柔声道:“我知道，一开始我也很惊讶，后来想想就明白了。瑶瑶这么小，老爷怎么可能将她许人……”

    叶小天松了口气，道:“既然你明白，我倒不必多费唇舌了。其实杨大人让我送的那封信，是要吩咐家人分割财产，给令爱留一份丰厚嫁妆的，只可惜如今没了那封信，这件事却是想都不用想了。”

    水舞轻轻摇摇头，道:“杨家的钱，我根本不想的。我现在只想把女儿好好抚养成人就够了，余此再无所求。”她扭过头，望着自己的女儿，轻轻摸了摸她的头，神色间充满怜爱。

    叶小天又咳嗽一声，道:“水舞姑娘可有亲友可以投靠么？”

    水舞黯然摇头，叶小天心中一宽:“这就好办了，孤儿寡母的才好下手啊！”

    他马上一脸正气地道:“有杨夫人与你为难，你母女在靖州是住不下去的，不管你们是不是去京城，又或另奔他处，总要先离开这靖州地界才好决定。

    我既然把你母女二人带出来，就不能弃而不顾。只是你我三人同行，若是没个合适的称呼，不免会引人猜疑，没准还会招惹出什么是非。一路之上，你我二人就以夫妻相称，瑶瑶扮作你我的女儿，如何？”

    叶小天拼命地藏着他的狐狸尾巴，说的正气凛然。水舞听了脸儿一红，羞涩地垂下头，那整齐而细密的睫毛眨动半晌，轻轻摇一摇头，抿着薄薄的红唇，细声道:“叶大哥，这样……这样只怕不妥。”

    叶小天可不想刚刚说破真相，就暴露自己**裸的目的，那样很容易把人家吓跑的，所以他才想到用这样委婉的办法徐徐图之，却不想只是名义上的夫妻，只为方便路上同行，水舞姑娘居然也不同意。

    叶小天皱起眉道:“有何不妥？”

    水舞咬了咬下唇，怯生生地道:“这一路下去，你我若以夫妻相称，打尖住店时怎么办呢？总不好住进一间房吧，若是分房而睡，就更容易叫人识破，不如……我们以兄妹相称，可好？”

    “哎呀！这小美妞并不蠢啊，我本来就是打的这个主意，却不想已经被她猜到了。”

    叶小天犹不死心，讪笑道:“若是以兄妹名义同行，妹妹却带着一个孩子，这样一行三人，同样会惹人生疑吧？”

    水舞飞快地瞟了他一眼，垂下眼睛，小声道:“那……叫瑶瑶也扮作叶大哥的妹子，你看行么？”

    “兄妹三人么……，倒是说的过去。”

    叶小天干巴巴地说着，心中有些气馁，但他并不失望，兄妹就兄妹呗，‘干柴烈火好做饭，干兄干妹好做亲嘛。’想要捕捉猎物，总得先叫猎物失去戒心才成啊。

    叶小天爽快地答应下来，道:“好！那你我三人，从此便以兄妹相称。”

    叶小天弯下腰，扮出一副骗小萝莉去看金鱼的嘴脸，对还在冲着梨核用功的小萝莉道:“瑶瑶啊，从今天起，管你娘要叫姐姐，管我要叫哥哥，记住了没有？叫错了没饭吃喔。”

    说着，叶小天从怀里掏出一个梨子，笑眯眯地

wp231957 · 发表于 2019-5-20 08:35:35

这个最佳答案由 wp231957 给出，感谢 wp231957 的回答。

单击隐藏图章

casanava 发表于 2019-5-17 17:48
还是不成，还没能转换成字符串,第二步再去掉换行符及标签

转换字符串简单一个str 就可以了

casanava · 发表于 2019-5-20 08:49:16

谢谢大侠指导

账号		自动登录	找回密码
密码			立即注册

[已解决]爬取小说

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块