鱼C论坛

 找回密码
 立即注册
查看: 110|回复: 2

[已解决]搜索词条程序运行错误

[复制链接]
发表于 2024-11-24 20:14:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
有如下一段代码:(摘自小甲鱼搜索猪八戒词条,由于没有发布带url权限的帖子,链接用空格隔开了了 请忽略链接导致的错误)
import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup


def main():
    keyword = input("请输入关键字:")
    keyword = urllib.parse.urlencode({"htt p s:// bai ke. bai du.c om /se arch /wor d?%sword":keyword})
    resp = urllib.request.urlopen('' % keyword)
    html = resp.read()
    soup = BeautifulSoup(html,"html.parse")

    for each in soup.find_asll(href=re.compile('view')):
        context = ''.join([each.text])
        url2 = ''.join(['htt p://bai ke.ba idu .co m',each['href']])
        resp2 = urllib.request.urlopen(url2)
        html2 = resp2.read()
        soup2 = BeautifulSoup(html2,'html2.parse')
        if soup2.h2:
            context = ''.join(content,soup2.h2.text)
        content =''.join([content,'->',url2])

if __name__ == '__main__':
    main()


有如下两个问题:
1) html = resp.read() , read()的作用是什么?
2). 当执行程序的时候, 报如下错误:(是什么原因呢?)
>>>请输入关键字:猪八戒
Traceback (most recent call last):
  File "D:\program\python_code\search_pig.py", line 25, in <module>
    main()
  File "D:\program\python_code\search_pig.py", line 12, in main
    soup = BeautifulSoup(html,"html.parse")
  File "D:\program\Python\Python312\Lib\site-packages\bs4\__init__.py", line 250, in __init__
    raise FeatureNotFound(
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: html.parse. Do you need to install a parser library?
最佳答案
2024-11-24 20:14:44
1)html = resp.read() , read()的作用是什么?

`read()` 的作用是读取从服务器返回的整个页面内容,返回类型是字节流。这对于进一步处理和解析页面很有用。

2) 当执行程序的时候,报如下错误:bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: html.parse.

这个错误的原因是你在使用 BeautifulSoup 时指定的解析器 `"html.parse"` 是不正确的。正确的应该是 `"html.parser"`。此外,你可能还想检查代码的其他地方,比如 `soup.find_asll` 应该修正为 `soup.find_all`,同时注意拼写和网址链接中的多余空格。

以下是修正后的关键部分代码:
soup = BeautifulSoup(html, "html.parser")
...
for each in soup.find_all(href=re.compile('view')):
    url2 = ''.join(['http://baike.baidu.com', each['href']])
    ...
    soup2 = BeautifulSoup(html2, 'html.parser')
    ...

请确保你的 Python 环境中安装了 `beautifulsoup4` 模块,并且在 URL 和字符串处理上保持正确的格式。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-11-24 20:14:44 | 显示全部楼层    本楼为最佳答案   
1)html = resp.read() , read()的作用是什么?

`read()` 的作用是读取从服务器返回的整个页面内容,返回类型是字节流。这对于进一步处理和解析页面很有用。

2) 当执行程序的时候,报如下错误:bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: html.parse.

这个错误的原因是你在使用 BeautifulSoup 时指定的解析器 `"html.parse"` 是不正确的。正确的应该是 `"html.parser"`。此外,你可能还想检查代码的其他地方,比如 `soup.find_asll` 应该修正为 `soup.find_all`,同时注意拼写和网址链接中的多余空格。

以下是修正后的关键部分代码:
soup = BeautifulSoup(html, "html.parser")
...
for each in soup.find_all(href=re.compile('view')):
    url2 = ''.join(['http://baike.baidu.com', each['href']])
    ...
    soup2 = BeautifulSoup(html2, 'html.parser')
    ...

请确保你的 Python 环境中安装了 `beautifulsoup4` 模块,并且在 URL 和字符串处理上保持正确的格式。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-11-25 14:14:43 | 显示全部楼层
(1)

resp.read() 的作用是从urllib.request.urlopen返回的HTTP响应对象中读取服务器返回的所有字节数据(即网页内容)。这些数据通常是HTML、JSON或其他格式的内容,具体取决于服务器的响应。

在代码中,html = resp.read() 将网页的原始内容(HTML源代码)读取为一个字节串(bytes)并存储到变量html中,供后续处理。

(2)

html.parse 应为 html.parser
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-22 01:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表