|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
自己试了好久,真的最后run不出来了……不知道哪里卡住……
求问各路大神怎么能够得出结果……
谢谢!
- # @Software : PyCharm
- import requests
- import bs4
- import re
- #拆解list
- def downgradedict(init_dic):
- list = []
- for k in init_dic:
- list.append(init_dic[k])
- return list
- #获取指定单词的所有具体解释词条
- def getexplanations(word):
- set = []
- url = "https://www.lexico.com/definition/%s" %word
- headers = {
- 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}
- res = requests.get(url, headers=headers)
- data = bs4.BeautifulSoup(res.text, "html.parser")
- #抓出来的会有许多空列表,这里只把有内容的部分加入返回值的集合里面
- for i in range(0, 20):
- for j in range(0, 20):
- exp = data.select(
- "#content > div.lex-container > div.main-content > div > div > div > div > section:nth-child( %d ) > ul > li:nth-child( %d ) > div > p > span.ind" % (
- i, j))
- if len(exp) == 1:
- key = exp[0]
- set.append(key.get_text())
- elif len(exp) == 0:
- pass
- return set
- [b]上面这个函数经常会run出来许多空列表,不知道有没有什么方便的方法能直接略过它们[/b]
- #将抓出来的解释列表化为单词列表
- def getwords(list):
- list2 = []
- for i in list:
- k = re.split(r'[;,\s]\s*', i)
- #只留下纯单词,不要标点符号和括号
- for x in k:
- x = x.lower()
- x = x.replace(".", "")
- x = x.replace(")", "")
- x = x.replace("(", "")
- #单词列表里面词不重复
- if x not in list2:
- list2.append(x)
- elif x in list2:
- pass
- return list2
- [b]似乎是这一步出了问题,但不知道具体如何[/b]
- #指定一个单词,然后找与之相关的所有解释,统计里面出现出来的词,再加回这个单词列表里面,直到列表不再增长
- def getallwords(word):
- set1 = [word]
- set2 = []
- while sorted(set1) != sorted(set2): #设立两个列表,比较两个列表是否一致(研究需要这一点)
- for i in set1:
- x = getexplanations(i)
- y = getwords(x)
- for item in y: #遍历第一个表单里面的单词,然后找与这些单词相关所有词典解释使用的单词
- if item not in set2: #如果找到的这些单词不在列表2,则将这些单词添加进列表1和列表2
- set1.append(item)
- set2.append(item)
- else:
- pass #如果这些单词已经存在,则略过
- return set2
- print(getallwords('phrase'))
复制代码
|
|