鱼C论坛

 找回密码
 立即注册
查看: 1762|回复: 2

[已解决]爬虫中关于代理ip的问题。。。

[复制链接]
发表于 2020-11-15 18:26:11 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x

各位好,能帮忙试试这段代码吗?
内容:爬取 www.goubanjia.com 上的免费代理ip,并作 尝试 连接来观察其的有效性。
但 我连续爬取了数千条,一个可以用的都没发现。
是我电脑问题,还是,这网站上就没有可用的ip?
from multiprocessing.pool import ThreadPool
import requests
from lxml import etree
import time



def open_url(url):
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
    }
    re = requests.get(url=url, headers=headers)
    re.raise_for_status()
    re.encoding = 'utf-8'
    return re.text
    
def open_url_http(proxy):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',}
    try:
        res = requests.get(url=url_http, headers=headers, proxy=proxy)
        assert res.status_code == 200
        print('http://'+proxy, end='\t')
        con = res.json()['origin']
        if con == proxy:
            print('http://'+proxy+' 可以使用')
        else:
            print('error')
    except Exception as e:
            pass

def open_url_https(proxy):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',}
    try:
        res = requests.get(url=url_https, headers=headers, proxy=proxy)
        assert res.status_code == 200
        print('https://'+proxy, end='\t')
        tree = etree.HTML(res.text)
        con = tree.xpath('//body/p//text()')
        if con[1] == proxy:
            print('https://'+proxy+' 可以使用')
        else:
            print('error')
    except Exception as e:
            pass

def get_proxies():
    proxies_https = []
    proxies_http = []
    url = 'http://www.goubanjia.com/'
    re_text = open_url(url=url)

    tree = etree.HTML(re_text)
    info_list = tree.xpath('//tbody/tr')
    for each in info_list:
        info_dict = {}

        each_address_list = []
        info_dict['address'] = each.xpath('./td[1]//*')
        for each_address in info_dict['address']:
            if each_address.xpath('./@style') == ["display: none;"] or each_address.xpath('./@style') ==["display:none;"]:
                pass
            else:
                if len(each_address.xpath('./text()')) != 0:
                    each_address_list.append(each_address.xpath('./text()')[0])       
        info_dict['address'] = ''.join(each_address_list[:-1])+':'+each_address_list[-1]

        info_dict['anonymity'] = each.xpath('./td[2]//text()')[0]
        info_dict['protocal'] = each.xpath('./td[3]//text()')[0]
        if info_dict['protocal'] == 'http':
            if info_dict['address'] not in proxies_http:
                proxies_http.append(str(info_dict['address']))
        elif info_dict['protocal'] == 'https':
            if info_dict['address'] not in proxies_https:
                proxies_https.append(str(info_dict['address']))

    # print(proxies_http)
    # print(proxies_https)
    return proxies_http, proxies_https
    


if __name__ == '__main__':
    
    url_https = 'https://202020.ip138.com/'
    url_http = 'http://httpbin.org/ip'
    
    
    def main():
        proxies_http, proxies_https = get_proxies()
        pool = ThreadPool(5)
        print('main start')
        for each_proxy in proxies_http:
            proxy = {"http":f"{each_proxy}"}
            pool.apply_async(open_url_http, (proxy,))
        for each_proxy in proxies_https:
            proxy = {"https":f"{each_proxy}"}
            pool.apply_async(open_url_https, (proxy,))
        pool.close()
        pool.join()
        print('main over')

    for i in range(100):
        main()
        time.sleep(0.1)
    

最佳答案
2020-11-15 18:52:45
这个网站已经标注不保证可用了,你还是找客服要免费试用的吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-15 18:52:45 | 显示全部楼层    本楼为最佳答案   
这个网站已经标注不保证可用了,你还是找客服要免费试用的吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-15 22:26:13 | 显示全部楼层
suchocolate 发表于 2020-11-15 18:52
这个网站已经标注不保证可用了,你还是找客服要免费试用的吧。

好的,谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-17 17:59

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表