rust/c++ 多线程

赚小钱 · 发表于 2020-5-30 22:51:09

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由赚小钱于 2020-7-25 16:00 编辑

.

赚小钱 · 发表于 2020-5-30 22:54:10

本帖最后由赚小钱于 2020-7-25 16:01 编辑

.

老八秘制 · 发表于 2020-5-30 23:10:05

c++写爬虫太艹

赚小钱 · 发表于 2020-5-30 23:42:27

use futures::StreamExt;
use hyper_tls::HttpsConnector;
use std::io::Write;
use hyper::body::HttpBody as _;
#[tokio::main]
async fn main() {
let u = "https://wallhaven.cc";
let cookie = "";
crawl(&u, &cookie).await;
}
async fn crawl(base: &str, cookie: &str) {
let mut next_pager = Some(format!("{}&page=1", base));
loop {
if next_pager.is_none() {
return;
}
next_pager = process_one(next_pager.as_ref().unwrap(), &cookie).await;
}
}
async fn process_one(u: &str, cookie: &str) -> Option<String> {
let next_pager_url = get_next_page_url(&u, &cookie).await;
let body = do_request(&u, &cookie).await;
let urls = parse_image_url(&body).await;
println!("next: {:?}", next_pager_url);
println!("urls: {:?}", urls);
for url in urls {
if download(&url, &cookie).await {
std::thread::sleep(std::time::Duration::from_millis(500));
}
}
next_pager_url
}
async fn get_next_page_url(base: &str, cookie: &str) -> Option<String> {
let body = do_request(base, cookie).await;
/// class selector:
/// grammar: .class_name .thumb-listing-page-num
let document = scraper::Html::parse_document(&body);
// let overlay_close_selector = scraper::Selector::parse("#overlay-close").unwrap();
// document.select(&overlay_close_selector).next().map(|overlay| {
// println!("overlay close title: {:?}", overlay.value().attr("title"))
// });
let next_pager_selector = scraper::Selector::parse(".next").unwrap();
document.select(&next_pager_selector).next().map(|next_pager| {
// println!("page_num_element: {:?}", next_pager.inner_html());
String::from(next_pager.value().attr("href").unwrap())
})
}
async fn do_request(u: &str, cookie: &str) -> String {
let https = HttpsConnector::new();
let client = hyper::Client::builder().build::<_, hyper::Body>(https);
let request = hyper::Request::get(u).
header("Cookie", cookie).
body(hyper::Body::empty()).unwrap();
let mut response = match client.request(request).await {
Ok(response) => response,
Err(e) => {
println!("do request error: {:?}", e);
panic!("");
}
};
let body = hyper::body::to_bytes(response.into_body()).await.unwrap();
let str_body: String = unsafe { String::from_utf8_unchecked(body.to_vec()) };
str_body
}
async fn parse_image_url(body: &str) -> Vec<String> {
let document = scraper::Html::parse_document(&body);
let preview_selector = scraper::Selector::parse(".preview").unwrap();
let urls: Vec<String> = document.select(&preview_selector).filter(|element| {
element.value().attr("href").is_some()
}).map(|element| {
String::from(element.value().attr("href").unwrap())
}).collect();
urls
}
async fn download(address: &str, cookie: &str) -> bool {
println!("address: {}", address);
let body = do_request(&address, &cookie).await;
let selector = r#"id="wallpaper""#;
if let Some(index) = body.find(&selector) {
let body = &body[index + selector.len()..];
if let Some(src_index) = body.find("src") {
let body = &body[src_index + 5..];
if let Some(end_index) = body.find(r#"""#) {
let src = &body[..end_index];
println!("wallpaper src: {}", src);
let slash_index = match address.rfind('/') {
Some(index) => index,
None => return false,
};
let name = &address[slash_index + 1..];
let name = format!("./output/{}", name);
let path = std::path::Path::new(&name);
if path.exists() {
return false;
}
let image = do_request(&src, &cookie).await;
save(&name, image.as_bytes()).await;
return true;
}
}
return false;
}
return false;
}
async fn save(name: &str, body: &[u8]) {
let mut file = std::fs::File::create(name).unwrap();
file.write_all(body);
}

复制代码

赚小钱 · 发表于 2020-5-30 23:43:28

老八秘制发表于 2020-5-30 23:10
c++写爬虫太艹

没有，爬虫是 rust 写的。刚把代码补上。

mmld32 · 发表于 2021-3-13 10:49:04

赚小钱发表于 2020-5-30 23:43
没有，爬虫是 rust 写的。刚把代码补上。

问问，这个rust好学吗？c太难了。编译总是逻辑错误。不学编程，不知道自己逻辑不行。

赚小钱 · 发表于 2021-3-13 22:32:15

mmld32 发表于 2021-3-13 10:49
问问，这个rust好学吗？c太难了。编译总是逻辑错误。不学编程，不知道自己逻辑不行。

相同难度等级。

mmld32 · 发表于 2021-3-17 01:27:39

赚小钱发表于 2021-3-13 22:32
相同难度等级。

好吧.我还是用最笨的方法,学习python吧.听说python最简单了.只要不是数学不及格,都能过过.我数学刚刚好61.应该不会有问题吧

赚小钱 · 发表于 2021-3-17 21:59:22

mmld32 发表于 2021-3-17 01:27
好吧.我还是用最笨的方法,学习python吧.听说python最简单了.只要不是数学不及格,都能过过.我数学刚刚好61 ...

放轻松，没那么难。

mmld32 · 发表于 2021-3-18 00:03:31

赚小钱发表于 2021-3-17 21:59
放轻松，没那么难。

其实吧.写代码本身对于我来说并不是特别难的事情.只要记住格式,基本都能用得了.就算是一些硬是要合成一段的代码,也可以分开拆解,成比较好理解的格式.
就编程语言里面,我个人感觉c是属于比较逻辑清晰的
python最大的问题是我不会用那些库,如果是单纯用原始的python总有一些不清不楚的数学问题,要自己思考的.高中数学,大学数学微积分,这些转化为编程的数学时候,很吃力.
算法这块,我说感觉,没什么希望了.就说需要一些功能性的东西,应用在实际工作中就行.
毕竟现在的计算机技术,就硬件这块,应该说对比当年的c的时代,还是宽裕太多了.内存不够用的问题,基本不存在,唯一比较,让我感觉难搞的是,c里面对于内存溢出的问题.
还是先学python吧.
思路上,编程应该是都相通的,实现过程不一样而已.

账号		自动登录	找回密码
密码			立即注册

[技术交流] rust/c++ 多线程

马上注册，结交更多好友，享用更多功能^_^