鱼C论坛

 找回密码
 立即注册
查看: 2991|回复: 0

[技术交流] 正则表达式的用法

[复制链接]
发表于 2017-4-5 13:50:35 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. package main

  2. import (
  3.         "fmt"
  4.         "io/ioutil"
  5.         "net/http"
  6.         "regexp"
  7.         "strings"
  8. )

  9. func main() {
  10.         resp, err := http.Get("http://www.baidu.com")
  11.         // resp, err := http.Get("http://www.163.com")
  12.         if err != nil {
  13.                 fmt.Println("http get error.")
  14.         }
  15.         defer resp.Body.Close()
  16.         body, err := ioutil.ReadAll(resp.Body)
  17.         if err != nil {
  18.                 fmt.Println("http read error")
  19.         }

  20.         src := string(body)

  21.         //将HTML标签全转换成小写
  22.         re, _ := regexp.Compile("\\<[\\S\\s]+?\\>")
  23.         src = re.ReplaceAllStringFunc(src, strings.ToLower)

  24.         //去除STYLE
  25.         re, _ = regexp.Compile("\\<style[\\S\\s]+?\\</style\\>")
  26.         src = re.ReplaceAllString(src, "")

  27.         //去除SCRIPT
  28.         re, _ = regexp.Compile("\\<script[\\S\\s]+?\\</script\\>")
  29.         src = re.ReplaceAllString(src, "")

  30.         //去除所有尖括号内的HTML代码,并换成换行符
  31.         re, _ = regexp.Compile("\\<[\\S\\s]+?\\>")
  32.         src = re.ReplaceAllString(src, "\n")

  33.         //去除连续的换行符
  34.         re, _ = regexp.Compile("\\s{2,}")
  35.         src = re.ReplaceAllString(src, "\n")

  36.         fmt.Println(strings.TrimSpace(src))
  37. }
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-2 05:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表