鱼C论坛

 找回密码
 立即注册
查看: 3834|回复: 1

关于:正则BeautifulSoup 或XPATH请教

[复制链接]
发表于 2016-8-27 22:41:43 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 天冰 于 2016-8-29 10:40 编辑
  1. <table id="pid2646354" class="plhin" summary="pid2646354" cellspacing="0" cellpadding="0">
  2. <tbody><tr>
  3. <td class="pls" rowspan="2">
  4. <div id="favatar2646354" class="pls favatar">
  5. <div class="pi">
  6. <div class="authi"><a href="space-uid-247745.html" target="_blank" class="xw1">天冰</a>
  7. </div>
  8. </div>
  9. <div class="p_pop blk bui card_gender_0" id="userinfo2646354" style="display: none; margin-top: -11px;">
  10. <div class="m z">
  11. <div id="userinfo2646354_ma"></div>
  12. </div>
  13. <div class="i y">
  14. <div>
  15. <strong><a href="space-uid-247745.html" target="_blank" class="xi2">天冰</a></strong>
  16. <em>当前在线</em>
  17. </div><dl class="cl">
  18.         <dt>UID</dt><dd><a href="?247745" target="_blank" class="xi2">247745</a></dd>
  19.         <dt>日志</dt><dd><a href="home.php?mod=space&amp;uid=247745&amp;do=blog&amp;view=me&amp;from=space" target="_blank" class="xi2">0</a></dd>
  20.         <dt>相册</dt><dd><a href="home.php?mod=space&amp;uid=247745&amp;do=album&amp;view=me&amp;from=space" target="_blank" class="xi2">0</a></dd>
  21.         <dt>贡献</dt><dd>3 </dd>
  22.         <dt>荣誉</dt><dd>19 </dd>
  23.         <dt>技术值</dt><dd>0 </dd>
  24. </dl>
  25. <div class="imicn">
  26. <a href="home.php?mod=space&amp;uid=247745&amp;do=profile" target="_blank" title="查看详细资料"><img src="template/dreambred_c_apple/images/common//userinfo.gif" alt="查看详细资料"></a>
  27. </div>
  28. <div id="avatarfeed"><span id="threadsortswait"></span></div>
  29. </div>
  30. </div>
  31. <div>
  32. <div class="avatar" onmouseover="showauthor(this, 'userinfo2646354')"><a href="space-uid-247745.html" class="avtm" target="_blank"><img src="http://bbs.fishc.com/ucenter/avatar.php?uid=247745&amp;size=middle"></a></div>
  33. </div>
  34. <p>签到天数: 6 天</p><p>[LV.2]偶尔看看I</p><div class="tns xg2"><table cellspacing="0" cellpadding="0"><tbody><tr><th><p><a href="home.php?mod=space&amp;uid=247745&amp;do=thread&amp;type=thread&amp;view=me&amp;from=space" class="xi2">2</a></p>主题</th><th><p><a href="home.php?mod=space&amp;uid=247745&amp;do=thread&amp;type=reply&amp;view=me&amp;from=space" class="xi2">21</a></p>帖子</th><td><p><a href="home.php?mod=space&amp;uid=247745&amp;do=profile" class="xi2">19</a></p>荣誉</td></tr></tbody></table></div>

  35. <p><em><a href="home.php?mod=spacecp&amp;ac=usergroup&amp;gid=10" target="_blank">新鱼友</a></em></p>


  36. <p><span id="g_up2646354" onmouseover="showMenu({'ctrlid':this.id, 'pos':'12!'});"><img src="template/dreambred_c_apple/images/common//star_level1.gif" alt="Rank: 1"></span></p>
  37. <div id="g_up2646354_menu" class="tip tip_4" style="display: none;"><div class="tip_horn"></div><div class="tip_c">新鱼友, 积分 24, 距离下一级还需 76 积分</div></div>


  38. <p><span class="pbg2" id="upgradeprogress_2646354" onmouseover="showMenu({'ctrlid':this.id, 'pos':'12!', 'menuid':'g_up2646354_menu'});"><span class="pbr2" style="width:24%;"></span></span></p>
  39. <div id="g_up2646354_menu" class="tip tip_4" style="display: none;"><div class="tip_horn"></div><div class="tip_c">新鱼友, 积分 24, 距离下一级还需 76 积分</div></div>

  40. <dl class="pil cl">
  41.         <dt>积分</dt><dd><a href="home.php?mod=space&amp;uid=247745&amp;do=profile" target="_blank" class="xi2">24</a></dd>
  42. </dl>
  43. <style type="text/css">img{margin:2px;}</style>
  44. </div>
  45. </td>
  46.        
  47. <td class="plc">
  48. <div class="pi">
  49. <strong>
  50. <a href="forum.php?mod=redirect&amp;goto=findpost&amp;ptid=75446&amp;pid=2646354" id="postnum2646354" onclick="setCopy(this.href, '帖子地址复制成功');return false;">
  51. <em>6</em><sup>#</sup></a>
  52. </strong>
  53. <div class="pti">
  54. <div class="pdbt">
  55. </div>
  56. <div class="authi">
  57. <img class="authicn vm" id="authicon2646354" src="template/dreambred_c_apple/images/common//ico_lz.png">
  58. &nbsp;楼主<span class="pipe">|</span>
  59. <em id="authorposton2646354">发表于 <span title="2016-8-27 12:02:25">6&nbsp;小时前</span></em>
  60. <span class="pipe">|</span>
  61. <a href="forum.php?mod=viewthread&amp;tid=75446&amp;page=1&amp;authorid=247745" rel="nofollow">只看该作者</a>
  62. </div>
  63. </div>
  64. </div><div class="pct"><div class="a_pt"><a  target="_blank" style="font-size: 14px"><font color="#FF0000"><b><div>C语言辅导班,帮助有志青年!按月付费,减轻负担,仅需200元,穷人也能学!</div></b></font></a></div><div class="pcb">
  65. <div class="t_fsz">
  66. <table cellspacing="0" cellpadding="0"><tbody><tr><td class="t_f" id="postmessage_2646354">
  67. <div class="quote"><blockquote><font size="2"><a href="http://bbs.fishc.com/forum.php?mod=redirect&amp;goto=findpost&amp;pid=2646346&amp;ptid=75446" target="_blank"><font color="#999999">hldh214 发表于 2016-8-27 11:37</font></a></font></blockquote></div><br>
  68. 是不是理解错误,我是想访问列表里的连接: item[0]<br>
  69. </td></tr></tbody></table>


  70. </div>
  71. <div id="comment_2646354" class="cm">
  72. </div>

  73. <div id="post_rate_div_2646354"></div>
  74. </div>
  75. </div>

  76. </td></tr>
  77. <tr><td class="plc plm">
  78. <div class="sign">如果您的【问题求助】得到满意的解答,请自行将分类修改为【已经解决】;如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】鼓励;善用【论坛搜索】功能,那里可能有您想要的答案!</div>
  79. <div class="a_pb"><a href="http://bbs.fishc.com/thread-56921-1-1.html" target="_blank"><b><font color="#FF0000">【招生】15PB 软件安全培训开始接受第011期报名(2月28号开课)!</font></b></a></div></td>
  80. </tr>
  81. <tr id="_postposition2646354"></tr>
  82. <tr>
  83. <td class="pls"></td>
  84. <td class="plc" style="overflow:visible;">
  85. <div class="po hin">
  86. <span class="y">
  87. <label for="manage2646354">
  88. <input type="checkbox" id="manage2646354" class="pc" onclick="pidchecked(this);modclick(this, 2646354)" value="2646354" autocomplete="off">
  89. 管理
  90. </label>
  91. </span>
  92. <div class="pob cl">
  93. <em>
  94. <a class="fastre" href="forum.php?mod=post&amp;action=reply&amp;fid=173&amp;tid=75446&amp;repquote=2646354&amp;extra=&amp;page=1" onclick="showWindow('reply', this.href)">回复</a>
  95. <a class="editp" href="forum.php?mod=post&amp;action=edit&amp;fid=173&amp;tid=75446&amp;pid=2646354&amp;page=1">编辑</a><a class="replyadd" href="forum.php?mod=misc&amp;action=postreview&amp;do=support&amp;tid=75446&amp;pid=2646354&amp;hash=3a3b9b78" onclick="ajaxmenu(this, 3000, 1, 0, '43', '');return false;" onmouseover="this.title = ($('review_support_2646354').innerHTML ? $('review_support_2646354').innerHTML : 0) + ' 人 支持'">支持 <span id="review_support_2646354"></span></a>
  96. <a class="replysubtract" href="forum.php?mod=misc&amp;action=postreview&amp;do=against&amp;tid=75446&amp;pid=2646354&amp;hash=3a3b9b78" onclick="ajaxmenu(this, 3000, 1, 0, '43', '');return false;" onmouseover="this.title = ($('review_against_2646354').innerHTML ? $('review_against_2646354').innerHTML : 0) + ' 人 反对'">反对 <span id="review_against_2646354"></span></a>
  97. </em>

  98. <p>
  99. </p>

  100. </div>
  101. </div>
  102. </td>
  103. </tr>
  104. <tr class="ad">
  105. <td class="pls">
  106. </td>
  107. <td class="plc">
  108. </td>
  109. </tr>
  110. </tbody></table>
复制代码

以上怎么用正则表达出来,即本人想提取出用户:天冰 某处贴子的所有回复,想用正则提取出来,但他的回复代码 如上,但不知道怎么用正则。或有没有更好的办法进行筛选。BeautifulSoup 或XPATH也可以,希望 有人指导一下谢
以上为论坛的回复提取出来的代码,想正则出一个贴子,指定人的所有回复信息,不知道怎么写正则,请教、。

即我想正则出:http://bbs.fishc.com/thread-75446-1-1.html
里面:天冰 回复的所有内容,其它人的过虑。
request=urllib2.Request(url)
    response=urllib2.urlopen(request)
    content = response.read().decode('utf-8')
然后就不知道怎么写正则了,正则好像没办法处理 空格,也不知道怎么条件判断本人回复贴。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-27 22:59:46 | 显示全部楼层
1,代码用代码括号放着,太多看着乱。
2,urllib2 是python 2.x的库,建议用3.x的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-22 10:39

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表