ÐÐÕþÇø»®ÉèÖÃÇó½Ì~~,Python½»Á÷,±à³ÌÓïÑÔ×¨Çø,ÓãCÂÛÌ³

ƒõ·ç ·¢±íÓÚ 2024-4-10 11:10:04

FishC ·¢±íÓÚ 2024-4-10 11:09
ÊÇµÄ£¬ÄãÌá¹©µÄÎÄ±¾ÖÐ°üº¬ÁË¶à¸öÐÐÕþÇø»®Ãû³Æ£¬¿ÉÒÔÊ¹ÓÃÕýÔò±í´ïÊ½À´Æ¥ÅäÕâÐ©Ãû³Æ¡£ÏÂÃæÊÇÒ»¸öÊ¾Àý´úÂë ...

¡£¡£¡£¡£¡£¡£¡£¡£

FishC ·¢±íÓÚ 2024-4-10 11:10:20

ƒõ·ç ·¢±íÓÚ 2024-04-10 11:10
¡£¡£¡£¡£¡£¡£¡£¡£

±§Ç¸£¬¿ÉÄÜÎÒµÄ»Ø´ðÓÐÐ©»ÞÉ¬ÄÑ¶®ÁË¡£Êµ¼ÊÉÏ£¬ÄãÌá¹©µÄÎÄ±¾ÖÐÒÑ¾°´ÕÕÒ»¶¨µÄ¹æÂÉ½«ÐÐÕþÇø»®Ãû³ÆÅÅÁÐºÃÁË£¬ËùÒÔ²»Ò»¶¨ÐèÒªÊ¹ÓÃÕýÔò±í´ïÊ½À´ÌáÈ¡ÕâÐ©Ãû³Æ¡£

Äã¿ÉÒÔÖ±½Ó½«¸ÃÎÄ±¾²ð·Ö³ÉÒ»¸öÐÐÕþÇø»®Ãû³ÆÁÐ±í£¬Ã¿¸öÃû³ÆÖ®¼äÓÃ¿Õ¸ñ·Ö¸ô¡£ÏÂÃæÊÇÒ»¸öÊ¾Àý´úÂë£¬Õ¹Ê¾ÁËÈçºÎ½«ÎÄ±¾ÖÐµÄÐÐÕþÇø»®Ãû³ÆÌáÈ¡³öÀ´£º

text = '±±¾©ÊÐÌì½òÊÐºÓ±±Ê¡É½Î÷Ê¡ÄÚÃÉ¹Å×ÔÖÎÇøÁÉÄþÊ¡¼ªÁÖÊ¡ºÚÁú½Ê¡ÉÏº£ÊÐ½ËÕÊ¡Õã½Ê¡°²»ÕÊ¡¸£½¨Ê¡½Î÷Ê¡É½¶«Ê¡ºÓÄÏÊ¡ºþ±±Ê¡ºþÄÏÊ¡¹ã¶«Ê¡¹ãÎ÷×³×å×ÔÖÎÇøº£ÄÏÊ¡ÖØÇìÊÐËÄ´¨Ê¡¹óÖÝÊ¡ÔÆÄÏÊ¡Î÷²Ø×ÔÖÎÇøÉÂÎ÷Ê¡¸ÊËàÊ¡Çàº£Ê¡ÄþÏÄ»Ø×å×ÔÖÎÇøÐÂ½®Î¬Îá¶û×ÔÖÎÇø'

districts = text.split(' ')
print(districts)

ÔËÐÐ¸Ã´úÂë£¬½«»áÊä³öÌáÈ¡µ½µÄÐÐÕþÇø»®Ãû³ÆÁÐ±í£º

['±±¾©ÊÐ', 'Ìì½òÊÐ', 'ºÓ±±Ê¡', 'É½Î÷Ê¡', 'ÄÚÃÉ¹Å×ÔÖÎÇø', 'ÁÉÄþÊ¡', '¼ªÁÖÊ¡', 'ºÚÁú½Ê¡', 'ÉÏº£ÊÐ', '½ËÕÊ¡', 'Õã½Ê¡', '°²»ÕÊ¡', '¸£½¨Ê¡', '½Î÷Ê¡', 'É½¶«Ê¡', 'ºÓÄÏÊ¡', 'ºþ±±Ê¡', 'ºþÄÏÊ¡', '¹ã¶«Ê¡', '¹ãÎ÷×³×å×ÔÖÎÇø', 'º£ÄÏÊ¡', 'ÖØÇìÊÐ', 'ËÄ´¨Ê¡', '¹óÖÝÊ¡', 'ÔÆÄÏÊ¡', 'Î÷²Ø×ÔÖÎÇø', 'ÉÂÎ÷Ê¡', '¸ÊËàÊ¡', 'Çàº£Ê¡', 'ÄþÏÄ»Ø×å×ÔÖÎÇø', 'ÐÂ½®Î¬Îá¶û×ÔÖÎÇø']

ÕâÑù£¬Äã¾ÍµÃµ½ÁËÒ»¸ö°üº¬ËùÓÐÐÐÕþÇø»®Ãû³ÆµÄÁÐ±í¡£Äã¿ÉÒÔ¸ù¾ÝÊµ¼ÊÐèÒª½øÐÐºóÐø´¦Àí¡£

Ï£ÍûÕâ´ÎµÄ»Ø´ð¸ü¼ÓÇåÎúÃ÷ÁË£¬Èç¹û»¹ÓÐÆäËûÎÊÌâ£¬ÇëËæÊ±ÌáÎÊ¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-10 11:13:53

FishC ·¢±íÓÚ 2024-4-10 11:09
ÊÇµÄ£¬ÄãÌá¹©µÄÎÄ±¾ÖÐ°üº¬ÁË¶à¸öÐÐÕþÇø»®Ãû³Æ£¬¿ÉÒÔÊ¹ÓÃÕýÔò±í´ïÊ½À´Æ¥ÅäÕâÐ©Ãû³Æ¡£ÏÂÃæÊÇÒ»¸öÊ¾Àý´úÂë ...

ÏÖÔÚµÄÐèÇóÊÇ°ÑÏÂÁÐ´úÂëÖÐ

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3c.org/TR/1999/REC-html401-19991224/loose.dtd"><HTML><HEAD><META content="text/html; charset=utf-8" http-equiv=Content-Type><TITLE>2023ÄêÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂë</TITLE><STYLE type=text/css>BODY {MARGIN: 0px}BODY {FONT-SIZE: 12px}TD {FONT-SIZE: 12px}TH {FONT-SIZE: 12px}.redBig {COLOR: #d00018;FONT-SIZE: 18px;FONT-WEIGHT: bold}.STYLE3 a {COLOR: #fff;text-decoration: none;}.STYLE5 {COLOR: #236fbe;FONT-WEIGHT: bold}.content {LINE-HEIGHT: 1.5;FONT-SIZE: 10.4pt}.tdPading {PADDING-LEFT: 30px}.blue {COLOR: #0000ff}.STYLE6 {COLOR: #ffffff}.a2 {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px}a2:link {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px}a2:hover {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px;TEXT-DECORATION: underline}a2:visited {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px} p{ text-indent:2em;margin:0;padding:0;}</STYLE><SCRIPT language=javascript>function doZoom(size) {document.getElementById("zoom").style.fontSize = size + "px";}</SCRIPT><META name=GENERATOR content="MSHTML 8.00.7600.16700"></HEAD><BODY><TABLE border=0 cellSpacing=0 cellPadding=0 width=778 align=center><TBODY><TR><TD colSpan=2><IMG src="http://www.stats.gov.cn/images/banner.jpg" width=778 height=135></TD></TR></TBODY></TABLE><MAP id=Map name=Map><AREAshape=rect coords=277,4,328,18><AREAshape=rect coords=181,4,236,18><AREAshape=rect coords=85,4,140,17></MAP><TABLE border=0 cellSpacing=0 cellPadding=0 width=778 align=center><TBODY><TR><TD vAlign=top><TABLE style="MARGIN-TOP: 15px; MARGIN-BOTTOM: 18px" border=0 cellSpacing=0 cellPadding=0 width="100%" align=center><TBODY><TR><TD style=" BACKGROUND-REPEAT: repeat-x; BACKGROUND-POSITION: 50% top" background=images/topLine.gif align=right></TD></TR><TR><TD style=" BACKGROUND-REPEAT: repeat-y; BACKGROUND-POSITION: right 50%" vAlign=top background=images/rightBorder.gif><TABLE border=0 cellSpacing=0 cellPadding=0 width="100%"><TBODY><TR><TD width="1%" height="200" vAlign=top><table class="provincetable" width=775><tr><td colspan=8 height=1 style="FONT-SIZE: 5px"> </td></tr><tr class="provincehead"><td colspan=8 align="center" style="FONT-SIZE: 16px" height=39 vAlign="center" background="images/tiao.jpg"> <strong>¹ØÓÚ¸üÐÂÈ«¹úÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëµÄ¹«¸æ</strong> </td></tr> <tr> <td colspan=8 height=50 style="FONT-SIZE: 12px"> <p>2023Äê¶ÈÈ«¹úÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëÒÑÍê³É¸üÐÂÎ¬»¤¹¤×÷£¬ÏÖÓè¹«²¼¡£¸Ã´úÂëÒÀ¾Ý¹úÎñÔºÅú¸´Í¬ÒâµÄ¡¶¹ØÓÚÍ³¼ÆÉÏ»®·Ö³ÇÏçµÄ¹æ¶¨¡·£¨¹úº¯¡²2008¡³60ºÅ£©¼°¹ú¼ÒÍ³¼Æ¾ÖÓ¡·¢µÄ¡¶Í³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂë±àÖÆ¹æÔò¡·£¨¹úÍ³×Ö¡²2009¡³91ºÅ£©±àÖÆ¡£</p> <p>´Ë´Î·¢²¼ÄÚÈÝÎª2023ÄêÈ«¹úÍ³¼ÆÓÃÇø»®´úÂë£¨12Î»£©ºÍ³ÇÏç·ÖÀà´úÂë£¨3Î»£©£¬µØÓò·¶Î§Îª¹ú¼ÒÍ³¼Æ¾Ö¿ªÕ¹Í³¼Æµ÷²éµÄÈ«¹ú31¸öÊ¡£¨×ÔÖÎÇø¡¢Ö±Ï½ÊÐ£©£¬Î´°üÀ¨ÎÒ¹úÌ¨ÍåÊ¡¡¢Ïã¸ÛÌØ±ðÐÐÕþÇøºÍ°ÄÃÅÌØ±ðÐÐÕþÇø¡£</p> <p>ÎªÂú×ãµÚÎå´ÎÈ«¹ú¾¼ÃÆÕ²éÐèÒª£¬2023Äê¶ÈÈ«¹úÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂë¸üÐÂÎ¬»¤µÄ±ê×¼Ê±µãµ÷ÕûÎª2023Äê6ÔÂ30ÈÕ¡£</p> <p>¡¶¹ØÓÚÍ³¼ÆÉÏ»®·Ö³ÇÏçµÄ¹æ¶¨¡·Ö¸³ö£º¡°±¾¹æ¶¨×÷ÎªÍ³¼ÆÉÏ»®·Ö³ÇÏçµÄÒÀ¾Ý£¬²»¸Ä±äÏÖÓÐµÄÐÐÕþÇø»®¡¢Á¥Êô¹ØÏµ¡¢¹ÜÀíÈ¨ÏÞºÍ»ú¹¹±àÖÆ£¬ÒÔ¼°ÍÁµØ¹æ»®¡¢³ÇÏç¹æ»®µÈÓÐ¹Ø¹æ¶¨¡±¡£Í³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëÓÃÓÚÍ³¼Æ¹¤×÷£¬ÐèÒªÔÚÆäËû¹¤×÷ÖÐÊ¹ÓÃÊ±£¬ÇëÎñ±Ø½áºÏÓÐ¹ØÊµ¼ÊÇé¿ö¡£</p> </td></tr><tr class="provincetr"><td><a href="11.html">±±¾©ÊÐ<br /></a></td><td><a href="12.html">Ìì½òÊÐ<br /></a></td><td><a href="13.html">ºÓ±±Ê¡<br /></a></td><td><a href="14.html">É½Î÷Ê¡<br /></a></td><td><a href="15.html">ÄÚÃÉ¹Å×ÔÖÎÇø<br /></a></td><td><a href="21.html">ÁÉÄþÊ¡<br /></a></td><td><a href="22.html">¼ªÁÖÊ¡<br /></a></td><td><a href="23.html">ºÚÁú½Ê¡<br /></a></td></tr><tr class="provincetr"><td><a href="31.html">ÉÏº£ÊÐ<br /></a></td><td><a href="32.html">½ËÕÊ¡<br /></a></td><td><a href="33.html">Õã½Ê¡<br /></a></td><td><a href="34.html">°²»ÕÊ¡<br /></a></td><td><a href="35.html">¸£½¨Ê¡<br /></a></td><td><a href="36.html">½Î÷Ê¡<br /></a></td><td><a href="37.html">É½¶«Ê¡<br /></a></td><td><a href="41.html">ºÓÄÏÊ¡<br /></a></td></tr><tr class="provincetr"><td><a href="42.html">ºþ±±Ê¡<br /></a></td><td><a href="43.html">ºþÄÏÊ¡<br /></a></td><td><a href="44.html">¹ã¶«Ê¡<br /></a></td><td><a href="45.html">¹ãÎ÷×³×å×ÔÖÎÇø<br /></a></td><td><a href="46.html">º£ÄÏÊ¡<br /></a></td><td><a href="50.html">ÖØÇìÊÐ<br /></a></td><td><a href="51.html">ËÄ´¨Ê¡<br /></a></td><td><a href="52.html">¹óÖÝÊ¡<br /></a></td></tr><tr class="provincetr"><td><a href="53.html">ÔÆÄÏÊ¡<br /></a></td><td><a href="54.html">Î÷²Ø×ÔÖÎÇø<br /></a></td><td><a href="61.html">ÉÂÎ÷Ê¡<br /></a></td><td><a href="62.html">¸ÊËàÊ¡<br /></a></td><td><a href="63.html">Çàº£Ê¡<br /></a></td><td><a href="64.html">ÄþÏÄ»Ø×å×ÔÖÎÇø<br /></a></td><td><a href="65.html">ÐÂ½®Î¬Îá¶û×ÔÖÎÇø<br /></a></td></tr></table></TD></TR></TBODY></TABLE></TD></TR><TR><TD style="BACKGROUND-REPEAT: repeat-x; BACKGROUND-POSITION: 50% top" background=images/borderBottom.gif></TD></TR></TBODY></TABLE></TD></TR><TR><TD bgColor=#e2eefc height=2></TD></TR><TR><TD class=STYLE3 height=60><DIV align=center style="background-color:#1E67A7; height:75px; color:#fff;"><br /> °æÈ¨ËùÓÐ£º¹ú¼ÒÍ³¼Æ¾Ö <A class=STYLE3target=_blank>¾©ICP±¸05034670ºÅ</A><BR><BR>µØÖ·£º±±¾©ÊÐÎ÷³ÇÇøÔÂÌ³ÄÏ½Ö57ºÅ£¨100826£©<BR></DIV></TD></TR></TBODY></TABLE></BODY></HTML>

"11.html"±±¾©ÊÐ Ö±µ½ "65.html"ÐÂ½®Î¬Îá¶û×ÔÖÎÇø ÕâÐ©ÄÚÈÝÌáÈ¡³öÀ´¡£

FishC ·¢±íÓÚ 2024-4-10 11:14:09

ƒõ·ç ·¢±íÓÚ 2024-04-10 11:13
ÏÖÔÚµÄÐèÇóÊÇ°ÑÏÂÁÐ´úÂëÖÐ

2023ÄêÍ³¼ÆÓÃÇø»®´úÂëºÍ ...

Äã¿ÉÒÔÊ¹ÓÃÕýÔò±í´ïÊ½À´ÌáÈ¡³öÎÄ±¾ÖÐµÄÐÐÕþÇø»®Ãû³Æ¡£ÏÂÃæÊÇÒ»¸öÊ¾Àý´úÂë£¬ÑÝÊ¾ÁËÈçºÎÊ¹ÓÃÕýÔò±í´ïÊ½ÌáÈ¡³ö°üº¬ÔÚÎÄ±¾ÖÐµÄÐÐÕþÇø»®Ãû³Æ£ºimport re# ÊäÈëµÄÎÄ±¾text = '¹ØÓÚ¸üÐÂÈ«¹úÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëµÄ¹«¸æ...Ê¡ÄþÏÄ»Ø×å×ÔÖÎÇøÐÂ½®Î¬Îá¶û×ÔÖÎÇø °æÈ¨ËùÓÐ£º¹ú¼ÒÍ³¼Æ¾Ö ¾©ICP±¸05034670ºÅµØÖ·£º±±¾©ÊÐÎ÷³ÇÇøÔÂÌ³ÄÏ½Ö57ºÅ£¨100826£©"11.html"±±¾©ÊÐ Ö±µ½ "65.html"ÐÂ½®Î¬Îá¶û×ÔÖÎÇø'# ¶¨ÒåÕýÔò±í´ïÊ½pattern = r'([±±¾©ÊÐÌì½òÊÐºÓ±±Ê¡É½Î÷Ê¡ÄÚÃÉ¹Å×ÔÖÎÇøÁÉÄþÊ¡¼ªÁÖÊ¡ºÚÁú½Ê¡ÉÏº£ÊÐ½ËÕÊ¡Õã½Ê¡°²»ÕÊ¡¸£½¨Ê¡½Î÷Ê¡É½¶«Ê¡ºÓÄÏÊ¡ºþ±±Ê¡ºþÄÏÊ¡¹ã¶«Ê¡¹ãÎ÷×³×å×ÔÖÎÇøº£ÄÏÊ¡ÖØÇìÊÐËÄ´¨Ê¡¹óÖÝÊ¡ÔÆÄÏÊ¡Î÷²Ø×ÔÖÎÇøÉÂÎ÷Ê¡¸ÊËàÊ¡Çàº£Ê¡ÄþÏÄ»Ø×å×ÔÖÎÇøÐÂ½®Î¬Îá¶û×ÔÖÎÇø]+)'# ÔÚÎÄ±¾ÖÐ²éÕÒÆ¥ÅäµÄÄÚÈÝmatches = re.findall(pattern, text)# Êä³öÆ¥Åä½á¹ûfor match in matches: print(match)ÔËÐÐ¸Ã´úÂë£¬½«»áÊä³öÆ¥Åäµ½µÄÐÐÕþÇø»®Ãû³ÆÁÐ±í£º±±¾©ÊÐÌì½òÊÐºÓ±±Ê¡É½Î÷Ê¡ÄÚÃÉ¹Å×ÔÖÎÇøÁÉÄþÊ¡¼ªÁÖÊ¡ºÚÁú½Ê¡ÉÏº£ÊÐ½ËÕÊ¡Õã½Ê¡°²»ÕÊ¡¸£½¨Ê¡½Î÷Ê¡É½¶«Ê¡ºÓÄÏÊ¡ºþ±±Ê¡ºþÄÏÊ¡¹ã¶«Ê¡¹ãÎ÷×³×å×ÔÖÎÇøº£ÄÏÊ¡ÖØÇìÊÐËÄ´¨Ê¡¹óÖÝÊ¡ÔÆÄÏÊ¡Î÷²Ø×ÔÖÎÇøÉÂÎ÷Ê¡¸ÊËàÊ¡Çàº£Ê¡ÄþÏÄ»Ø×å×ÔÖÎÇøÐÂ½®Î¬Îá¶û×ÔÖÎÇøÇë×¢Òâ£¬ÉÏÊöÕýÔò±í´ïÊ½ÖÐÁÐ¾ÙÁËËùÓÐµÄÐÐÕþÇø»®Ãû³Æ£¬²¢Ê¹ÓÃÁË"+"ºÅ±íÊ¾Æ¥Åä¶à´Î¡£Èç¹ûÄãÒªÆ¥ÅäµÄÄÚÈÝ²»½öÏÞÓÚÕâÐ©ÐÐÕþÇø»®Ãû³Æ£¬¿ÉÒÔ½øÐÐÏàÓ¦µÄÐÞ¸Ä¡£Ï£ÍûÄÜ¶ÔÄãÓÐËù°ïÖú£¡Èç¹û»¹ÓÐÆäËûÎÊÌâ£¬ÇëËæÊ±ÌáÎÊ¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-10 15:08:20

±¾Ìû×îºóÓÉ ƒõ·ç ÓÚ 2024-4-10 15:14 ±à¼

ƒõ·ç ·¢±íÓÚ 2024-4-10 11:13
ÏÖÔÚµÄÐèÇóÊÇ°ÑÏÂÁÐ´úÂëÖÐ

2023ÄêÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëBODY {MARGIN: 0px}BODY {FONT-SIZE: 1 ...

ÇëÎÊ </td></tr><tr class="provincetr"><td><a href="11.html">±±¾©ÊÐ<br /></a></td>ÕâÒ»¾äÖÐ£¬

ÒªÈ¡³öclass¡¢±±¾©ÊÐÒªÔõÃ´Ð´ÄØ£¿

# Êä³öµÚÒ»¸öa ±êÇ©µÄhref ÊôÐÔÄÚÈÝ
print('µÚÒ»¸öa±êÇ©µÄhrefÊôÐÔÄÚÈÝ£º', soup.a['href'])¿ÉÒÔÓÃ£¬

µ«
# Êä³öµÚÒ»¸ötr±êÇ©µÄ class ÊôÐÔÄÚÈÝ
print('µÚÒ»¸ötr±êÇ©µÄclassÊôÐÔÄÚÈÝ£º', soup.tr['class'])»á±¨´í£º

print('µÚÒ»¸ötr±êÇ©µÄclassÊôÐÔÄÚÈÝ£º', soup.tr['class'])
~~~~~~~^^^^^^^^^
KeyError: 'class'

FishC ·¢±íÓÚ 2024-4-10 15:08:29

ƒõ·ç ·¢±íÓÚ 2024-04-10 15:08
ÇëÎÊ ±±¾©ÊÐÕâÒ»¾äÖÐ£¬

ÒªÈ¡³öclass¡¢±±¾©ÊÐÒªÔõ ...

Èç¹ûÒªÌáÈ¡³ö"±±¾©ÊÐ"Õâ¸öÐÐÕþÇø»®Ãû³ÆÒÔ¼°Æä¶ÔÓ¦µÄclass£¬Äú¿ÉÒÔÊ¹ÓÃÕýÔò±í´ïÊ½À´Æ¥Åä²¢ÌáÈ¡ÕâÐ©ÐÅÏ¢¡£ÒÔÏÂÊÇÒ»¸öÊ¾Àý´úÂë£º

import re

text = '±±¾©ÊÐÌì½òÊÐºÓ±±Ê¡É½Î÷Ê¡ÄÚÃÉ¹Å×ÔÖÎÇøÁÉÄþÊ¡¼ªÁÖÊ¡ºÚÁú½Ê¡ÉÏº£ÊÐ½ËÕÊ¡Õã½Ê¡°²»ÕÊ¡¸£½¨Ê¡½Î÷Ê¡É½¶«Ê¡ºÓÄÏÊ¡ºþ±±Ê¡ºþÄÏÊ¡¹ã¶«Ê¡¹ãÎ÷×³×å×ÔÖÎÇøº£ÄÏÊ¡ÖØÇìÊÐËÄ´¨Ê¡¹óÖÝÊ¡ÔÆÄÏÊ¡Î÷²Ø×ÔÖÎÇøÉÂÎ÷Ê¡¸ÊËàÊ¡Çàº£Ê¡ÄþÏÄ»Ø×å×ÔÖÎÇøÐÂ½®Î¬Îá¶û×ÔÖÎÇø °æÈ¨ËùÓÐ£º¹ú¼ÒÍ³¼Æ¾Ö'

pattern = r'(?P<class>+).html"(?P<name>.*?)\s+'

matches = re.findall(pattern, text)
for match in matches:
print(f'class: {match}, name: {match}')

ÔÚÉÏÊö´úÂëÖÐ£¬ÎÒÃÇÊ¹ÓÃÁËÕýÔò±í´ïÊ½Ä£Ê½`(?P<class>+).html"(?P<name>.*?)\s+`À´Æ¥Åä°üº¬ÐÐÕþÇø»®Ãû³ÆºÍclassµÄÄÚÈÝ¡£È»ºóÊ¹ÓÃ`re.findall()`·½·¨À´ÕÒµ½ËùÓÐÆ¥ÅäµÄ½á¹û£¬×îºó±éÀúÊä³öÃ¿¸ö½á¹ûµÄclassºÍname¡£

Çë×¢Òâ£¬ÎÒÖ»ÊÇ¸ù¾ÝÌá¹©µÄÎÄ±¾Æ¬¶Î¸ø³öÁËÒ»¸öÊ¾Àý£¬¾ßÌåµÄÕýÔò±í´ïÊ½Ä£Ê½ÐèÒª¸ù¾ÝÊý¾ÝµÄÊµ¼ÊÇé¿ö½øÐÐµ÷Õû¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-11 16:31:39

FishC ·¢±íÓÚ 2024-4-10 11:10
±§Ç¸£¬¿ÉÄÜÎÒµÄ»Ø´ðÓÐÐ©»ÞÉ¬ÄÑ¶®ÁË¡£Êµ¼ÊÉÏ£¬ÄãÌá¹©µÄÎÄ±¾ÖÐÒÑ¾°´ÕÕÒ»¶¨µÄ¹æÂÉ½«ÐÐÕþÇø»®Ãû³ÆÅÅÁÐºÃÁË ...

ÏÖÓÐÈçÏÂ´úÂë£º
import re
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

url = "https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/index.html"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
"Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Cookie": "wzws_sessionid=gWRmZGNjZaBmFfeqgjdlZDJkMIA2MC4xNjAuMTU2LjUw"
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding
text = res.text
# Ê¹ÓÃBeautifulSoup½âÎöÍøÒ³ÄÚÈÝ
soup = BeautifulSoup(text, 'lxml')
# htmltext = soup.prettify()

#´´½¨¹¤×÷²¾
wb = Workbook()
sheet = wb.active
sheet.title = 'ÐÐÕþÇø»®'
headers = ['±àÂë', 'Ãû³Æ']
sheet.append(headers)

#Ê¡¼¶´úÂë
province_list = soup.select('tr.provincetr a')
for province in province_list:
href = province.get("href")
province_code = href + "0000000000"
# print('province_code:', province_code)
province_name = province.text
# print('province_name:', province_name)
# Êä³ö£º¼¶±ð¡¢Çø»®´úÂë¡¢Ãû³Æ
# content = "1\t" + province_code + "\t" + province_name
# print(content)
sheet.append(province_code, province_name)
wb.save('E:/Temp/ÐÐÕþÇø»®.xlsx')

ÇëÎÊÎªÊ²Ã´Îª±¨´í£ºTraceback (most recent call last):
line 40, in <module>
sheet.append(province_code, province_name)
TypeError: Worksheet.append() takes 2 positional arguments but 3 were given

FishC ·¢±íÓÚ 2024-4-11 16:32:07

ƒõ·ç ·¢±íÓÚ 2024-04-11 16:31
ÏÖÓÐÈçÏÂ´úÂë£º
import re
import requests
from b ...

ÄãºÃ£¡¸ù¾Ý´íÎóÌáÊ¾£¬`Worksheet.append()`·½·¨Ö»½ÓÊÜÒ»¸ö²ÎÊý×÷ÎªÊäÈë£¬¶øÄãÔÚµ÷ÓÃÊ±´«ÈëÁËÁ½¸ö²ÎÊý¡£Ó¦¸Ã½«`province_code`ºÍ`province_name`×÷ÎªÒ»¸öÁÐ±í´«µÝ¸ø`append()`·½·¨¡£ÐÞ¸Ä´úÂëÈçÏÂ£ºimport reimport requestsfrom bs4 import BeautifulSoupfrom openpyxl import Workbookurl = "https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/index.html"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8", "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2", "Accept-Encoding": "gzip, deflate, br", "Connection": "keep-alive", "Cookie": "wzws_sessionid=gWRmZGNjZaBmFfeqgjdlZDJkMIA2MC4xNjAuMTU2LjUw" }res = requests.get(url, headers=headers)res.encoding = res.apparent_encodingtext = res.text# Ê¹ÓÃBeautifulSoup½âÎöÍøÒ³ÄÚÈÝsoup = BeautifulSoup(text, 'lxml')# ´´½¨¹¤×÷²¾wb = Workbook()sheet = wb.activesheettitle = 'ÐÐÕþÇø»®'headers = sheet.append(headers)# Ê¡¼¶´úÂëprovince_list = soup.select('tr.provincetr a')for province in province_list: href = province.get("href") province_code = href + "0000000000" province_name = province.text # ½«Ê¡¼¶´úÂëºÍÃû³Æ×÷ÎªÁÐ±í´«µÝ¸øappend()·½·¨ sheet.append()wb.save('E:/Temp/ÐÐÕþÇø»®.xlsx')ÏÖÔÚ£¬`province_code`ºÍ`province_name`±»·â×°ÔÚÒ»¸öÁÐ±íÖÐ£¬´«µÝ¸ø`append()`·½·¨¡£ÕâÑù¾Í±ÜÃâÁËTypeError´íÎó¡£Ï£ÍûÄÜ°ïÖúµ½Äã£¡Èç¹û»¹ÓÐÆäËûÎÊÌâ£¬ÇëËæÊ±ÌáÎÊ¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-11 16:32:28

FishC ·¢±íÓÚ 2024-4-11 16:32
ÄãºÃ£¡¸ù¾Ý´íÎóÌáÊ¾£¬`Worksheet.append()`·½·¨Ö»½ÓÊÜÒ»¸ö²ÎÊý×÷ÎªÊäÈë£¬¶øÄãÔÚµ÷ÓÃÊ±´«ÈëÁËÁ½¸ö²ÎÊý¡£ ...

»Ø¸´Çë×¢ÒâPython¸ñÊ½

FishC ·¢±íÓÚ 2024-4-11 16:32:51

ƒõ·ç ·¢±íÓÚ 2024-04-11 16:32
»Ø¸´Çë×¢ÒâPython¸ñÊ½

·Ç³£±§Ç¸£¬ÎÒ»á×¢Òâ¸ñÊ½ÎÊÌâµÄ¡£ÏÂÃæÊÇÐÞ¸ÄºóµÄ´úÂë£¬×¢ÒâPythonµÄËõ½øºÍ´úÂë·ç¸ñ£ºimport re
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

url = "https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/index.html"

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
"Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Cookie": "wzws_sessionid=gWRmZGNjZaBmFfeqgjdlZDJkMIA2MC4xNjAuMTU2LjUw"
}

res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding
text = res.text

# Ê¹ÓÃBeautifulSoup½âÎöÍøÒ³ÄÚÈÝ
soup = BeautifulSoup(text, 'lxml')

# ´´½¨¹¤×÷²¾
wb = Workbook()
sheet = wb.active
sheet.title = 'ÐÐÕþÇø»®'
headers = sheet.append(headers)

# Ê¡¼¶´úÂë
province_list = soup.select('tr.provincetr a')
for province in province_list:
href = province.get("href")
province_code = href + "0000000000"
province_name = province.text

# ½«Ê¡¼¶´úÂëºÍÃû³Æ×÷ÎªÁÐ±í´«µÝ¸øappend()·½·¨
sheet.append()

wb.save('E:/Temp/ÐÐÕþÇø»®.xlsx')

ÏÖÔÚ´úÂëÒÑ¾×ñÑÁËPythonµÄËõ½ø¹æÔò£¬²¢ÇÒÊ¹ÓÃÁËºÏÊÊµÄ´úÂë·ç¸ñ¡£Ï£ÍûÕâ´ÎµÄ»Ø´ðÄÜ¹»·ûºÏÄúµÄÆÚÍû¡£Èç¹û»¹ÓÐÆäËûÎÊÌâ£¬ÇëËæÊ±ÌáÎÊ¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-12 14:42:19

FishC ·¢±íÓÚ 2024-4-11 16:32
·Ç³£±§Ç¸£¬ÎÒ»á×¢Òâ¸ñÊ½ÎÊÌâµÄ¡£ÏÂÃæÊÇÐÞ¸ÄºóµÄ´úÂë£¬×¢ÒâPythonµÄËõ½øºÍ´úÂë·ç¸ñ£ºimport re
import...

ÏÖÓÐ´úÂëÈçÏÂ£º
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3c.org/TR/1999/REC-html401-19991224/loose.dtd">
<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<title>
2023ÄêÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂë
</title>
<style type="text/css">
BODY {MARGIN: 0px}BODY {FONT-SIZE: 12px}TD {FONT-SIZE: 12px}TH {FONT-SIZE: 12px}.redBig {COLOR: #d00018;FONT-SIZE: 18px;FONT-WEIGHT: bold}.STYLE3 a {COLOR: #fff;text-decoration: none;}.STYLE5 {COLOR: #236fbe;FONT-WEIGHT: bold}.content {LINE-HEIGHT: 1.5;FONT-SIZE: 10.4pt}.tdPading {PADDING-LEFT: 30px}.blue {COLOR: #0000ff}.STYLE6 {COLOR: #ffffff}.a2 {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px}a2:link {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px}a2:hover {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px;TEXT-DECORATION: underline}a2:visited {LINE-HEIGHT: 1.5;COLOR: #2a6fbd;FONT-SIZE: 12px} p{ text-indent:2em;margin:0;padding:0;}
</style>
<script language="javascript">
function doZoom(size) {document.getElementById("zoom").style.fontSize = size + "px";}
</script>
<meta content="MSHTML 8.00.7600.16700" name="GENERATOR"/>
</head>
<body>
<table align="center" border="0" cellpadding="0" cellspacing="0" width="778">
<tbody>
<tr>
<td colspan="2">
   <img height="135" src="http://www.stats.gov.cn/images/banner.jpg" width="778"/>
</td>
</tr>
</tbody>
</table>
<map id="Map" name="Map">
<area coords="277,4,328,18"shape="rect"/>
<area coords="181,4,236,18"shape="rect"/>
<area coords="85,4,140,17"shape="rect"/>
</map>
<table align="center" border="0" cellpadding="0" cellspacing="0" width="778">
<tbody>
<tr>
<td valign="top">
   <table align="center" border="0" cellpadding="0" cellspacing="0" style="MARGIN-TOP: 15px; MARGIN-BOTTOM: 18px" width="100%">
   <tbody>
   <tr>
      <td align="right" background="images/topLine.gif" style=" BACKGROUND-REPEAT: repeat-x; BACKGROUND-POSITION: 50% top">
      </td>
   </tr>
   <tr>
      <td background="images/rightBorder.gif" style=" BACKGROUND-REPEAT: repeat-y; BACKGROUND-POSITION: right 50%" valign="top">
      <table border="0" cellpadding="0" cellspacing="0" width="100%">
      <tbody>
         <tr>
         <td height="200" valign="top" width="1%">
         <table class="provincetable" width="775">
            <tr>
            <td colspan="8" height="1" style="FONT-SIZE: 5px">
            </td>
            </tr>
            <tr class="provincehead">
            <td align="center" background="images/tiao.jpg" colspan="8" height="39" style="FONT-SIZE: 16px" valign="center">
            <strong>
               ¹ØÓÚ¸üÐÂÈ«¹úÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëµÄ¹«¸æ
            </strong>
            </td>
            </tr>
            <tr>
            <td colspan="8" height="50" style="FONT-SIZE: 12px">
            <p>
               2023Äê¶ÈÈ«¹úÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëÒÑÍê³É¸üÐÂÎ¬»¤¹¤×÷£¬ÏÖÓè¹«²¼¡£¸Ã´úÂëÒÀ¾Ý¹úÎñÔºÅú¸´Í¬ÒâµÄ¡¶¹ØÓÚÍ³¼ÆÉÏ»®·Ö³ÇÏçµÄ¹æ¶¨¡·£¨¹úº¯¡²2008¡³60ºÅ£©¼°¹ú¼ÒÍ³¼Æ¾ÖÓ¡·¢µÄ¡¶Í³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂë±àÖÆ¹æÔò¡·£¨¹úÍ³×Ö¡²2009¡³91ºÅ£©±àÖÆ¡£
            </p>
            <p>
               ´Ë´Î·¢²¼ÄÚÈÝÎª2023ÄêÈ«¹úÍ³¼ÆÓÃÇø»®´úÂë£¨12Î»£©ºÍ³ÇÏç·ÖÀà´úÂë£¨3Î»£©£¬µØÓò·¶Î§Îª¹ú¼ÒÍ³¼Æ¾Ö¿ªÕ¹Í³¼Æµ÷²éµÄÈ«¹ú31¸öÊ¡£¨×ÔÖÎÇø¡¢Ö±Ï½ÊÐ£©£¬Î´°üÀ¨ÎÒ¹úÌ¨ÍåÊ¡¡¢Ïã¸ÛÌØ±ðÐÐÕþÇøºÍ°ÄÃÅÌØ±ðÐÐÕþÇø¡£
            </p>
            <p>
               ÎªÂú×ãµÚÎå´ÎÈ«¹ú¾¼ÃÆÕ²éÐèÒª£¬2023Äê¶ÈÈ«¹úÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂë¸üÐÂÎ¬»¤µÄ±ê×¼Ê±µãµ÷ÕûÎª2023Äê6ÔÂ30ÈÕ¡£
            </p>
            <p>
               ¡¶¹ØÓÚÍ³¼ÆÉÏ»®·Ö³ÇÏçµÄ¹æ¶¨¡·Ö¸³ö£º¡°±¾¹æ¶¨×÷ÎªÍ³¼ÆÉÏ»®·Ö³ÇÏçµÄÒÀ¾Ý£¬²»¸Ä±äÏÖÓÐµÄÐÐÕþÇø»®¡¢Á¥Êô¹ØÏµ¡¢¹ÜÀíÈ¨ÏÞºÍ»ú¹¹±àÖÆ£¬ÒÔ¼°ÍÁµØ¹æ»®¡¢³ÇÏç¹æ»®µÈÓÐ¹Ø¹æ¶¨¡±¡£Í³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂëÓÃÓÚÍ³¼Æ¹¤×÷£¬ÐèÒªÔÚÆäËû¹¤×÷ÖÐÊ¹ÓÃÊ±£¬ÇëÎñ±Ø½áºÏÓÐ¹ØÊµ¼ÊÇé¿ö¡£
            </p>
            </td>
            </tr>
            <tr class="provincetr">
            <td>
            <a href="11.html">
               ±±¾©ÊÐ
               <br/>
            </a>
            </td>
            <td>
            <a href="12.html">
               Ìì½òÊÐ
               <br/>
            </a>
            </td>
            <td>
            <a href="13.html">
               ºÓ±±Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="14.html">
               É½Î÷Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="15.html">
               ÄÚÃÉ¹Å×ÔÖÎÇø
               <br/>
            </a>
            </td>
            <td>
            <a href="21.html">
               ÁÉÄþÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="22.html">
               ¼ªÁÖÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="23.html">
               ºÚÁú½Ê¡
               <br/>
            </a>
            </td>
            </tr>
            <tr class="provincetr">
            <td>
            <a href="31.html">
               ÉÏº£ÊÐ
               <br/>
            </a>
            </td>
            <td>
            <a href="32.html">
               ½ËÕÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="33.html">
               Õã½Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="34.html">
               °²»ÕÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="35.html">
               ¸£½¨Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="36.html">
               ½Î÷Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="37.html">
               É½¶«Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="41.html">
               ºÓÄÏÊ¡
               <br/>
            </a>
            </td>
            </tr>
            <tr class="provincetr">
            <td>
            <a href="42.html">
               ºþ±±Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="43.html">
               ºþÄÏÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="44.html">
               ¹ã¶«Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="45.html">
               ¹ãÎ÷×³×å×ÔÖÎÇø
               <br/>
            </a>
            </td>
            <td>
            <a href="46.html">
               º£ÄÏÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="50.html">
               ÖØÇìÊÐ
               <br/>
            </a>
            </td>
            <td>
            <a href="51.html">
               ËÄ´¨Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="52.html">
               ¹óÖÝÊ¡
               <br/>
            </a>
            </td>
            </tr>
            <tr class="provincetr">
            <td>
            <a href="53.html">
               ÔÆÄÏÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="54.html">
               Î÷²Ø×ÔÖÎÇø
               <br/>
            </a>
            </td>
            <td>
            <a href="61.html">
               ÉÂÎ÷Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="62.html">
               ¸ÊËàÊ¡
               <br/>
            </a>
            </td>
            <td>
            <a href="63.html">
               Çàº£Ê¡
               <br/>
            </a>
            </td>
            <td>
            <a href="64.html">
               ÄþÏÄ»Ø×å×ÔÖÎÇø
               <br/>
            </a>
            </td>
            <td>
            <a href="65.html">
               ÐÂ½®Î¬Îá¶û×ÔÖÎÇø
               <br/>
            </a>
            </td>
            </tr>
         </table>
         </td>
         </tr>
      </tbody>
      </table>
      </td>
   </tr>
   <tr>
      <td background="images/borderBottom.gif" style="BACKGROUND-REPEAT: repeat-x; BACKGROUND-POSITION: 50% top">
      </td>
   </tr>
   </tbody>
   </table>
</td>
</tr>
<tr>
<td bgcolor="#e2eefc" height="2">
</td>
</tr>
<tr>
<td class="STYLE3" height="60">
   <div align="center" style="background-color:#1E67A7; height:75px; color:#fff;">
   <br/>
   °æÈ¨ËùÓÐ£º¹ú¼ÒÍ³¼Æ¾Ö
   <a class="STYLE3"target="_blank">
   ¾©ICP±¸05034670ºÅ
   </a>
   <br/>
   <br/>
   µØÖ·£º±±¾©ÊÐÎ÷³ÇÇøÔÂÌ³ÄÏ½Ö57ºÅ£¨100826£©
   <br/>
   </div>
</td>
</tr>
</tbody>
</table>
</body>
</html>

ÇëÎÊÄÜ²»ÄÜ°Ñtr class="provincetr"Õâ¾ä¾¹È»Ìô³öÀ´£¿

FishC ·¢±íÓÚ 2024-4-12 14:42:37

ƒõ·ç ·¢±íÓÚ 2024-04-12 14:42
ÏÖÓÐ´úÂëÈçÏÂ£º

2023ÄêÍ³¼ÆÓÃÇø»® ...

ÄãÏëÒªÌáÈ¡µÄÊÇHTMLÖÐµÄ `tr` ±êÇ©£¬²¢ÇÒËüµÄ `class` ÊôÐÔÎª `provincetr`¡£Äã¿ÉÒÔÊ¹ÓÃÕýÔò±í´ïÊ½À´ÌáÈ¡Õâ¸ö²¿·Ö¡£ÏÂÃæÊÇÒ»¸öÊ¾Àý´úÂë£¬ÑÝÊ¾ÁËÈçºÎÊ¹ÓÃPythonÖÐµÄÕýÔò±í´ïÊ½Ä£¿éreÀ´ÌáÈ¡Ö¸¶¨µÄÄÚÈÝ£º

import re

html = """
2023ÄêÍ³¼ÆÓÃÇø»®´úÂëºÍ³ÇÏç»®·Ö´úÂë
...
<tr class="provincetr">
   <td><a href="province/11.html">±±¾©ÊÐ</a></td>
   <td><a href="province/12.html">Ìì½òÊÐ</a></td>
   <td><a href="province/13.html">ºÓ±±Ê¡</a></td>
   <td><a href="province/14.html">É½Î÷Ê¡</a></td>
   ...
</tr>
...
"""

pattern = r'<tr\s+class="provincetr">(.*?)</tr>'
match = re.search(pattern, html, re.S)
if match:
provincetr = match.group(1)
print(provincetr)
else:
print("Î´ÕÒµ½Æ¥ÅäµÄÄÚÈÝ")

ÔÚÉÏÃæµÄ´úÂëÖÐ£¬ÎÒÃÇÊ¹ÓÃÕýÔò±í´ïÊ½ `r'<tr\s+class="provincetr">(.*?)</tr>'` À´Æ¥Åä `<tr class="provincetr">` ºÍ `</tr>` Ö®¼äµÄÄÚÈÝ¡£È»ºó£¬Í¨¹ýµ÷ÓÃ `re.search()` ·½·¨½øÐÐÕýÔòÆ¥Åä²Ù×÷£¬²¢Ê¹ÓÃ `re.S` ±êÖ¾À´Æ¥Åä¿çÐÐµÄÄÚÈÝ¡£Èç¹ûÆ¥Åä³É¹¦£¬ÎÒÃÇ½«»ñÈ¡µ½µÄÄÚÈÝ´òÓ¡³öÀ´¡£

×¢Òâ£ºÊ¹ÓÃÕýÔò±í´ïÊ½ÌáÈ¡HTML»òXMLµÈ½á¹¹»¯Êý¾ÝÊ±£¬×îºÃÊ¹ÓÃ×¨ÃÅµÄHTML»òXML½âÎö¿â£¨ÈçBeautifulSoup£©£¬ÒòÎªËüÃÇ¸ü¾ß¿É¶ÁÐÔºÍ¿ÉÎ¬»¤ÐÔ¡£µ«ÊÇ£¬Èç¹ûÄãÖ»ÊÇÐèÒªÌáÈ¡¼òµ¥µÄÒ»¶ÎÎÄ±¾£¬ÕýÔò±í´ïÊ½¿ÉÄÜ×ã¹»¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-12 14:48:14

FishC ·¢±íÓÚ 2024-4-12 14:42
ÄãÏëÒªÌáÈ¡µÄÊÇHTMLÖÐµÄ `tr` ±êÇ©£¬²¢ÇÒËüµÄ `class` ÊôÐÔÎª `provincetr`¡£Äã¿ÉÒÔÊ¹ÓÃÕýÔò±í´ïÊ½À´Ìá ...

Èç¹ûÒ»¸öÍøÒ³ÖÐÓÐºÜ¶à²ãÈç<tr class="provincetr">¡¢

ÏÂÒ»²ãÓÖÊÇ<tr class="citytr">¡¢

ÏÂÒ»²ãÓÖÊÇ<tr class="county">

ÄÜ²»ÄÜ°ÑÕâÐ©class¶ÁÈ¡³öÀ´´æÈëÒ»¸öÁÐ±í±¸ÊÜÓÃÄØ£¿

FishC ·¢±íÓÚ 2024-4-12 14:48:29

ƒõ·ç ·¢±íÓÚ 2024-04-12 14:48
Èç¹ûÒ»¸öÍøÒ³ÖÐÓÐºÜ¶à²ãÈç¡¢

ÏÂÒ»²ãÓÖÊÇ¡¢

ÏÂÒ» ...

µ±ÍøÒ³µÄ½á¹¹±È½Ï¸´ÔÓ£¬ÓÐ¶à²ãÇ¶Ì×µÄÔªËØ£¬²¢ÇÒÄãÏëÒª½«Ã¿Ò»²ãµÄclass¶¼ÌáÈ¡³öÀ´²¢´æÈëÒ»¸öÁÐ±í£¬¿ÉÒÔÊ¹ÓÃµÝ¹éµÄ·½Ê½À´ÊµÏÖ¡£ÏÂÃæÊÇÒ»¸öÊ¾Àý´úÂë£¬ÑÝÊ¾ÁËÈçºÎÊ¹ÓÃµÝ¹é·½Ê½ÌáÈ¡ HTML ÖÐËùÓÐÔªËØµÄ class ²¢´æ´¢ÔÚÁÐ±íÖÐ£º

import requests
from bs4 import BeautifulSoup

def extract_classes(element, class_list):
if element.has_attr("class"):
   class_list.extend(element["class"])
for child in element.children:
   if child.name is not None:
         extract_classes(child, class_list)

url = "http://example.com"# Ìæ»»³ÉÄãÒªÇëÇóµÄÍøÒ³URL
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, "html.parser")
class_list = []
extract_classes(soup, class_list)

print(class_list)

ÔÚÉÏÃæµÄ´úÂëÖÐ£¬ÎÒÃÇÊ×ÏÈÊ¹ÓÃ `requests` ¿â»ñÈ¡ÍøÒ³µÄ HTML ÄÚÈÝ£¬È»ºóÊ¹ÓÃ `BeautifulSoup` ½âÎöÕâ¸ö HTML¡£½ÓÏÂÀ´¶¨ÒåÁËÒ»¸ö `extract_classes()` º¯Êý£¬¸Ãº¯ÊýÊ¹ÓÃµÝ¹éµÄ·½Ê½±éÀú HTML ÔªËØÊ÷£¬²¢½«Ã¿¸öÔªËØµÄ class ´æÈë´«ÈëµÄÁÐ±í `class_list` ÖÐ¡£

×îºó£¬ÎÒÃÇ´òÓ¡Êä³öÁËÌáÈ¡µ½µÄËùÓÐ class¡£

ÐèÒª×¢ÒâµÄÊÇ£¬ÕâÀïÊ¹ÓÃÁËµÚÈý·½¿â `BeautifulSoup` À´½âÎö HTML£¬ÒòÎªËüÄÜ¹»´¦Àí¸´ÔÓµÄHTML½á¹¹£¬Í¬Ê±Ìá¹©ÁË¼òµ¥Ò×ÓÃµÄAPI¡£ÔÚÔËÐÐ´úÂëÇ°£¬ÐèÈ·±£ÒÑ°²×°ºÃ `beautifulsoup4` ºÍ `requests` ÕâÁ½¸ö¿â¡£¿ÉÒÔÍ¨¹ý `pip install beautifulsoup4 requests` ÃüÁîÀ´°²×°¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-12 14:54:45

FishC ·¢±íÓÚ 2024-4-12 14:48
µ±ÍøÒ³µÄ½á¹¹±È½Ï¸´ÔÓ£¬ÓÐ¶à²ãÇ¶Ì×µÄÔªËØ£¬²¢ÇÒÄãÏëÒª½«Ã¿Ò»²ãµÄclass¶¼ÌáÈ¡³öÀ´²¢´æÈëÒ»¸öÁÐ±í£¬¿ÉÒÔ ...

ÎªÊ²Ã´ÁÐ±í×îÇ°Ãæ¶à³öÀ´Á½¸ö'provincetable', 'provincehead',£¬ºóÃæÒ²¶à³öÀ´Á½¸ö'STYLE3', 'STYLE3'£¿

['provincetable', 'provincehead', 'provincetr', 'provincetr', 'provincetr', 'provincetr',

'STYLE3', 'STYLE3']

FishC ·¢±íÓÚ 2024-4-12 14:54:56

ƒõ·ç ·¢±íÓÚ 2024-04-12 14:54
ÎªÊ²Ã´ÁÐ±í×îÇ°Ãæ¶à³öÀ´Á½¸ö'provincetable', 'provin ...

±§Ç¸£¬ÎÒÖ®Ç°µÄ»Ø´ðÓÐÎóµ¼¡£ÔÚ´úÂëÖÐ£¬ÎÒÃÇÊ¹ÓÃÁË´íÎóµÄ·½·¨½« class Ìí¼Óµ½ÁÐ±íÖÐ¡£ÓÉÓÚ `element` ÊÇÒ»¸ö BeautifulSoup ¶ÔÏó£¬Ëü²¢Ã»ÓÐÖ±½Ó·µ»ØËùÓÐ class µÄÁÐ±í£¬¶øÊÇ·µ»ØÁËÒ»¸ö°üº¬ class µÄ×Ö·û´®¡£Òò´Ë£¬ÎÒÃÇÐèÒª¶ÔÕâ¸ö×Ö·û´®½øÐÐ´¦Àí£¬ÌáÈ¡ÆäÖÐµÄÃ¿¸ö class£¬²¢½«ÆäÌí¼Óµ½ÁÐ±íÖÐ¡£ÒÔÏÂÊÇÐÞ¸ÄºóµÄ´úÂë£ºimport requestsfrom bs4 import BeautifulSoupdef extract_classes(element, class_list): if element.has_attr("class"): class_list.extend(element["class"]) for child in element.children: if child.name is not None: extract_classes(child, class_list)url = "http://example.com"# Ìæ»»³ÉÄãÒªÇëÇóµÄÍøÒ³URLresponse = requests.get(url)html = response.textsoup = BeautifulSoup(html, "html.parser")class_list = []extract_classes(soup, class_list)print(class_list)ÏÖÔÚ£¬ÎÒÃÇ½« class Í¨¹ý `element["class"]` »ñÈ¡£¬²¢½«ÆäÌí¼Óµ½ `class_list` ÖÐ¡£ÕâÑù¾ÍÄÜÕýÈ·µØÌáÈ¡³öÔªËØµÄ class ²¢´æÈëÁÐ±íÖÐ¡£ÔÙ´Î¶ÔÖ®Ç°µÄ´íÎóÔì³ÉµÄÀ§»ó±íÊ¾±§Ç¸£¬Ï£ÍûÕâ´ÎÄÜ¹»½â¾öÄãµÄÎÊÌâ¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-12 14:55:55

FishC ·¢±íÓÚ 2024-4-12 14:54
±§Ç¸£¬ÎÒÖ®Ç°µÄ»Ø´ðÓÐÎóµ¼¡£ÔÚ´úÂëÖÐ£¬ÎÒÃÇÊ¹ÓÃÁË´íÎóµÄ·½·¨½« class Ìí¼Óµ½ÁÐ±íÖÐ¡£ÓÉÓÚ `element` ÊÇ ...

»Ø¸´Çë×¢ÒâPython¸ñÊ½

FishC ·¢±íÓÚ 2024-4-12 14:56:05

ƒõ·ç ·¢±íÓÚ 2024-04-12 14:55
»Ø¸´Çë×¢ÒâPython¸ñÊ½

·Ç³£±§Ç¸Ö®Ç°µÄ»Ø´ðÖÐ³öÏÖÁË¸ñÊ½ÎÊÌâ¡£ÒÔÏÂÊÇÐÞ¸ÄºóµÄ´úÂë£¬·ûºÏPythonµÄ¸ñÊ½ÒªÇó£º

import requests
from bs4 import BeautifulSoup

def extract_classes(element, class_list):
if element.has_attr("class"):
   class_list.extend(element["class"])
for child in element.children:
   if child.name is not None:
         extract_classes(child, class_list)

url = "http://example.com"# Ìæ»»³ÉÄãÒªÇëÇóµÄÍøÒ³URL
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, "html.parser")

class_list = []
extract_classes(soup, class_list)
print(class_list)

ÔÚÕâ¸öÐÞ¸ÄºóµÄ´úÂëÖÐ£¬ÎÒ½« `element` µÄ class ÌáÈ¡Îª×Ö·û´®ÁÐ±í£¬²¢Ê¹ÓÃ `extend()` ·½·¨½«ÆäÌí¼Óµ½ `class_list` ÖÐ¡£Í¬Ê±£¬ÎÒ»¹µ÷ÕûÁË´úÂëµÄËõ½ø£¬Ê¹Æä·ûºÏPythonµÄ¸ñÊ½¹æ·¶¡£ÔÙ´Î¶ÔÖ®Ç°µÄ´íÎó±íÊ¾Ç¸Òâ£¬Ï£ÍûÕâ´ÎµÄ»Ø´ðÄÜ¹»Âú×ãÄãµÄÐèÇó¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

ƒõ·ç ·¢±íÓÚ 2024-4-12 14:57:56

FishC ·¢±íÓÚ 2024-4-12 14:56
·Ç³£±§Ç¸Ö®Ç°µÄ»Ø´ðÖÐ³öÏÖÁË¸ñÊ½ÎÊÌâ¡£ÒÔÏÂÊÇÐÞ¸ÄºóµÄ´úÂë£¬·ûºÏPythonµÄ¸ñÊ½ÒªÇó£º

Ò»ÑùµÄ½á¹û£º

['provincetable', 'provincehead', 'provincetr', 'provincetr', 'provincetr', 'provincetr',

'STYLE3', 'STYLE3']

¶à³öÀ´ÁË²»ÐèÒªµÄ'provincetable', 'provincehead'ºÍ'STYLE3', 'STYLE3¡®¡£

FishC ·¢±íÓÚ 2024-4-12 14:58:09

ƒõ·ç ·¢±íÓÚ 2024-04-12 14:57
Ò»ÑùµÄ½á¹û£º

¶à³öÀ´ÁË²»ÐèÒªµÄ'provincetab ...

·Ç³£±§Ç¸£¬ÎÒÖ®Ç°µÄ»Ø´ð¿ÉÄÜÒýÆðÁËÒ»Ð©Îó½â¡£ÔÚÌáÈ¡HTMLÔªËØµÄclassÊôÐÔÊ±£¬ÎÒÃÇÐèÒª×¢ÒâÑ¡ÔñÕýÈ·µÄclassÊôÐÔÖµ£¬²¢±ÜÃâÑ¡Ôñµ½²»ÐèÒªµÄ²¿·Ö¡£ÒÔÏÂÊÇÐÞÕýºóµÄ´úÂëÊ¾Àý£¬¿ÉÒÔÊµÏÖÖ»ÌáÈ¡³öËùÐèµÄclassÊôÐÔÖµ£ºimport requestsfrom bs4 import BeautifulSoupdef extract_classes(element, class_list): if element.has_attr("class"): classes = element["class"] class_list.extend(classes) for child in element.children: if child.name is not None: extract_classes(child, class_list)url = "http://example.com"# Ìæ»»³ÉÄãÒªÇëÇóµÄÍøÒ³URLresponse = requests.get(url)html = response.textsoup = BeautifulSoup(html, "html.parser")class_list = []extract_classes(soup, class_list)filtered_class_list = ["provincetr", "citytr", "countytr"]result = print(result)ÔÚÕâ¸öÐÞÕýºóµÄ´úÂëÖÐ£¬ÎÒÌí¼ÓÁËÒ»¸ö `filtered_class_list` ±äÁ¿£¬ÓÃÓÚ´æ´¢ÎÒÃÇÐèÒªÌáÈ¡µÄclassÊôÐÔÖµ¡£ÔÚÌáÈ¡ `class` ÊôÐÔÖµºó£¬Í¨¹ý±éÀú `result` ÁÐ±í¼´¿ÉµÃµ½×îÖÕÐèÒªµÄclassÊôÐÔÖµ½á¹û¡£Ï£ÍûÕâ´ÎµÄ»Ø´ðÄÜ¹»½â¾öÄãµÄÎÊÌâ£¡Èç¹û»¹ÓÐÈÎºÎÒÉÎÊ£¬ÇëËæÊ±ÌáÎÊ¡£

ÒÔÉÏ»Ø¸´À´×Ô FishC AI Ð¡ÖúÀí£¬ÈçÎ´ÄÜÕýÈ·½â´ðÄúµÄÎÊÌâ£¬Çë¼ÌÐø×·ÎÊ¡£

Ò³: 1 2 3 4 5 6 [7] 8 9 10 11 12 13

ÓãCÂÛÌ³'s Archiver