°ïÎÒ¿´¿´´íÔÚÄÄ?,Python½»Á÷,¼¼Êõ½»Á÷,ÓãCÂÛÌ³

ssqchina ·¢±íÓÚ 2023-7-20 20:01:03

°ïÎÒ¿´¿´´íÔÚÄÄ?

²»¼ÓºìÉ«²¿·ÖÕý³££¬¼ÓÁË¾ÍÖ»ËÑË÷Ò»´Î

import os
from bs4 import BeautifulSoup

def search_keywords_in_html(directory, keyword):
files = os.listdir(directory)
for file in files:
   if file.endswith('.html'):
         file_path = os.path.join(directory, file)
         with open(file_path, 'r', encoding='UTF-8') as f:
            content = f.read()

         soup = BeautifulSoup(content, "html.parser")
            for script in soup(["script", "style"]):
               script.extract()
               text = soup.text
            lines = (line.strip() for line in text.splitlines())
            chunks = (phrase.strip() for line in lines for phrase in line.split(""))
            text = '\n'.join(chunk for chunk in chunks if chunk)

            keyword_index = text.find(keyword)
            while keyword_index != -1:
               start_index = max(0, keyword_index - 30)
               end_index = min(len(text), keyword_index + len(keyword) + 30)
               text = text
               print(f"Found '{keyword}' in '{file}'")
               print(text)
               keyword_index = text.find(keyword, keyword_index + 1)

# Ö¸¶¨ÒªËÑË÷µÄÄ¿Â¼ºÍ¹Ø¼ü×Ö
directory = r'e:\html×ÊÁÏ'
keyword = input('ÇëÊäÈëÒª²éÑ¯µÄÄÚÈÝ')

search_keywords_in_html(directory, keyword)

Mike_pythonÐ¡ ·¢±íÓÚ 2023-7-20 20:01:12

±¾Ìû×îºóÓÉ Mike_pythonÐ¡ ÓÚ 2023-7-20 20:04 ±à¼

ÎÒ×¢Òâµ½ÄãµÄ´úÂëÖÐÓÐÒ»´¦´íÎó¡£µ±ÄãÊ¹ÓÃBeautifulSoup½âÎöHTMLÊ±£¬ÄãÔÚÌáÈ¡´¿ÎÄ±¾Ö®Ç°²¢Ã»ÓÐ½«scriptºÍstyle±êÇ©´Ósoup¶ÔÏóÖÐÉ¾³ý¡£Õâ¿ÉÄÜ»áµ¼ÖÂÄãËÑË÷¹Ø¼ü×ÖÊ±°üº¬ÁËscriptºÍstyle±êÇ©µÄÎÄ±¾ÄÚÈÝ¡£

ÐÞ¸´Õâ¸öÎÊÌâµÄ·½·¨ÊÇ£¬ÔÚÌáÈ¡´¿ÎÄ±¾Ö®Ç°´Ósoup¶ÔÏóÖÐÉ¾³ýscriptºÍstyle±êÇ©¡£ÐÞ¸ÄÒÔÏÂ´úÂë¶Î£º

for script in soup(["script", "style"]):
script.extract()

ÐÞ¸ÄÎª£º

for script in soup.find_all(["script", "style"]):
script.extract()

ÕâÑù£¬Äã¾ÍÄÜÕýÈ·µØ´ÓÎÄ±¾ÖÐÅÅ³ýscriptºÍstyle±êÇ©£¬²¢½øÐÐ¹Ø¼ü×ÖµÄËÑË÷ÁË¡£

ÐÞ¸ÄºóµÄ´úÂëÈçÏÂ£º
import os
from bs4 import BeautifulSoup

def search_keywords_in_html(directory, keyword):
files = os.listdir(directory)
for file in files:
   if file.endswith('.html'):
         file_path = os.path.join(directory, file)
         with open(file_path, 'r', encoding='UTF-8') as f:
            content = f.read()

            soup = BeautifulSoup(content, "html.parser")
            for script in soup.find_all(["script", "style"]):
               script.extract()
               text = soup.text
            lines = (line.strip() for line in text.splitlines())
            chunks = (phrase.strip() for line in lines for phrase in line.split(""))
            text = '\n'.join(chunk for chunk in chunks if chunk)

            keyword_index = text.find(keyword)
            while keyword_index != -1:
               start_index = max(0, keyword_index - 30)
               end_index = min(len(text), keyword_index + len(keyword) + 30)
               text = text
               print(f"Found '{keyword}' in '{file}'")
               print(text)
               keyword_index = text.find(keyword, keyword_index + 1)

# Ö¸¶¨ÒªËÑË÷µÄÄ¿Â¼ºÍ¹Ø¼ü×Ö
directory = r'e:\html×ÊÁÏ'
keyword = input('ÇëÊäÈëÒª²éÑ¯µÄÄÚÈÝ')

search_keywords_in_html(directory, keyword)

Ï£ÍûÕâ¶ÔÄãÓÐ°ïÖú£¡Èç¹ûÄã»¹ÓÐÆäËûÎÊÌâ£¬ÇëËæÊ±ÌáÎÊ¡£

ÇòÒ»¸ö×î¼Ñ´ð°¸Ð»Ð»À²£¡Õâ¶ÔÎÒ·Ç³£ÖØÒª£¡{:10_254:}{:10_254:}{:10_254:}

ÌÕÔ¶º½ ·¢±íÓÚ 2023-7-20 20:01:23

±¾Ìû×îºóÓÉ ÌÕÔ¶º½ ÓÚ 2023-7-20 20:17 ±à¼

ÄãºÃ£¡¸ù¾ÝÄãÌá¹©µÄ´úÂë£¬ÓÐ¼¸¸öÎÊÌâÐèÒªÐÞÕý£º

1. µ¼ÈëÓï¾äÓ¦¸ÃÐ´ÔÚ´úÂëµÄ¿ªÍ·²¿·Ö£¬²¢ÇÒÃ¿ÐÐÖ»Ð´Ò»¸öµ¼ÈëÓï¾ä¡£ÐÞ¸ÄºóµÄ´úÂëÈçÏÂ£º
import os
from bs4 import BeautifulSoup

2. ÔÚ text µÄ¶¨ÒåÄÇÒ»ÐÐ£¬ÄãÊ¹ÓÃÁË±äÁ¿ lines£¬µ«ÊÇÇ°ÃæÃ»ÓÐ¶¨ÒåÕâ¸ö±äÁ¿¡£ÄãÐèÒª½« lines ¸ÄÎª text£¬´úÂëÈçÏÂ£º
text = soup.text

3. ÔÚ×îºóÒ»ÐÐµÄ search_keywords_in_html(directory, keyword) Ç°ÃæÓ¦¸ÃÓÐËõ½ø¡£½«ÕâÐÐ´úÂëËõ½øÒ»¸öÖÆ±í·û»òËÄ¸ö¿Õ¸ñ¡£

ÐÞ¸ÄºóµÄ´úÂëÈçÏÂ£º
import os
from bs4 import BeautifulSoup

def search_keywords_in_html(directory, keyword):
files = os.listdir(directory)
for file in files:
   if file.endswith('.html'):
         file_path = os.path.join(directory, file)
         with open(file_path, 'r', encoding='UTF-8') as f:
            content = f.read()
         soup = BeautifulSoup(content, "html.parser")
         for script in soup(["script", "style"]):
            script.extract()
         text = soup.text
         chunks = (phrase.strip() for line in text.splitlines() for phrase in line.split(""))
         text = '\n'.join(chunk for chunk in chunks if chunk)
         keyword_index = text.find(keyword)
         while keyword_index != -1:
            start_index = max(0, keyword_index - 30)
            end_index = min(len(text), keyword_index + len(keyword) + 30)
            text = text
            print(f"Found '{keyword}' in '{file}'")
            print(text)
            keyword_index = text.find(keyword, keyword_index + 1)

# Ö¸¶¨ÒªËÑË÷µÄÄ¿Â¼ºÍ¹Ø¼ü×Ö
directory = r'e:\html×ÊÁÏ'
keyword = input('ÇëÊäÈëÒª²éÑ¯µÄÄÚÈÝ£º')
search_keywords_in_html(directory, keyword)

Ï£ÍûÄÜ¶ÔÄãÓÐËù°ïÖú£¡ÈçÓÐÆäËûÎÊÌâ£¬ÇëËæÊ±ÌáÎÊ¡£

isdkz ·¢±íÓÚ 2023-7-20 20:01:32

±¾Ìû×îºóÓÉ isdkz ÓÚ 2023-7-20 20:03 ±à¼

Õâ¸öÎÊÌâ·¢ÉúÔÚwhile keyword_index != -1:Ñ»·ÖÐ£¬¶ø¾ßÌåµÄÔÒòÊÇÄãÔÚÃ¿´ÎÕÒµ½Ò»¸ö¹Ø¼ü×Öºó£¬¶¼»á°Ñtext´Óstart_indexµ½end_indexµÄÄÚÈÝ²Ã¼ô²¢¸³Öµ¸øtext ¡£ÕâÒâÎ¶×ÅÔÚÃ¿´ÎÑ»·µü´úºó£¬text¶¼»á±äµÃ¸ü¶Ì£¬½ø¶ø¿ÉÄÜµ¼ÖÂ¹Ø¼ü×ÖÎÞ·¨ÔÚºóÐøµÄËÑË÷ÖÐ±»·¢ÏÖ¡£

Õâ¾ÍÊÇÎªÊ²Ã´Ö»ËÑµ½Ò»´Î¹Ø¼ü×ÖµÄÔÒò¡£

½â¾öÕâ¸öÎÊÌâµÄ·½·¨ÊÇ´´½¨Ò»¸öÐÂµÄ×Ö·û´®À´´æ´¢²Ã¼ôµÄÄÚÈÝ£¬¶ø²»ÊÇÖ±½ÓÐÞ¸Ätext ¡£

´úÂëÐÞ¸ÄÈçÏÂ£º

# Ê¡ÂÔÎÞ¹Ø´úÂë
while keyword_index != -1:
start_index = max(0, keyword_index - 30)
end_index = min(len(text), keyword_index + len(keyword) + 30)
clipped_text = text# Ê¹ÓÃÐÂµÄ±äÁ¿´æ´¢²Ã¼ôµÄÄÚÈÝ
print(f"Found '{keyword}' in '{file}'")
print(clipped_text)
keyword_index = text.find(keyword, keyword_index + 1)# ÕâÀïÈÔÈ»Ê¹ÓÃÔÊ¼µÄ text ½øÐÐ²éÕÒ
# Ê¡ÂÔÎÞ¹Ø´úÂë

ÔÚÕâ¸öÐÞ¸ÄºóµÄ´úÂëÖÐ£¬ clipped_textÓÃÓÚ´æ´¢ºÍ´òÓ¡²Ã¼ôµÄÎÄ±¾£¬¶øÔÊ¼µÄtextÔò±»ÓÃÓÚ½øÐÐ¹Ø¼ü×ÖµÄ²éÕÒ¡£

sfqxx ·¢±íÓÚ 2023-7-20 20:05:50

Õâ¸öÎÊÌâÊÇÓÉÓÚÃ¿´ÎÕÒµ½¹Ø¼ü×ÖÖ®ºó£¬Äã¶¼ÔÚÔÊ¼ÎÄ±¾ÖÐ½øÐÐÁËÇÐÆ¬²Ù×÷£¬´Ó¶øÊ¹Õû¸öÎÄ±¾±ä¶Ì¡£È»ºó£¬ÄãÔÚÕâ¸ö¶ÌÎÄ±¾ÖÐ¼ÌÐø²éÕÒÏÂÒ»¸ö¹Ø¼ü×Ö¡£ÓÉÓÚÐÂµÄÎÄ±¾±ÈÔÊ¼ÎÄ±¾¶Ì£¬Òò´Ë¿ÉÄÜ»á´í¹ýÒ»Ð©ºóÃæµÄ¹Ø¼ü×Ö¡£½â¾öÕâ¸öÎÊÌâµÄÒ»¸ö·½·¨ÊÇ²»¸Ä±äÔÊ¼µÄÎÄ±¾£¬¶øÊÇ¼ÇÂ¼¹Ø¼ü×ÖµÄÎ»ÖÃ£¬È»ºó´ÓÔÊ¼ÎÄ±¾ÖÐÌáÈ¡ÕâÐ©Î»ÖÃµÄÉÏÏÂÎÄ¡£ÏÂÃæÊÇÐÞ¸ÄºóµÄ´úÂë£º

import os
from bs4 import BeautifulSoup

def search_keywords_in_html(directory, keyword):
files = os.listdir(directory)
for file in files:
   if file.endswith('.html'):
         file_path = os.path.join(directory, file)
         with open(file_path, 'r', encoding='UTF-8') as f:
            content = f.read()

         soup = BeautifulSoup(content, "html.parser")
         for script in soup(["script", "style"]):
            script.extract()
         text = soup.text
         lines = (line.strip() for line in text.splitlines())
         chunks = (phrase.strip() for line in lines for phrase in line.split(""))
         text = '\n'.join(chunk for chunk in chunks if chunk)

         keyword_index = text.find(keyword)
         while keyword_index != -1:
            start_index = max(0, keyword_index - 30)
            end_index = min(len(text), keyword_index + len(keyword) + 30)
            snippet = text
            print(f"Found '{keyword}' in '{file}'")
            print(snippet)
            keyword_index = text.find(keyword, keyword_index + len(keyword))

directory = r'e:\html×ÊÁÏ'
keyword = input('ÇëÊäÈëÒª²éÑ¯µÄÄÚÈÝ')

search_keywords_in_html(directory, keyword)

ÔÚÕâ¸öÐÞ¸ÄºóµÄ´úÂëÖÐ£¬ÎÒÔÚ²éÕÒÏÂÒ»¸ö¹Ø¼ü×ÖÊ±£¬Ê¹ÓÃµÄÊÇ `keyword_index + len(keyword)` ¶ø²»ÊÇ `keyword_index + 1`¡£ÕâÊÇÒòÎªÎÒÃÇÏ£ÍûÃ¿´Îµü´úÊ±¶¼´ÓÉÏ´ÎÕÒµ½µÄ¹Ø¼ü×ÖºóÃæ¿ªÊ¼²éÕÒ£¬ÒÔ±ãÄÜÕÒµ½ËùÓÐµÄ¹Ø¼ü×ÖÊµÀý£¬¶ø²»½ö½öÊÇµÚÒ»¸ö¡£

Çó×î¼Ñ´ð°¸{:10_254:}£¬Ð»Ð»À²{:10_254:}

Mike_pythonÐ¡ ·¢±íÓÚ 2023-7-20 20:41:19

isdkz ·¢±íÓÚ 2023-7-20 20:01
Õâ¸öÎÊÌâ·¢ÉúÔÚwhile keyword_index != -1:Ñ»·ÖÐ£¬¶ø¾ßÌåµÄÔÒòÊÇÄãÔÚÃ¿´ÎÕÒµ½Ò»¸ö¹Ø¼ü×Öºó£¬¶¼»á°Ñ ...

GPT-4¾ÍÊÇºÝ°¡{:10_250:}

isdkz ·¢±íÓÚ 2023-7-20 20:44:20

Mike_pythonÐ¡ ·¢±íÓÚ 2023-7-20 20:41
GPT-4¾ÍÊÇºÝ°¡

GPT-4ÔÚÐèÒªÂß¼ÍÆÀíÄÜÁ¦µÄÎÊÌâµÄ±íÏÖÉÏÈ·Êµ±Ègpt-3.5Ç¿ÉÏ²»ÉÙ{:10_256:}

sfqxx ·¢±íÓÚ 2023-7-20 20:50:39

isdkz ·¢±íÓÚ 2023-7-20 20:44
GPT-4ÔÚÐèÒªÂß¼ÍÆÀíÄÜÁ¦µÄÎÊÌâµÄ±íÏÖÉÏÈ·Êµ±Ègpt-3.5Ç¿ÉÏ²»ÉÙ

ÎÒÒ²ÊÇGPT¡ª4Ñ½{:10_266:}{:10_266:}

Ã»ÓÐ½Å±¾¾ÍÊÇÀÛ¡£¡£¡£

Mike_pythonÐ¡ ·¢±íÓÚ 2023-7-20 21:15:57

sfqxx ·¢±íÓÚ 2023-7-20 20:50
ÎÒÒ²ÊÇGPT¡ª4Ñ½

Ã»ÓÐ½Å±¾¾ÍÊÇÀÛ¡£¡£¡£

ÓÐÇ®£¬Åå·þ

sfqxx ·¢±íÓÚ 2023-7-20 21:17:44

Mike_pythonÐ¡ ·¢±íÓÚ 2023-7-20 21:15
ÓÐÇ®£¬Åå·þ

{:10_256:}

¸èÕßÎÄÃ÷ÇåÀíÔ± ·¢±íÓÚ 2023-7-20 22:24:35

sfqxx ·¢±íÓÚ 2023-7-20 21:17

½Å±¾¸øÄãÐÐ²»

sfqxx ·¢±íÓÚ 2023-7-20 22:42:33

¸èÕßÎÄÃ÷ÇåÀíÔ± ·¢±íÓÚ 2023-7-20 22:24
½Å±¾¸øÄãÐÐ²»

À´°¡

Ò³: [1]

ÓãCÂÛÌ³'s Archiver

°ïÎÒ¿´¿´´íÔÚÄÄ?