python抓取网页中文信息

2025-06-29 04:01:56
推荐回答(1个)
回答1:

# -*- coding:utf-8 -*-
import urllib
import re
# 使用正则表达式限定抓取的网页地址
regex = r'pat = re.compile(regex)
page = 1
url = "

info = urllib.urlopen(url).read()
Sub_pages = re.findall(pat,info)
# 获得网址中所有产品信息
regex = r'(.+?) '
pat = re.compile(regex)
for page in Sub_pages:
    content = urllib.urlopen(page).read()
    info = re.findall(pat,content)
    print '\n'.join(info)#改成这样试试