線上教室

爬蟲程式

講義

網頁上的資訊，是以HTML標籤文字格式排版而成，透過requests套件，我們能夠很輕易地去截取特定網頁，將它的原始碼從網路上爬下來。

pip3 install requests

import time
import requests

url = "http://drweb.nksh.tp.edu.tw:3000/id/b827eb22fc0e"
r = requests.get(url)
web_content = r.text
print(web_content)

接著，再透過BeautifulSoup套件來解析爬下來的網頁原始碼，就可以取出我們想要得到的資訊。

pip3 install bs4

from bs4 import BeautifulSoup

soup = BeautifulSoup(web_content, 'html.parser')
mac_address = soup.find_all('div', class_="mac_address")
content1 = soup.find_all('div', class_="date")
content2 = soup.find_all('div', class_="value2")
date = [e.text for e in content1]               
value2 = [int(e.text) for e in content2]        
values = list(zip(date, value2))
print(values)

最後，我們再把分析好的資訊轉存成文字檔。

# 開啟檔案
f = open("d:\data.csv", "a")
 
# 寫入 This is a testing! 到檔案
for (date, value2) in values:
    lines = date + "," + str(value2) + "\n"
    f.write(lines)
 
# 關閉檔案
f.close()