爬蟲程式
-
網頁上的資訊,是以HTML標籤文字格式排版而成,透過requests套件,我們能夠很輕易地去截取特定網頁,將它的原始碼從網路上爬下來。
pip3 install requests
import time import requests url = "http://drweb.nksh.tp.edu.tw:3000/id/b827eb22fc0e" r = requests.get(url) web_content = r.text print(web_content)
接著,再透過BeautifulSoup套件來解析爬下來的網頁原始碼,就可以取出我們想要得到的資訊。
pip3 install bs4
from bs4 import BeautifulSoup soup = BeautifulSoup(web_content, 'html.parser') mac_address = soup.find_all('div', class_="mac_address") content1 = soup.find_all('div', class_="date") content2 = soup.find_all('div', class_="value2") date = [e.text for e in content1] value2 = [int(e.text) for e in content2] values = list(zip(date, value2)) print(values)
最後,我們再把分析好的資訊轉存成文字檔。
# 開啟檔案 f = open("d:\data.csv", "a") # 寫入 This is a testing! 到檔案 for (date, value2) in values: lines = date + "," + str(value2) + "\n" f.write(lines) # 關閉檔案 f.close()