在面對真實資料來源時,我們可能思考如何轉換為程式中可運行的資料,這個過程往往比動手寫程式要花更多的時間,因為人類可讀的資料與機器可讀的資料,往往有著極大的不同。
機器資料?人的資料?
試著以繪圖為任務,把玩NumPy之類的資料處理程式庫時,雖說我有具體目標,在功能龐大的API中,逐漸熟悉基礎觀念,然而,說實話,這終究只是停留在使用API的程度,與資料處理有一段距離。
這是因為以繪圖為任務時,多半涉及的是自動生成、自動衍生,也就是給幾個參數、產生一組資料,這些資料基本上就是由程式生成,因為要給程式中其他API使用,自然地會去符合API要求的格式;就算是讀入圖檔進行影像處理之類的任務,其資料來源本身通常也是某種圖檔格式,也就是多半已是機器可讀的形式,影像處理基本上是將之轉換為另一個機器可讀的格式。
虛構的資料來源多半也接觸不到實際的資料處理,例如,虛構一個CSV檔案,欄位為「數學,英文,物理」,各列資料為「90,99,100」的格式,這樣的資料太乾淨了,某些程度上是先射箭再畫靶的概念,腦袋中已經被程式庫的API給框住,然後設計出一個虛假但符合程式庫格式的資料罷了。
真實世界中的資料來源,不一定是專門為了給機器或程式庫判讀而設計,例如,以臺灣證券交易所的發行量加權股價指數歷史資料為例,下載的CSV檔案中第一列會有標題文字,日期欄位的內容會是"110/01/04",而指數部份會是"14,720.25"的格式。
這看來好像沒什麼,不過日期、指數等格式,其實都是給人看的資料,機器可不需要那些斜線、逗號之類的視覺輔助符號,如果以讀取後想要將資料視覺化,例如,以顯示指數線圖或K線圖之類的圖形為目標,也必須面對基本的資料清理問題。
純NumPy的方案
因為指數歷史資料是CSV檔案,第一個會想到Python內建的csv模組,然而,這免不了要使用for之類帶有迴圈概念的語法,若你使用NumPy,可能不想這麼做,而想要遵循陣列程式設計的典範,以便善用NumPy的一些特性。
numpy模組的loadtxt函式可以載入文字檔案,預設會以空白、換行來切出列行,並轉換為np.float64形態;然而,可以使用delimiter參數指定分隔符,並使用converters參數指定行(column)轉換器,透過這兩個參數,基本上,就能自行剖析每一列文字。
另一方式是透過numpy模組的fromregex函式,它可以指定規則表示式,用括號分組來捕捉資料,例如,regex=r'"(.+)","([\d,.]+)","(.+)","(.+)","(.+)",',底下程式片段,就能捕捉到指數歷史資料的各個欄位:
hist = np.fromregex('MI_5MINS_HIST.csv', regex, encoding = 'Big5', dtype = np.str)
hist是NumPy陣列,因而想取得第n行,就能透過hist[:,n],但資料目前都是字串型態,若要在Matplotlib繪製線圖,須將"14,720.25"的數字格式剖析為浮點數,最簡單的方式是透過Python內建的locale 模組,設定區域化的數值格式,之後將locale.atof向量化,以便剖析NumPy陣列的元素,例如:
locale.setlocale(locale.LC_NUMERIC, 'zh_TW.UTF-8') atof = np.frompyfunc(locale.atof, 1, 1) # 向量化
這麼一來,atof(hist[:,n])就可以將第n行的指數資料剖析為浮點數,然後用Matplotlib來繪製線圖了,若對完整程式實作有興趣,我們可參考〈NumPy載入文字檔〉與〈Matplotlib軸的格式〉。
透過Pandas的DataFrame
對於表格型態的資料,透過(基於NumPy的)Pandas處理會方便許多,畢竟Pandas的DataFrame型態,提供了許多(二維)NumPy陣列沒有的便捷方法,而且整合了Matplotlib的基本繪圖,很適合讀入CSV之類的資料並進行視覺化,而且Pandas提供了豐富的API,可以讀取各種格式的檔案,支援的檔案格式可以參考官方〈Input/output〉文件。
然而,這並不表示現實生活的資料載入後,不用任何清理,例如,pandas模組的read_csv可以讀入CSV檔案傳回DataFrame,然而,若讀入方才的指數歷史資料CSV,最後一行會是NaN,這是因為來源CSV檔案每一列最後都有逗號,等於多一個欄位,而該欄位沒有資料,這時Pandas會自行補上NaN。
因此,初步的清理,可以是透過DataFrame的iloc[:,:-1]來去除該行,或者是透過read_csv的usecols參數,指定要使用哪些欄位;另外,可指定read_csv的index_col參數為'日期',DataFrame的plot方法繪圖時,索引行預設成為x軸,也就不用特別剖析日期。
然而,指數的部份,需要數值才能繪圖。若是DataFrame,可以透過applymap方法,指定方才的atof函式,來套用全部的元素(索引行元素不會參與),後續呼叫DataFrame的plot方法時,就會自動將全部的行以線圖來繪製。
既然股市的指數能以線圖方式展現,你可能會想,能否畫個K線圖(candlestick chart)?這需要Matplotlib的mplfinance,不過,mpl-finance已無維護,在2019年,Daniel Goldfarb接手該專案,folk並更名為mplfinance。
mplfinance會使用日期作為索引,來源DataFrame的索引行必須是DatetimeIndex實例,實作上可以透過read_csv的index_col參數指定索引行,雖然read_csv有個parse_date參數,不過因為指數歷史資料的CSV檔案中,日期使用的是民國年,而parse_date在剖析日期時必須使用西元年,因此必須改使用read_csv的date_parser參數,指定自訂的剖析器。
mplfinance預設接受的DataFrame,欄位名稱與順序上必須是'open'、'high'、'low'、'close',以及一個選擇性的'volume',這可以直接更改DataFrame的columns,或是呼叫mplfinance的plot時,透過columns參數指定自訂的欄位名稱,要注意的是,雖然'volume'是選擇性的,不過呼叫mplfinance的plot時自訂欄位名稱時,必須都列出來。若想看看完整程式實作的樣貌,我們可以參考〈Pandas輸入輸出〉。
給人讀還是機器?
實際上,無論是NumPy、Pandas、Matplotlib或是mpl-finance,掌握基礎API的使用,都不算太難,然而,在面對真實資料來源時,就算只是要單純視覺化,如何轉換為程式中可運行的資料,這個思考過程,往往比動手寫程式前要花更多的時間。
這是因為,有許多資料來源,往往是以人類易於閱讀或理解的觀點來規畫或格式化,因而經常會有多重的訊息,例如欄位中除了數值,可能還有附註、括號或其他視覺上輔助的符號,才會增加程式上清理的麻煩。
從另一方面來說,如果產出的資料,本身就是打算給機器閱讀,或許就要對機器方面做些思考,而不是從人類的觀點來生成資料;當然,不見得會有完全適切的資料格式,試著多從現實來源的資料做練習,對清理方式做更多的思考,從中瞭解有哪些工具或策略可用,才是資料清理的不二法門吧!
專欄作者
熱門新聞
2024-12-24
2024-12-22
2024-08-14
2024-12-20
2024-11-29