【開發筆記】水查月星搜尋
製作【水查月星搜尋】 這個想法,要算起於 YouTuber 錫蘭的影片【他們在5天裡造了150+篇新聞,為什麼?(白飯之亂的真相)】。細察台灣的新聞品質,真的是墮落到令人髮指的程度。站在之後想繼續科研數位新聞媒體沿革變化的角度來考慮,儘管新聞內容多半很渣,但是作為紀錄保存下來,也算是把新聞媒體的報導能有多低俗留下了見證。
先有資料累積才有脈絡可察
這幾年經過許多(偽)資訊專家(神棍)的傳教佈達,假新聞、反滲透法、外過代理人登記法等等議題的討論一直方興未艾、未曾停歇。不過伸手指向別人畢竟容易,回過頭來反觀我們自己公眾媒體的新聞品質,鑒於其低劣禪述內容的毒害,實在是不遑多讓。
如果把低品質新聞的湧現當作一股浪潮來看,既然是人工帶著意圖加工製造的新聞內容,必然會有固定的脈絡可以分析觀察。因此實時地將政治新聞以數位化且自動化的方式記錄存查,其實是進行資料科學研究,特別是數據資料探勘的起手式。
資料探勘過程中的副產品
【水查月星搜尋】 說起來是資料探勘過程中的副產品。很多人誤解大數據/機器學習僅僅是在 Python 環境中執行各種各樣的數據訓練與資料分析工作,某個部分來說或許看起來似乎是如此。不過如果站在資料研發的成果必須能真正為採用者帶來更豐厚的效益,其實圍繞在資料科學運作過程中的工具開發,其重要性不亞於資料本身的變形清洗、模型參數的微調、平行運算的排程、以及硬體資源的管理等其他的方方面面。尤其機器學習是一個不斷動態迭代的過程,直觀方便的工具使用,能縮短每次迭代的時間損耗,而且同時還能獲得更可靠的迭代成果。
可關鍵字設置的統計面板與全文檢索
目前來說,【水查月星搜尋】 處於初版 1.0 的階段,功能上也僅僅涵蓋可自訂關鍵字設置的統計面板與全文檢索。不過已經能讓資料管理工作以比較直觀的操作,掌握數據累積搜集的情況,並且根據時事的變化,統計熱門關鍵字的出現頻率。

全文檢索的部分,目前是以正則表達式暴力搜尋,更有效率的搜尋方式目前還在規劃中,日後或許會改以 MongoDB 的 $search 來搜尋索引替代,並且新增通同字搜尋等等。

總之不妨來玩玩
坦白說正正經經寫東西實在不是我的風格。總之大家如果想查查政治新聞,不妨來玩玩【水查月星搜尋】 😂