【开发笔记】水查月星搜寻
制作【水查月星搜寻】 这个想法,要算起于 YouTuber 锡兰的影片【他们在5天里造了150+篇新闻,为什么?(白饭之乱的真相)】。细查台湾的新闻品质,真的是堕落到令人发指的程度。站在之后想继续科研数位新闻媒体沿革变化的角度来考虑,尽管新闻内容多半很渣,但是作为纪录保存下来,也算是把新闻媒体的报导能有多低俗留下了见证。
先有资料累积才有脉络可察
这几年经过许多(伪)资讯专家(神棍)的传教布达,假新闻、反渗透法、外过代理人登记法等等议题的讨论一直方兴未艾、未曾停歇。不过伸手指向别人毕竟容易,回过头来反观我们自己公众媒体的新闻品质,鉴于其低劣禅述内容的毒害,实在是不遑多让。
如果把低品质新闻的涌现当作一股浪潮来看,既然是人工带着意图加工制造的新闻内容,必然会有固定的脉络可以分析观察。因此实时地将政治新闻以数位化且自动化的方式记录存查,其实是进行资料科学研究,特别是数据资料探勘的起手式。
资料探勘过程中的副产品
【水查月星搜寻】 说起来是资料探勘过程中的副产品。很多人误解大数据/机器学习仅仅是在 Python 环境中执行各种各样的数据训练与资料分析工作,某个部分来说或许看起来似乎是如此。不过如果站在资料研发的成果必须能真正为采用者带来更丰厚的效益,其实围绕在资料科学运作过程中的工具开发,其重要性不亚于资料本身的变形清洗、模型参数的微调、平行运算的排程、以及硬体资源的管理等其他的方方面面。尤其机器学习是一个不断动态迭代的过程,直观方便的工具使用,能缩短每次迭代的时间损耗,而且同时还能获得更可靠的迭代成果。
可关键字设置的统计面板与全文检索
目前来说,【水查月星搜寻】 处于初版 1.0 的阶段,功能上也仅仅涵盖可自订关键字设置的统计面板与全文检索。不过已经能让资料管理工作以比较直观的操作,掌握数据累积搜集的情况,并且根据时事的变化,统计热门关键字的出现频率。
全文检索的部分,目前是以正则表达式暴力搜寻,更有效率的搜寻方式目前还在规划中,日后或许会改以 MongoDB 的 $search 来搜寻索引替代,并且新增通同字搜寻等等。
总之不妨来玩玩
坦白说正正经经写东西实在不是我的风格。总之大家如果想查查政治新闻,不妨来玩玩【水查月星搜寻】 😂