臉友轉貼上這個比賽,開啟了人生第一場數據分析比賽,KAMERA 急診資料挑戰賽。
原本只是抱著看熱鬧的心情,把資料下載下來後,稍微研究一下資料的格式,開始思考要如何分析這份資料,從不同月份、星期、時段、醫院別等思考,原本還打算整理一些外部的資料,例如溫度、濕度、雨量,但取得方式比預期的困難許多,也可能要花額外的費用,也就做罷了。
回到主辦單為提供資料的原本架構,從中思考有那些變項可以分析,可以套用哪些模型,首先當然先把資料分布做一個基本分析,最後我的第一個模型就是『以前一年同月份資料為基礎,計算各變項組合下的平均值』,這嚴格來說不算模型,算算平均值而已。
第一次上傳後得到0分!!!這個狀況持續了幾天(一天只能上傳兩次),最後發現上傳的檔案格式必須完全符合主辦單位所提供的資料架構才能計算分析,在成功得到分數後,竟然就得到97分(滿分100),過來幾天稍微調整了一下成長率的問題,分數就非常漂亮了。因為原本沒有打算很認真,就把這個比賽放了幾天沒用管他。
等到某一天回來發現有一堆高手分數都高於98分,也激起了我的鬥志,因為不想要再嘗試統計模型了,就將結果依據估計值的大小慢慢調整每一個變項組合的加權(註1),最後得到分數為98.842,最後結算為第5名(佳作)。
發表會那天,前三名得獎者在台上說著他們的分析方法和策略,還真的都滿有趣的。當天行政院長張善政還專程參加(張揆出席高屏地區急診資料挑戰賽成果分享會)。
發表會後的晚宴也相當精緻,得獎者及DSP知識長互相間的討論,討論到資料分析技巧的問題和產業的現況,整體來說我覺得是一個滿有意義的活動,不過比賽真的會要花心力,需要休息一下,過一段時間會考慮挑戰國外的比賽!!
PS:
註1:我調整加權的方法不是有效率的方法,得獎者在其方法中均有不同的加權方式,有人使用K-MEAN或類神經網路或許都是更有效率的方法。