實務分析工作中,PROC MEANS除了用來做描述統計外,更多是用來做資料的彙整,例如健保資料庫分析中,因病患有多次就診或用藥紀錄,需透過適當的整合,或稱為「歸人」在能進行後續的分析,這時PROC MEANS為重要的幫手了。
本篇內容將聚焦於使用PROC MEANS的語法完成所需要資料處理的工作,但在介紹順序上沒有特別章法,大家就依據所需要語法而自行使用了喔。
實務分析工作中,PROC MEANS除了用來做描述統計外,更多是用來做資料的彙整,例如健保資料庫分析中,因病患有多次就診或用藥紀錄,需透過適當的整合,或稱為「歸人」在能進行後續的分析,這時PROC MEANS為重要的幫手了。
本篇內容將聚焦於使用PROC MEANS的語法完成所需要資料處理的工作,但在介紹順序上沒有特別章法,大家就依據所需要語法而自行使用了喔。
偶而些朋友和我討論資料處理的問題,有時候只是資料處理流程討論,有時候是程式或語法。我曾透過許多高手的範例而學習到很多,這一次打算把一些有趣的實例,寫成範例,希望對有緣人有幫助(但對點閱率應該沒幫助)。
同一個問題,可以有許多不同的處理流程,本次的方法不見得是最好,也歡迎大家提供不同的流程和語法。
網頁廣告剛好也是你有興趣的,請幫忙點擊廣告,讓我更有動力寫出下一篇文章吧。
比較資料檔的工作,常見在問卷採用雙重資料鍵入(double data entry),比較兩次鍵入資料檔的差異性。
PROC COMPARE的語法不複雜,依據慣例先建立範例資料檔以供後續練習。
| DATA Keyin_1; DATA Keyin_2; |
假設Keyin_1與Keyin_2分別為兩次鍵入的資料檔,很不幸這兩個檔案,只有ID=2這一筆資料完全一致,其他筆資料均有不同之處。
| PROC COMPARE BASE= Keyin_1 COMPARE= Keyin_2 NOVALUES; |
在三月的時候收到電費帳單,看到一筆「補收(退)金額(含停電扣減)」的1045.8元。
打電話去台電瞭解後,原來是家裡在109年10月13日更換新電表,於109年11月3日發現故障,並於109年11月7日更換新電表,台電重新推估21天(10月13日至11月7日)的電費為1045.8元,依據為108年同期的每日平均度數13.45度。
原本想,以108年同期的的每日平均度為基準似乎滿公平的,後來冷靜思考,原109年11月的電費1,736元加上補收的1,045元共為2,781元,比108年11月的2,004元多出了777元,因此做了一份用電分析,並與台電討論後,得到一個新的補收費用490元。
Sony A77約在2013年購買,半透視反光鏡,2,430萬畫素、可錄製1080P影片。當時是希望有一台規格較好的相機,也可錄影,方便記錄點點長大的過程,想這個任務確實完成了,拍了數千張的照片和許多寶貴的影片。
2020年底時,就有想著是不是該換台全片幅的相機了,但最大的障礙是鏡頭,A77為A環機身,A7C為E環,而且手頭上的A環鏡頭大部分為APS-C專用鏡頭,只有一顆全片幅鏡頭(Sony 28-75mm F2.8 SAM)。
2021年2月看到A7C介紹時,特別在瞭解對焦能力後,馬上就決定要購入A7C。原想透過轉接環可繼續使用幾個APS-C鏡頭(畫素只剩1,000萬畫素)及28-75mm F2.8 SAM,但實際使用後不如預期,果然功課沒有做夠啊。
接下來試著分享,ISO,對焦能力、轉接環使用及整體A7C使用心得,本人非專業攝影師,僅隨手拍孩子或旅遊照片。
於2020年2月初加入Google意見回饋獎勵後,剛好滿一年。稍微統計一下這一段時間的獲得的獎勵。
這一年總共獲得台幣416元的獎勵(2020/2/22~2021/2/21)。
從收到第一份問卷後,平均每6.1天(標準差3.1天)會收到一份問卷,以中位數來看為7.5天,最短的一次為0天,也就是當天收到兩份問卷,最長的天數為17天。
平均來說每份問卷會給6.8元,最多給過22元,最少為4元,而4元剛好也是中位數和眾數。換句話說,平常每份問卷最常拿到的金額為4元。
以每個月的收入來看,平均一個月是34.7元,曾經在一個月拿過77元為最多,12元為最少。
問卷為英文或中文(這也許和設定語言為英文和中文有關),內容均不長,大部分花不到1分鐘便可完成,問題都滿簡單的,最常出現的問卷為您最近有去過下列哪些店,然後在店裡面有沒有消費等。
最後,獲得的獎勵金可以在Google Play裡面購買遊戲、書籍或電影,使用上必須有足夠的金額才可使用,舉例來說一本電子書價值200元,你獲得的獎勵金必須等於或高於200元才可以使用。
長久以來SAS程序產出的報表,大都透過ODS HTML將報表轉EXCEL檔,之前介紹過ODS TAGSETS.EXCELXP的語法(後續簡稱ExcelXP),也很少被使用來處理報表轉EXCEL檔的需求。
ODS HTML應只是將HTML報表的副檔名改為XLS,WIDOWS系統在預設環境下,自然會以EXCEL開啟,算是一種偷吃步吧,但每次開啟檔案,EXCEL均會出現警告「’OOO.xls’的檔案格式與副檔名不相符。此檔案可能已損毀或不安全。除非您信任此檔案的來源,否則請勿開啟此檔案。您仍要開啟此檔案嗎?」(如下圖)。
雖然只是按一個「是(Y)」就可開啟,但檔案很多時,還是挺煩人的。而且就算使用ExcelXP來匯出報表,依然會出現相同的警告,因為ExcelXP所產生的EXCEL檔不是原生的EXCEL檔格式(native Excel format (.xlsx)),詳情請參考ODS TAGSETS.EXCELXP and ODS EXCEL SHOWDOWN。
散佈圖(Scatter Plot、Scatter Diagram)亦稱為散布圖、相關圖等。目前在SAS繪製散佈圖有兩個較為簡單方法,一為使用PROC CORR,相關語法可見SAS官網的說明,用PROC CORR的方法相當簡單,而且同時會把人數、相關係數、檢定的P值呈現於圖中,但如要修改圖形或增加其他說明限制就很大了。
另一方法為本篇將分享的PROC SGPLOT,但限制為不會自動在圖形上呈現人數、相關係數和檢定的P值,此限制可透過巨集的幫忙而增加至圖形中,以PROC SGPLOT所繪統計圖,在之後需的編修彈性就高很多。
最後我們會把整組程式以改編為巨集程式,方便未來使用。
散佈圖(scatter plot)+橢圓圖(prediction ellipse)+迴歸線(regression line):