Beyond Open Data: Semantic Interoperability

 

台灣政府開放資料終於踏出一大步, 先給 data.gov.tw 掌聲 ^^

tumblr_inline_mm1r7d7uRH1qz4rgp

最近參加了 Code for Tomorrow 的聚會, 其中與會者熱烈地討論如何混搭農委會 (http://data.coa.gov.tw/) 與環保署 (http://cdx.epa.gov.tw/CDX/PublishDownload.aspx) 等開放資料內容, 並於 Open Street Map 呈現. 我們演練的例子就是從環保署公布的重金屬污染地點來看我們購買的米是否鄰近被污染的區域 (謝謝 CfT 的工作小組). 筆者當下有一個想法就是, 這些資料格式在開放的同時, 是否能參考一些國際既有的規格範本, 讓後續要應用資料的使用者更快上手, 讓相關的資料能以同一個規格延伸定義. 這也是我們下一步想要和大家一起努力的 Semantic Interoperability.

若是單一資料源, 通常我們就是把抓資料的 parser 寫好, 接著就是每天或是每個小時自動去爬. 但是如果資料來源牽涉到不同提供者, 雖然可能都是相同的類別 (例如都是某個景點資訊, 我們先簡稱 POI), 可能我們都還得針對每個資料提供機關對於 POI 的定義與欄位先做研究, 才不會一樣要擷取地址, 但是放在 JSON 的欄位卻是不同, 甚至對於”地址”的定義都是不同 (例如要不要包括郵遞區號, 要寫幾碼等).

現在有不同的國際規格組織在做這樣的事情, 如筆者比較熟悉的 Open Geospatial Consortium (OGC) 就有 Sensor Web Enablement (SWE) 這樣的規格來針對 Sensor 的感測能力, 感測資料, 感測方式, 以及後續感測資料如何交換等動作做規格化. 這就是不同於資料發佈者以 JSON 規格定義好感測器名字, 單位, 資料等欄位然後就逕行發佈. 當然直接發佈也是 open data, 但重點不在於用 XML 或是 JSON 的哪類工具, 而是在於這些資料欄位, 甚至是延伸的 metadata 有沒有共通的定義. 這樣在跨組織使用資料的時候, 才能簡化很多不必要的開發以及後續相容性的麻煩.

當然這些所謂的 Semantic iInteroperability 的互通應該還是會建立在 Data Quality 的議題之上. 但若能把這些想法也包容加入, 對於台灣後續對於 Open Data 規劃與國際接軌一定會有所幫助 ^^

GeoThings/slayer

發表留言