蔓延在非洲剛果共和果的病毒-伊波拉病毒(Ebola)是以伊波拉河命名的,目前致死率高達 50% 以上,而且現在沒有任何有效疫苗,綜合以上兩點,被列為生物性危害第四級病毒,甚至視為生物恐怖主義的工具之一。當威脅性如此高的病毒開始散佈,不用花多少時間,要是稍微慢了點意識到它的侵襲,人類就要付出慘重的代價;因此要花時間花心力研究這個病毒是怎麼爆發的,還好,有了科技的進步,機器也變得更聰明了。
在世界衛生組織宣布非洲伊波拉病毒爆發的前九天,演算法已經有辦法演算出它的出現了,搶先在人類之前。HealthMap,一個由波士頓兒童醫院開發出來,以資料驅動為基礎的地圖投影工具,在挖掘數千個以網頁為基礎的資料來源之後,偵測到一個「神秘的出血性發燒」。
共同創辦人 Clark Freifeld 說,操作 HealthMap 的時間已經超過八年了,而最重要的,就是讓 HealthMap 一直獲得利用網路 = 搜尋到大量的公開事件資料,換句話說,就是一直保持資料的豐富性和充足的來源。
追蹤疾病演算法是如何運作的呢?
- 演算的資料來源從哪來?
包括新聞報導、社交媒體、國際衛生組織、政府官方網站,以及在影響範圍內的衛生照護工作者的個人部落格等等;這個團隊以顧客建立的網路爬蟲(Web Crawler,又稱為網路蜘蛛,是一種『自動化瀏覽網路』的程式,是搜尋引擎的重要組成)阻礙了 RSS Feed(一個個能提供訂閱的網站內容,只要訂閱了一個 Feed,使用者就能即時看到所有此分類的標題,幫助讀者可以快速瀏覽並點選資訊觀看),從來源的內容文字,來分析疾病相關的術語及地理環境的線索。
任何曾經上網的人多少都會認為,大量的網頁訊息有很多都不是我們要的,在搜尋的過程中,或是瀏覽的過程中都是如此,特別是在 Twitter 和部落格上的資訊。為了解決這樣的問題,HealthMap 運用機器學習演算法,把不相關的資訊如 Bieber fever 或是使用感染(infection)及爆發(outbreak)等用詞刪除,這些都不會涉及到實際公共健康事件與議題;也就是說,如果保留這些用詞的話,可能會產生許多不相干的事件,都跟公共健康無關。
「事實上,演算法利用數十萬個先前分析過而被標籤的例子與文章,並且利用它們來找出關鍵字和片語,如此一來,就更能找出和實際事件爆發有高度相關的報導」,Freifeld 解釋,「演算法正不斷地在進步,從我們先前的分析,再透過反饋這樣一再地循環,不斷地從中學習著」。
- 疾病散播的速度很快,但資料更新地更快
還好有這些資料的幫助,疾病傳染的快,資料也能跟的上甚至是超越它,也就是要事先預防,畢竟預防勝於治療!
在 3 月 23 日,當世界衛生組織發布第一篇關於伊波拉病毒感染的報導後,伊波拉病毒變成大眾知識之一。自從 3/23 開始,疑似從幾內亞兩歲大的男童開始,已經擴散到非洲其他國家,1,000 個人已經命喪黃泉了。
就這點來說,即使還沒有被證實是伊波拉病毒,HealthMap 已經抓到病毒蔓延的範圍;就這個案例來說,這個自動化偵測病毒並沒有找出爆發的起源,但是不可否認的是,機器智慧已經達到相當程度的能力了。
除了可以在網路上找到的內容範圍外,Freifeld 相信成本低的網路可用性加上電腦計算資源,HealthMap 能夠壓縮並儲存更多的資料。更確切地來說,即使五年前,這樣的技術還是很難以想像;然而,伴隨著新穎的大數據潮流與機器智能,原本不可能的,都會在不遠的未來實現。
可預見的未來是,即使疾病傳染的快,資料也能跟的上甚至是超越它,畢竟預防勝於治療!
短期來說,HealthMap 的團隊仍專注於增進它演算法的過濾功能,以及不停地增加資料來源,Freifeld 希望任何人,不論在世界的哪個角落,都能重視這件事情,願意提供關於事件最真實的報導。當越多人關注這個議題,越多人投入心力,想改變,變得更好,創造更多的可能性,這是必然的。
(資料來源:FastCompany;圖片來源:FastCompany)





