根據《Business Insider》取得亞馬遜的一份內部備忘錄得知,亞馬遜為了訓練自家 AI 模型,開始要求員工創辦 GitHub 帳號並分享給公司,以便公司能更快速地從 GitHub 上抓取大量資料,用於訓練亞馬遜即將推出的 AI 模型。
現在這個全球最大的線上程式碼平台 GitHub,其資料集中化的特性變成科技大廠眼中的礦區。
根據了解,亞馬遜之所以出此招,是因為他們迫切需要大量高品質的資料來訓練他們即將推出的 AI 模型。這個被亞馬遜內部稱為「最有野心」的大型語言模型 ,對於亞馬遜能否在 AI 領域趕上微軟、Google 和 Meta 等競爭對手至關重要。
請員工幫忙辦更多帳號,不然資料會抓得太慢
不過要蒐集如此龐大的資料絕非易事。GitHub 作為全球最大的開源平台,雖然擁有超過 1.5 億個公開資料庫,但平台為了防止濫用,對單一帳號的資料請求進行了嚴格限制,每小時只能發出 5,000 次資料收集請求。也就是說,如果亞馬遜只用一個帳號來蒐集資料,可能需要花費數年的時間才能完成。
因此,亞馬遜的解決方案是,請員工們分頭行動,創辦大量的 GitHub 帳號,再把 API 密鑰分享給公司。通過這種方式,亞馬遜就可以同時運行所有帳號進行資料搜集,大幅縮短時間。
掌握 AI 趨勢 & 活動資訊一點都不難!訂閱電子報,每週四一起《AI TOgether》

感謝訂閱!隨時注意信箱的最新資訊
這份內部備忘錄寫道:「單用一個帳戶來抓取這些資料需要很多年的時間。因此為了提高我們收集資料的速度,我們必須得要求團隊成員建立 GitHub 帳戶並共享 API 金鑰。」 且為了鼓勵員工配合,亞馬遜領導層在內部郵件中公開徵求幫助,強調這有助於為公司的基礎模型蒐集更多高品質的資料。
Rohit Prasad 作為亞馬遜首席科學家兼 AGI 集團副總裁,在一封標題為「Help with data」的郵件中呼籲員工分享 GitHub 帳號。且還在另一封郵件中督促員工,表示「創建帳號只需 5 分鐘」。
開源程式碼看似免費,但未獲得許可會被起訴嗎?
儘管備忘錄聲稱此舉已獲得亞馬遜法律和安全團隊的批准,但這種未經允許就大規模獲取資料的做法仍然存在爭議。畢竟,GitHub 上的開源程式碼雖然可以免費使用,但需要遵守相應的許可協議。微軟自己就曾因為在未獲得適當許可的情況下,利用 GitHub 資料訓練其 Copilot AI 而被起訴。
在這 AI 模型開發的環境背景下,科技公司對資料的渴求看起來已經到了瘋狂、無所不用其極的地步。
【推薦閱讀】
◆ 【只做「安全超智慧」】OpenAI 宮鬥關鍵人物開公司!Ilya Sutskever 成立 Safe Superintelligence
*本文開放合作夥伴轉載,參考資料:《Business Insider》1、《Business Insider》2、GitHub Copilot investigation,首圖來源:Photo by Christian Wiediger on Unsplash。
(責任編輯:廖紹伶)



