
"Free lunch" is over? The EU investigates Google's AI dominance, pointing to its use of search crawlers to obtain training data for free

據報道,調查焦點在於谷歌通過 Googlebot 爬蟲免費獲取全網內容訓練 AI,而競爭對手需花費數億美元購買數據授權。網站面臨兩難:阻止爬蟲會失去搜索排名,允許則內容被無償使用。監管機構考慮強制谷歌分離搜索與 AI 爬蟲,讓出版商可單獨選擇退出或要求補償,創造公平競爭環境。
歐盟正在調查谷歌是否利用其搜索引擎的主導地位,通過網絡爬蟲無償獲取內容用於 AI 訓練,從而在人工智能競爭中獲得不公平優勢。
12 月 10 日,據彭博社報道,歐盟監管機構已對谷歌推出的 AI Overviews 和 AI Mode 功能啓動調查,以確定其是否對內容創作者施加了不公平條款,使其 AI 模型相較競爭對手佔據優勢。
調查焦點在於,當 OpenAI、Anthropic、亞馬遜等 AI 競爭對手花費數億美元與出版商達成授權協議以獲取訓練數據時,谷歌卻通過為 Google Search 服務的網絡爬蟲 Googlebot 免費獲取整個互聯網的內容。
這一優勢幫助谷歌在 ChatGPT 推出後迅速追趕上對手。在被 OpenAI 的 ChatGPT 打了個措手不及後,Alphabet 旗下的谷歌實現了快速追趕,其 AI 模型目前已達到競爭對手的水平。
報道指出,但問題在於,谷歌是否通過公平手段實現了這一加速發展。如果監管機構認定其做法不當並強制改變,可能會損害谷歌的 AI 前景。
谷歌的"雙重標準":免費獲取 vs 付費競爭
報道稱,谷歌在 AI 訓練數據獲取上享有獨特優勢。該公司依賴名為 Googlebot 的自動化程序瀏覽網頁併為其搜索引擎建立索引,這一爬蟲將發現的所有內容整理到谷歌龐大的可搜索索引中。
與此同時,谷歌使用同一程序為其 Gemini 聊天機器人和 AI Overviews 背後的模型提供訓練數據。這意味着,當其他 AI 公司為使用高質量數據訓練 AI 而付費時,谷歌卻免費獲得這些資源。它用於索引全球信息的程序同時也在幫助訓練其 AI 系統。
Cloudflare 首席執行官 Matthew Prince 在今年早些時候的彭博科技峯會上表示:"谷歌在説,我們對世界上所有內容都擁有天賦權利,即使我們不為此付費。"
而問題進一步複雜化的是,由於用户現在更多依賴 AI 摘要獲取信息而非點擊搜索結果中的鏈接,網站所有者的流量出現下降。這創造了一個兩難境地:
阻止谷歌爬蟲可能導致網站在普通搜索結果中不被收錄,但允許谷歌使用其內容訓練 AI 系統卻意味着失去獲得報酬的機會。
報道指出,更糟糕的是,谷歌今年早些時候在法庭上披露,由於組織架構上的問題,即使網站選擇退出,谷歌仍會使用其內容進行 AI 訓練。出版商實際上處於被綁架狀態:要麼接受內容被免費使用,要麼冒着在搜索結果中消失的風險。
監管方案浮現:強制分離搜索與 AI 爬蟲
據彭博報道,Matthew Prince 一直在引導歐洲監管機構採取一個簡潔而優雅的解決方案:
強制谷歌僅將 Googlebot 用於搜索,並創建一個獨立的網絡爬蟲專門用於抓取 AI Overviews 所需內容。這樣,出版商可以正確地選擇退出或要求補償。
從技術角度看,谷歌工程師可以輕鬆構建一個具有不同標識符的爬蟲,讓出版商能夠單獨屏蔽。但 Alphabet 將抵制任何迫使其像其他公司一樣協商並支付 AI 訓練內容費用的措施。
這一方案的邏輯在於,如果英偉達可以為芯片收費,工程師可以為他們的時間和智力付出收費,那麼網站出版商也應該能夠為其內容輸出收費。
報道指出,強制分離將創造一個更加公平的競爭環境,讓所有 AI 公司在獲取訓練數據方面面臨相同的成本結構。
據報道,谷歌稱歐盟的調查"有可能扼殺比以往任何時候都更具競爭性的市場創新"。然而,現實情況恰恰相反:
AI 繁榮本應推動一個擁有數百家可行公司的競爭性市場,就像最初的互聯網繁榮一樣。但是它正朝着將利潤集中在谷歌等現有巨頭手中的方向發展。
分析指出,通過 Googlebot 進行的"雙重利用"只是谷歌如何利用其主導地位進一步鞏固自身優勢的最新例證。這種可能幫助谷歌如此迅速趕上競爭對手的潛在優勢需要被消除,以創造真正公平的 AI 競爭環境。
