业内:ChatGPT们毁了网络共享根基,内容所有者不愿再分享
8月31日消息,隨著人工智能技術的迅猛發展,曾經用于搜索引擎索引的網絡爬蟲現在被用于收集訓練數據來開發人工智能模型。內容創作者意識到,他們的勞動成果被大科技公司免費使用來開發新的人工智能工具,爬蟲協議已經無法解決這個問題。這可能會影響內容所有者在線分享內容的動力,從而從根本上改變互聯網。
以下為翻譯內容:
20世紀90年代末,出現了一種名為爬蟲協議(robots.txt)的簡單代碼,允許網站所有者告知搜索引擎的機器人爬蟲哪些頁面可以抓取,哪些頁面不能抓取。如今,爬蟲協議已成為業界普遍接受的非官方網絡規則之一。
機器人爬蟲的主要目的是索引信息,改善搜索引擎的搜索結果。谷歌、必應和其他搜索引擎都有爬蟲程序,它們生成網絡內容的索引信息,并提供給潛在的數十億用戶。這也是互聯網蓬勃發展的基礎,創作者們在網絡上分享豐富信息,因為他們知道用戶會訪問他們的網站并瀏覽廣告、訂閱服務或購買商品。
然而,生成式人工智能和大語言模型正在從根本上迅速改變網絡爬蟲的任務。這些工具并沒有為內容創作者提供支持,反而成為他們的敵人。
機器人喂飽了大科技公司
現在,網絡爬蟲收集在線信息,并生成大規模的數據集,這些數據集被富有的科技公司免費用于開發人工智能模型。比如,CCBot為最大的人工智能數據集之一Common
Crawl提供數據;GPTbot則是向人工智能明星創企OpenAI提供數據。谷歌將自家的大語言模型的訓練數據稱為“無限集合”,但沒有提及大部分數據來自Common
Crawl的精簡版C4。
這些公司開發的人工智能模型使用這些免費信息來學習如何回答用戶的問題,這與為網站建立索引信息、讓用戶訪問原始內容的既定模式相去甚遠。
如果沒有潛在的消費者,內容創作者就沒有動力讓網絡爬蟲繼續收集免費數據。GPTbot已被亞馬遜、愛彼迎、Quora和其他上千家網站屏蔽。對Common
Crawl數據集的CCBot的屏蔽也越來越多。
“粗糙的工具”
阻止這些網絡爬蟲的方式并沒有太大變化。網站所有者只能部署爬蟲協議并屏蔽特定爬蟲,但效果并不理想。
“這是件有點粗糙的工具,”Wordpress前高管、科技投資者、數字營銷公司Yoast創始人約斯特·德·瓦爾克(Joost de Valk)說。“它沒有法律依據,基本上是由谷歌維護的,盡管他們聲稱是與其他搜索引擎共同維護的。”
考慮到各大企業對高質量人工智能數據的巨大需求,爬蟲協議也容易被操縱。例如,像OpenAI這樣的公司只需更改其網絡爬蟲的名稱,就可以繞過人們使用爬蟲協議設置的禁止規則。
此外,由于爬蟲協議是自愿遵守的,網絡爬蟲也可以簡單地忽略指令并繼續收集信息。像Brave等較新的搜索引擎的網絡爬蟲就不會受到規則的影響。
“網上的一切信息都被模型吸進了真空,”研究人類生成數據與人工智能之間關系的計算機科學教授尼克·文森特(Nick Vincent)說。“這背后發生了很多事情。在接下來的時間里,我們希望能以不同的方式評估這些模型。
創作者的回應
德·瓦爾克警告稱,內容所有者和創作者可能已經太遲鈍,無法理解允許這些網絡爬蟲免費獲取他們的數據、不加區分地使用這些數據來開發人工智能模型的風險。
“現在,什么都不做意味著,‘我認可我的內容出現在世界上所有的人工智能和大語言模型中,’”德·瓦爾克說。“這是完全錯誤的。需要創建更好的爬蟲協議,但搜索引擎和大型人工智能團隊自己很難會去做這件事。”
一些大公司和網站最近做出了回應,其中一些是第一次部署爬蟲協議。
檢測人工智能生成內容的公司Originality.ai表示,截至8月22日,在1000個最受用戶歡迎的網站中有70個使用爬蟲協議屏蔽GPTBot。
Originality.ai還發現,在1000個最受歡迎的網站中,有62個屏蔽了Common
Crawl的網絡爬蟲CCBot。隨著人們對人工智能數據收集的意識日益增強,今年有越來越多的網站開始屏蔽Common
Crawl。
然而,網站不能強制執行爬蟲協議。任何爬蟲都可以忽略該文件,繼續收集網頁上的數據,而網頁所有者可能根本不知情。即使部署爬蟲協議具有法律依據,其初衷與利用網絡信息開發人工智能模型關系不大。
紐約大學技術法律與政策診所主任杰森·舒爾茨(Jason
Schultz)表示,"Robots.txt不太可能被視為禁止使用網站數據的法律。"這主要是為了表明人們不希望自己的網站被搜索引擎編入索引,而不是表示人們不希望自己的內容被用于訓練機器學習和人工智能。
“這是一個雷區”
事實上,這種情況已經持續了多年。早在2018年,OpenAI就公布了首個GPT模型,并通過BookCorpus數據集進行訓練。Common
Crawl始于2008年,并于2011年通過亞馬遜云服務公開了數據集。
盡管如今屏蔽GPTBot的網站越來越多,但對于那些擔心自己的數據被用于訓練人工智能模型的企業來說,Common
Crawl的威脅更大。可以說,Common
Crawl之于人工智能,就像谷歌之于互聯網搜索。
非營利組織知識共享(Creative Commons)首席執行官凱瑟琳·斯蒂勒(Catherine Stihler)表示,
“這是一個雷區。我們幾年前才更新了戰略,現在我們處于一個不同的世界。”
知識共享始于2001年,是創作者和內容所有者用知識共享許可協議來替代嚴格版權,在網上使用并分享作品許可的一種方式。在共享許可協議的基礎上,創作者和所有者保留他們的權利,并允許其他人訪問內容并創作衍生作品。維基百科、Flickr、Stack
Overflow等許多知名網站都是通過知識共享許可協議運作的。
知識共享組織在最新的五年戰略中表示,在訓練人工智能技術方面,開放內容的使用存在問題。知識共享組織希望使在線作品共享更加公平。
1600億網頁
通過CCBot爬取公開信息的Common
Crawl擁有最大的數據存儲庫。自2011年以來,它已從1600億個網頁中抓取和保存信息,并持續增加。一般來說,Common
Crawl每月抓取并保存大約30億個網頁的信息。
Common Crawl稱,這項事業是一個“開放數據”項目,旨在讓任何人“打開自己的好奇心,分析世界,追求卓越的想法”。
然而,現在的情況完全不同。大量Common Crawl收集的數據被大科技公司用于開發專有模型。即使一家大型科技公司目前沒有從人工智能產品中獲利,未來也有可能這樣做。
一些大型科技公司已停止披露訓練數據來源。然而,許多強大的人工智能模型都是使用Common
Crawl開發的。它幫助谷歌開發了Bard,幫助Meta訓練Llama,幫助OpenAI創建ChatGPT。
Common Crawl還向The
Pile提供數據,后者還擁有更多從其他爬蟲抓取的數據集。The
Pile已廣泛用于人工智能項目,包括Llama和微軟與英偉達共同開發的MT-NLG。
從今年6月份開始,The
Pile下載量最大的數據之一是受版權保護的漫畫書,包括阿奇漫畫、蝙蝠俠、X戰警、星球大戰和超人系列的作品。這些作品都是DC漫畫和漫威創作的,現在仍受版權保護。最近有報道稱,The
Pile中還存儲了大量受版權保護的書籍。
紐約大學的舒爾茨表示,爬蟲的目的和使用方式完全不同。很難監管或要求它們以特定方式使用數據。
對于The Pile來說,雖然它承認數據中包含受版權保護的材料,但在創立數據集的技術文章中聲稱,“處理和分發他人擁有的數據也可能違反版權法”的說法幾乎沒有人會認同。
此外,The Pile還辯稱,盡管數據集中存儲了相對未經改變的作品,但根據合理使用原則,對這些材料的使用應該是變革性的。The
Pile還承認,在訓練大語言模型時,需要使用完整的版權內容以產生最佳效果。
網絡爬蟲和人工智能項目中所謂的合理使用觀點已經受到了質疑。作家、視覺藝術家甚至源代碼開發人員起訴OpenAI、微軟和Meta等公司,因為他們的原創作品在未經許可的情況下被用于訓練模型,而他們并沒有從中受益。
微軟前高管、風投公司安德森·霍洛維茨(Andreessen Horowitz)合伙人史蒂文·辛諾夫斯基(Steven Sinofsky)最近在社交媒體上寫道,即便將東西放到互聯網上,也不能不經同意就免費、無限制地將某人的勞動成果用于商業用途。
沒有解決辦法
“我們現在正在努力解決所有這些問題,”知識共享組織首席執行官斯蒂勒表示,有很多問題需要解決:補償、授權、信任。在人工智能時代,我們還沒有答案。
德·瓦爾克表示,由于知識共享許可協議可以促進版權的流通性、允許自己擁有的作品在互聯網上使用,可以作為開發人工智能模型的一種潛在許可模式。
斯蒂勒對此并不確定。她說,涉及到人工智能時,也許并沒有單一的解決方案。即使是更靈活的通用協議,也可能行不通。你如何向整個互聯網授權?
斯蒂勒說:“與我交談過的每一位律師都說,許可并不能解決問題。”
她經常與作者、人工智能行業高管等利益相關者討論這個問題。斯蒂勒今年早些時候會見了OpenAI的代表,并表示公司正在討論如何獎勵創作者。
但她補充說,目前還不清楚人工智能時代的公共空間將會是什么樣子。
鑒于網絡爬蟲已經為大型科技公司收集了大量數據,加上內容創作者根本無法掌控,互聯網可能會發生巨大變化。
如果發布信息意味著將數據免費提供給與自己競爭的人工智能模型,那么這種活動可能會停止。
已經有跡象表明,訪問問答網站Stack Overflow來回答問題的程序員越來越少,因為他們之前的付出被用來訓練人工智能模型,現在這些模型可以自動回答許多問題。
斯蒂勒表示,所有在線創作內容的未來可能很快就會像現在的流媒體一樣,內容被鎖在訂閱服務中,成本越來越高。
“如果我們不小心,最終就會導致公共空間關閉,”斯蒂勒說。“將會有更多有圍墻的花園、更多人們無法訪問的東西。這不是未來知識和創造力的成功模式。”(辰辰)
總結
以上是生活随笔為你收集整理的业内:ChatGPT们毁了网络共享根基,内容所有者不愿再分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 消息称本田思域 Type R 汽车热度衰
- 下一篇: 蔚来换电站新开 46 座刷新单日纪录,高