7月17日消息,據(jù)媒體報(bào)道,包括NVIDIA、蘋果、Salesforce和Anthropic在內(nèi)的多家科技巨頭,被曝光涉嫌違規(guī)使用數(shù)據(jù),用于訓(xùn)練其AI模型。
這些公司被發(fā)現(xiàn)使用了超過(guò)173536個(gè)YouTube視頻的字幕數(shù)據(jù),而這些數(shù)據(jù)的獲取并未得到視頻創(chuàng)作者的許可。
這些公司所使用的數(shù)據(jù)集名為“YouTube Subtitles”,由非營(yíng)利組織EleutherAI創(chuàng)建,該數(shù)據(jù)集包含了來(lái)自超過(guò)48000個(gè)頻道的視頻文本。
其中不乏知名教育機(jī)構(gòu)和媒體公司的內(nèi)容,例如可汗學(xué)院、麻省理工學(xué)院、哈佛大學(xué)等,此外,一些廣受歡迎的YouTube創(chuàng)作者,如MrBeast等的視頻也被包括在內(nèi)。
此前,EleutherAI發(fā)布了名為“Pile”的數(shù)據(jù)匯編,其中的大部分?jǐn)?shù)據(jù)集都是對(duì)公眾開(kāi)放的,包括YouTube Subtitles。
不過(guò)值得注意的是,蘋果在使用Pile數(shù)據(jù)集訓(xùn)練OpenELM模型時(shí),并未直接下載數(shù)據(jù),因此在技術(shù)層面上,是EleutherAI違反了YouTube的使用條款。
YouTube明確禁止未經(jīng)授權(quán)從平臺(tái)獲取素材,同時(shí)這些數(shù)據(jù)不僅用于訓(xùn)練AI,還可能涉及到版權(quán)和隱私問(wèn)題。
創(chuàng)作者們也對(duì)此表示震驚和不滿,因?yàn)樗麄儾⑽幢桓嬷约旱淖髌繁挥糜谏虡I(yè)目的,更遑論從中獲得任何補(bǔ)償。
發(fā)布日期: 2024-05-17
發(fā)布日期: 2024-05-09
發(fā)布日期: 2024-05-07
發(fā)布日期: 2024-02-26
發(fā)布日期: 2024-07-08
發(fā)布日期: 2024-09-23
發(fā)布日期: 2024-05-23
發(fā)布日期: 2024-09-30
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
尋找更多銷售、技術(shù)和解決方案的信息?
廣州綠測(cè)電子科技有限公司(簡(jiǎn)稱:綠測(cè)科技)成立于2015年11月,是一家專注于耕耘測(cè)試與測(cè)量行業(yè)的技術(shù)開(kāi)發(fā)公司。綠測(cè)科技以“工程師的測(cè)試管家”的理念向廣大客戶提供專業(yè)的管家服務(wù)。綠測(cè)科技的研發(fā)部及工廠設(shè)立于廣州番禺區(qū),隨著公司業(yè)務(wù)的發(fā)展,先后在廣西南寧、深圳、廣州南沙、香港等地設(shè)立了機(jī)構(gòu)。綠測(cè)科技經(jīng)過(guò)深耕測(cè)試與測(cè)量領(lǐng)域多年,組建了一支經(jīng)驗(yàn)豐富的團(tuán)隊(duì),可為廣大客戶提供品質(zhì)過(guò)硬的產(chǎn)品及測(cè)試技術(shù)服務(wù)等支持。
技術(shù)工程師
020-22042442