哈佛大学和谷歌将发布100万本公共领域书籍作为人工智能训练数据集
2024年12月13日 6:00 PDF版
哈佛大学和谷歌将发布100万本公共领域书籍作为人工智能训练数据集
人工智能训练数据成本高昂,最适合资金雄厚的科技公司。因此,哈佛大学计划发布一个数据集,其中包含大约100万本公共领域书籍,涵盖各种类型、语言、作者,包括狄更斯、但丁和莎士比亚,这些书籍由于年代久远而不再受版权保护。新的数据集尚未发布,也不清楚何时或如何发布。不过,数据集包含了谷歌长期图书扫描项目“谷歌图书”的书籍,因此谷歌将参与这次发布。哈佛大学于3月首次透露了机构数据计划 (IDI)。IDI 执行董事莱珀特表示,该数据集旨在通过向任何想要训练大型语言模型的人开放如此庞大的数据集来“创造公平竞争环境”
—— Techcrunch
- 🔥免费PC翻墙、安卓VPN翻墙APP
- 🔥灵魂之谜|中华文化|治国大道
转自: 风向旗快讯
请点赞转发分享👇👇👇Follow Us 责任编辑:金兰


脸书专页
粉丝交流群