交流评论、关注点赞

  • Facebook Icon脸书专页
  • telegram Icon粉丝交流群
  • telegram Icon电报频道
  • RSS订阅禁闻RSS/FEED订阅

哈佛大学和谷歌将发布100万本公共领域书籍作为人工智能训练数据集

2024年12月13日 6:00 PDF版 分享转发

将发布100万本公共领域书籍作为训练数据集

人工智能训练数据成本高昂,最适合资金雄厚的。因此,大学计划发布一个数据集,其中包含大约100万本公共领域书籍,涵盖各种类型、语言、作者,包括狄更斯、但丁和,这些书籍由于年代久远而不再受版权保护。新的数据集尚未发布,也不清楚何时或如何发布。不过,数据集包含了谷歌长期图书扫描项目“谷歌图书”的书籍,因此谷歌将参与这次发布。哈佛大学于3月首次透露了机构数据计划 (IDI)。IDI 莱珀特表示,该数据集旨在通过向任何想要训练大型语言模型的人开放如此庞大的数据集来“创造公平竞争环境”

—— Techcrunch

转自: 风向旗快讯

请点赞转发分享👇👇👇Follow Us 责任编辑:金兰