2020人工智能下载数据集最全最新集合

UCI 是一个关于机器学习测试数据的下载中心站点,里面包含了适用于做聚类,分群,回归等各种机器学习问题的数据集。 http://archive.ics.uci.edu/ml/datasets/Wholesale+customers

https://aidown.52msr.cn/

Public Data Sets on Amazon Web Services (AWS) 
http://aws.amazon.com/datasets 
Amazon从2008年开始就为开发者提供几十TB的开发数据。

Yahoo! Webscope 
http://webscope.sandbox.yahoo.com/index.php

Konect is a collection of network datasets 
http://konect.uni-koblenz.de/

Stanford Large Network Dataset Collection 
http://snap.stanford.edu/data/index.html

再就是说说几个跟互联网有关的数据集: 
Dataset for “Statistics and Social Network of YouTube Videos” 
http://netsg.cs.sfu.ca/youtubedata/

1998 World Cup Web Site Access Logs 
http://ita.ee.lbl.gov/html/contrib/WorldCup.html 
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。

Page view statistics for Wikimedia projects 
http://dammit.lt/wikistats/

AOL Search Query Logs – RP 
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs

livedoor gourmet 
http://blog.livedoor.jp/techblog/archives/65836960.html

海量图像数据集: 
ImageNet 
http://www.image-net.org/ 
包含1400万的图像。

Tiny Images Dataset 
http://horatio.cs.nyu.edu/mit/tiny/data/index.html 
包含8000万的32×32图像。

MirFlickr1M 
http://press.liacs.nl/mirflickr/ 
Flickr中的100万的图像集。

CoPhIR 
http://cophir.isti.cnr.it/whatis.html 
Flickr中的1亿600万的图像

SBU captioned photo dataset 
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/ 
Flickr中的100万的图像集。

Large-Scale Image Annotation using Visual Synset(ICCV 2011) 
http://cpl.cc.gatech.edu/projects/VisualSynset/ 
包含2亿图像

NUS-WIDE 
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 
Flickr中的27万的图像集。

SUN dataset 
http://people.csail.mit.edu/jxiao/SUN/ 
包含13万的图像

MSRA-MM 
http://research.microsoft.com/en-us/projects/msrammdata/ 
包含100万的图像,23000视频

TRECVID 
http://trecvid.nist.gov/

2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频 
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

============================================
数据挖掘数据集下载资源

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集:http://www.research.att.com/~lewis/reuters21578.html
该网址有各种数据集:http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

5、关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

6、进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

7、时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

8、apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

9、数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

12、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

13、金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

14、一个很好的据资源按应用领域划分的资源网址为:http://kdd.ics.uci.edu/ 

发表评论

邮箱地址不会被公开。 必填项已用*标注