精心挑选的100多种机器学习数据集

毫无疑问,每个人都知道,学习数据科学和机器学习的唯一最佳方法是通过执行各种项目来学习它们。老实说,您周围有很多现实世界的机器学习数据集,即使您不必完成全面的数据科学或机器学习课程,也可以选择练习基础数据科学和机器学习技能。但是是的,数据科学和机器学习项目绝对没有其他选择。大多数数据科学和机器学习初学者做错的事情是,他们只是专注于学习许多理论概念,而等待太长时间才能启动专注于该概念的实际实现的机器学习/数据科学项目。毫无疑问,从理论上讲清楚您的机器学习概念总会很好,但是如果没有获得相关的实际经验,您就无法期望成为企业数据科学家或机器学习工程师。在此博客的此处,我们将为您提供100多个有价值的数据集,以供机器学习(特别是对于初学者)使用,这无疑将有助于验证您的基本数据科学和机器学习技能。

机器学习中的数据集是什么?
机器学习中的数据集是实例的集合(实例是指一行数据),这些实例都共享一些共同的特征和属性。为了使机器学习模型执行不同的动作,需要两种数据集–

训练数据集-送入机器学习算法进行训练的数据。

测试数据集或验证数据集–用于评估和测试机器学习模型正在正确解释的数据。

为什么需要机器学习数据集?
机器学习算法从数据中学习。机器学习算法可识别趋势,关系并根据为训练模型而提供的大量数据进行预测。因此,数据是机器学习中的金鹅。从机器学习模型中收集的见解与数据集一样好。对于机器学习项目而言,拥有大量且更好的训练数据可带来更好而准确的模型性能。可靠的机器学习数据集非常重要,并且在精确的机器学习模型的开发中起着至关重要的作用。

可在此处免费访问已解决的机器学习Python和R代码示例(这些已为您的项目准备使用)

在哪里可以找到用于机器学习的数据集?
有大量的免费和付费资源可用于机器学习数据集。公共机器学习数据集可帮助您入门的最受欢迎资源包括–

UCI或UC Irvine机器学习数据集存储库
AWS数据集
Google数据集搜索
数据政府
微软研究开放数据
卡格勒
世界银行
但是,对于数据科学和机器学习的初学者来说,从这些网站上提供的众多选项中进行选择可能会变得势不可挡。如果您想学习机器学习,则需要一个坚实的基础,这意味着用于机器学习项目的有趣数据集,以及一些可以使用这些免费数据集的很棒的项目构想。想知道在哪里可以找到免费和公共的机器学习数据集?别无所求……无论是零售,医疗保健,银行与金融,犯罪,还是其他任何类型的机器学习数据集,我们都精选了一系列顶级机器学习数据集,以帮助您使模型成功。

面向数据科学和机器学习从业人员的100多种机器学习数据集
机器学习数据集

我们汇总了一个以领域为中心的顶级机器学习数据集列表,其中包含对数据和可以使用特定数据集进行的项目的简短描述。

零售机器学习数据集
医疗保健机器学习数据集
银行和金融机器学习数据集
社交媒体机器学习数据集
犯罪机器学习数据集

机器学习的最佳零售数据集
机器学习的零售数据集
零售交易机器学习数据集
1)在线零售数据集(英国在线商店)

如果您热衷于预处理大型零售数据集,则可能希望查找这家英国的在线公司的交易数据,该数据可以出售独特的全场合赠品。 分类和聚类具有超过500,000行和8个属性,是可以使用此数据集执行的最常见的关联机器学习任务。

 Download Online Retail Dataset for Machine Learning

 Interesting Machine Learning Project Idea using UK Online Retail Dataset– Perform Market Basket Analysis to identify the association rules between the products.

2)零售火箭推荐系统数据集

该数据集由真实世界电子商务网站的点击流数据组成,该网站具有有关客户行为的信息,例如添加到购物车信息,交易和点击以及有关417053个唯一商品的不同商品属性的信息。 数据集具有事件数据文件,其中包含有关用户在特定时间戳下对产品执行的事件(添加到购物车,交易或视图)的信息。 仅当用户进行交易时,事件数据文件中的“ transaction-id”列才具有值,否则为N / A。

Download Retail Rocket Recommender System Dataset for Machine Learning

Machine Learning Project Idea using Retail Rocket Machine Learning Dataset – Build a Recommender System to predict the transaction and event pattern of a visitor.

3)用于机器学习的Instacart订单数据集

这是另一个有趣的机器学习数据集,可处理200,000多个Instacart匿名客户的杂货订单,该数据集可用于处理大型零售数据。对于每个客户,数据集均包含购买产品的顺序中4到100个订单的数据以及一天中的星期几和小时数。 XGBoost,Word2Vec和Annoy是机器学习算法,彻底改变了Instacart客户如今购买杂货的方式。


Download Instacart Orders Kaggle Dataset

使用Instacart数据集的初学者的机器学习/数据科学项目创意

客户细分–建立基于关联的机器学习模型,以了解Instacart客户的多样化组合,并针对合适的客户群体以最大程度地提高盈利能力。
市场篮子分析–开发预测性市场篮子分析机器学习模型,以确定Instacart客户将再次购买哪些产品?
4)Olist的巴西电子商务数据集

该机器学习数据集由Olist商店的10万个客户订单数据组成,其中包括卖方信息,产品元数据,客户信息和客户评论的详细信息。



Download Brazilian E-commerce Public Kaggle Dataset by Olist

使用巴西电子商务数据集的数据科学/机器学习项目构想

电子商务产品评论分析–通过分析客户给出的产品评论中的文字对Olist商店出售的产品进行评分。
分析Olist客户的购买趋势,以根据客户当前购买的商品确定客户是否打算购买相关产品。
5)机器学习的超级市场数据集

该零售数据集具有超过1000行和17列,具有一家超市公司3个月的历史销售数据,并记录了该公司三个不同分支机构的数据。该零售数据集是任何类型的预测分析项目的理想选择。


Download Supermarket Kaggle Dataset for Machine Learning

机器学习的零售图像数据集

6)MVTec密集细分的超市图像数据集

由于培训数据数量有限,并且验证和测试集中的多样性很高,因此对于机器学习而言,这是一个具有挑战性的图像数据集。它具有在700个不同场景中采集的日常产品和杂货的21K高分辨率图像,并在与行业相关的设置中以高质量注释为所有对象实例提供了像素化标签。


Download MVTec D2S Retail Dataset for Machine Learning

使用MVTec D2S数据集的计算机视觉项目构想

该零售数据集可用于语义图像分割,以覆盖自动结帐,仓库或库存系统的实际应用。经典的深度学习CNN机器学习算法最适合在像素级别对图像中的产品进行分类,以简化结帐流程。

7)上下文中的通用对象(COCO)数据集

COCO数据集共有330,000张图像,超过200,000个标签,其中包含91个东西类别,80个对象类别,150万个对象实例以及25万具有关键点的人员-COCO数据集是最流行且最具挑战性的高质量计算机视觉数据集之一。该数据集代表了我们在日常生活中遇到的各种物体的图像,被认为是转移学习的理想检查点。它是训练计算机视觉模型的基础数据集。使用COCO计算机视觉数据集训练了任何计算机视觉模型后,您就可以使用任何自定义数据集进一步调整模型以学习其他任务。


Download COCO Dataset for Machine Learning

您可以使用COCO数据集进行哪种计算机视觉项目?

对象检测-使用COCO数据集执行最具挑战性的计算机视觉任务之一,即预测图像中不同对象的位置以及存在的对象的类型。

8)弗莱堡杂货数据集

弗赖堡食品杂货零售数据集包含5000张图像,其中包含25种不同的食品杂货,每个类别至少具有97张图像,这些图像已在不同杂货店的各个部门的实际环境中捕获。


Download Freiburg Groceries Dataset

使用弗莱堡食品杂货集的计算机视觉项目构想

您可以基于杂货产品的多类对象分类构建计算机视觉模型。可以进一步微调此模型,以建立无摩擦的商店体验,类似于流行的Amazon Go商店,而无需手动结帐。

9)时尚MNIST数据集

凭借10K测试示例,60K,培训示例以及10类零售产品,分辨率为28×28灰度通道图像,这是用于深度学习和计算机视觉的MNIST数据集的最佳替代产品之一。但是,这比直接替换更具挑战性。


Download Fashion MNIST Kaggle Dataset

使用Fashion MNIST数据集的计算机视觉项目构想

通过使用Keras或TensorFlow训练简单的CNN从头开始构建模型,使用此数据集来享受您对服装分类的初体验。如果您想练习一种使用CNN机器学习算法解决图像分类问题的方法,则可以查找此数据集。

10)零售产品结帐数据集

在商店货架上有来自2000种不同产品类别的超过500,000张零售商品图像-就产品类别和产品图像数量而言,这是最大的零售图像数据集之一。


Download a Large-Scale Retail Product Checkout Kaggle Dataset

使用RPC数据集的计算机视觉项目构想

该数据集被广泛用于推进零售产品图像识别的研究,以进行自动货架审核和结帐。该数据集的高质量性质使其非常适合用于细粒度的零售产品图像分类。

是否想发展您的数据科学和机器学习技能?查看我们最新的端到端数据科学和机器学习项目以及源代码

客户评论用于机器学习的零售数据集
11)亚马逊客户评论数据集

从1995年到2015年,该机器学习数据集在数百万种产品上拥有超过130亿条客户评论,是机器学习,自然语言处理和信息检索领域的数据科学家和研究人员的福音,以了解客户体验。


Download Amazon Customer Reviews Dataset

12)妇女的电子商务服装评论数据集

这是一个匿名的数据集,因为它包含真实客户撰写的评论,并具有23486个带有10个不同功能变量的客户评论。该ML数据集提供了一个绝佳的环境,可用于解析多个维度的文本。


Download Women’s E-Commerce Clothing Reviews Dataset

13)宜家机器学习评论数据集

这是一个相当小的机器学习数据集,其中包含从Google Maps刮取的1300条最佳和最差的IKEA客户评论。这为情感分析提供了一个完美的初学者级数据集。


Download IKEA Reviews Kaggle Dataset

14)亚马逊和百思买电子产品评论数据集

该数据集专门针对百思买和亚马逊上提供的50种电子产品提供了7000多个在线评论。数据集包括审阅日期,标题,等级,来源,元数据和其他信息。


Download Amazon and Best Buy Electronic Product Reviews Dataset

15)多域情感数据集

这是一个多域数据集,包含来自许多产品类型的产品评论。超过10万条Amazon.com对产品,乐器,书籍和DVD的评论,评分介于1到5之间。


Download Multi-Domain Sentiment Kaggle Dataset

使用客户评论数据集的有趣的机器学习项目创意

使用NLP根据客户评论的内容预测收视率
研究客户反馈对产品购买过程的影响。您可以使用这些评论数据集来预测客户向其朋友推荐产品的可能性。
研究各种品牌的在线声誉。
对客户评论进行情绪分析,以识别用户对产品的情感(正面,负面或中立)。 (评论情绪)
ProjectPro通过构建端到端的现实世界数据科学和机器学习项目来帮助学生学习实践技能。为有源代码的学生检查一些有趣的有趣的机器学习项目构想。

其他用于机器学习的零售数据集
16)来自维多利亚的秘密和其他组织的内衣数据

该数据集包含来自受欢迎的零售网站(如亚马逊,维多利亚的秘密,汉基·潘基,梅西百货,Btemptd,Nordstrom,American Eagle等)的600,000多种内衣产品的数据。


Download Innerwear Data from Victoria’s Secret and Others Kaggle Dataset

使用Innerwear Kaggle数据集的机器学习项目构想:

该数据集可用于分析泳装和内装产品的流行趋势。

17)电子商务项目数据

机器学习数据集包含500个SKU,以及服装品牌产品目录中的产品说明。


Download eCommerce Item Kaggle Dataset

使用电子商务项目Kaggle数据集的机器学习项目构想:

您可以使用Item数据进行的有趣的机器学习项目是构建产品推荐系统。

18)eBay在线拍卖数据集

该在线拍卖零售数据集包含拍卖信息,例如竞标价格,竞标时间,物品的拍卖价格,以及有关施华洛世奇珠子,卡地亚手表,Xbox游戏机和Palm Pilot M515 PDA的其他拍卖信息。


Download eBay Online Auctions Dataset

使用在线拍卖Kaggle数据集的机器学习项目构想:

建立机器学习模型以预测拍卖品的最终价格。从利润最大化的角度来看,预测拍卖品的最终价格对买卖双方都有利。

19)沃尔玛数据集

这是最佳的初学者级机器学习数据集之一,因为它具有最多的零售数据以及每个沃尔玛商店区域中的外部数据,例如失业率,燃料价格,CPI,是进行详细分析的理想选择。该Kaggle数据集包含2010年至2012年记录的45家沃尔玛商店的匿名历史销售数据。


Download Walmart Store Sales Kaggle Dataset

使用沃尔玛零售数据集的机器学习/数据科学项目构想

考虑假日和降价事件,消费者物价指数,季节变化以及其他影响产品销售的因素,建立一个机器学习模型来预测沃尔玛在全部门的销售。销售预测模型可帮助公司草拟有关如何满足未来需求和增加销售的计划。

20)男鞋价格数据集

该数据集包含10,000种男鞋的大集合,以及它们的销售价格,品牌名称,鞋名和其他信息。


Download Men’s Shoe Price Dataset

使用鞋价数据集的机器学习/数据科学项目构想

使用此定价数据建立机器学习模型以-

确定奢侈品牌的品牌价值
确定定价策略
确定奢侈男鞋的趋势
确定鞋子的特定功能与价格变化之间的相关性。

机器学习的最佳医疗保健数据集


用于机器学习的医疗保健数据集

1)OSIC肺纤维化进展

开源影像协会医疗保健数据集包括200例匿名的肺部基线CT扫描以及其他相关临床信息,例如基线强迫生命系数,患者性别,年龄,基线扫描后的相对周数,吸烟状况等。


Download OSIC Pulmonary Fibrosis Progression Dataset

使用OSIC Kaggle数据集的数据科学/机器学习项目构想

您可以建立机器学习模型来预测患者肺功能下降的严重程度。

2)APTOS 2019失明检测

这是在各种成像条件下捕获的眼底摄影视网膜图像的多样化且广泛的数据集。根据糖尿病性视网膜病变的严重程度,每张图片的临床评分为0到4。


Download APTOS 2019 Blindness Detection Kaggle Dataset

使用APTOS数据集的机器学习项目构想

在285万人中,有1/3患有糖尿病性视网膜病变。您可以使用此数据集建立一个机器学习模型,该模型可以在DR引起影响眼睛的并发症之前早发现DR,这将帮助数百万糖尿病患者失去视力。

3)超声神经分割数据集

这个Kaggle数据集包含5635张图像,其中的神经已由人工手动注释。它是具有挑战性的机器学习数据集之一,因为它具有减小的数据大小并且没有明显的结构特征。


Download Ultrasound Nerve Segmentation Dataset

访问带有源代码的该机器学习项目,以建立一个机器学习模型,该模型可识别超声图像中的神经结构,以分割称为臂丛(BP)的神经集合。

4)帕金森数据集

这是一个非常小的医疗数据集,大约需要39 KB的数据,并且可以对31位患者进行一系列生物医学语音测量,其中23位患有帕金森氏病。


Download Parkinson Dataset from UCI Machine Learning Repository

使用帕金森数据集的机器学习项目构想

每年印度有超过100万人受到帕金森氏病的影响。这种疾病是慢性的,无法治愈,甚至很难为医生早期诊断。您可以建立一个机器学习模型,以准确检测个体中帕金森氏病的早期发作,并基于多种因素来确定帕金森氏病患者是否健康。

5)英特尔和MobileODT宫颈癌数据集

该Kaggle数据集包含1481个训练图像和512个测试图像。考虑到此数据集的局限性,您可能必须应用各种数据增强技术来增加训练样本的数量。


Download Intel & MobileODT Cervical Cancer Dataset

使用英特尔和移动ODT宫颈癌数据集的深度学习项目构想

使用深度学习和图像分类的子宫颈类型分类-宫颈癌是致命的,但是如果在早期发现并进行适当治疗,对许多妇女来说可以挽救生命。您可以使用此Kaggle数据集构建深度学习模型,以对子宫颈类型(类型1,类型2和类型3)进行分类,以帮助医疗保健专业人员为全球女性提供更好的护理。对子宫颈类型进行分类将有助于医疗保健提供者提高女性子宫颈癌筛查的效率和质量。

6)乳房组织病理学图像数据集

实际数据集包含162个乳腺癌标本的幻灯片图像。从该数据集中提取了277,524个补丁,其中78786个属于阳性类别,而其余198、738个补丁属于阴性类别。


Download Breast Histopathology Images Dataset

使用乳房组织病理学图像数据集的深度学习项目构想

乳腺癌是最常见的癌症类型,在2018年经诊断的210万例乳腺癌病例中有627,000例死亡报告。在所有确诊的乳腺癌病例中,有80%属于浸润性导管癌(IDC)类型。早期准确诊断癌症有助于选择正确的治疗方案,并有助于提高癌症患者的生存率。您可以使用此数据集构建用于图像分类的深层CNN,以识别未标记的组织病理学图像中IDC的存在。这是一项重要的临床任务,为此,自动化模型肯定会节省时间并减少错误。

7)迷你DDSM数据集

最大的(45GB)公共乳腺摄影数据集之一,具有年龄属性,密度属性,患者的原始文件名,癌病灶轮廓二进制蒙版图像以及带有所有所需元数据的excel表。


Download Mini DDSM Kaggle Dataset

使用Mini DDSM数据集的机器学习项目

年龄估计具有多种临床应用,并且已经使用生物医学图像对人类年龄进行了一些研究。使用此数据集,您可以基于乳房X线照片图像中的胸肌段建立基于AI的模型来估计年龄。最重要的步骤是从乳房X线照片中分割胸肌,然后提取深度学习特征以建立年龄估计模型。

8)克利夫兰心脏病数据集

克利夫兰心脏病UCI数据集包含303个个体的数据,这些个体具有75个属性,其中14个属性,例如年龄,性别,静息血压,血清胆固醇,静息心电图,获得的最大心率,运动诱发的心绞痛以及其他可能的重要参数发生心血管疾病的主要危险因素。


Download Heart Disease Dataset

使用心脏病数据集的机器学习项目构想

心脏病是世界范围内死亡率和发病率的主要原因,仅在美国,每年就有61万例死亡。根据风险因素很难手动确定罹患心血管疾病的几率。在这里,机器学习可以极大地帮助您根据医疗保健行业产生的大量数据做出预测。您可以应用各种机器学习算法,例如SVM,朴素贝叶斯,XGBoost,决策树,随机森林,并使用克利夫兰心脏病机器学习数据集对它们进行比较,以预测某人是否患有心脏病。

9)行动预测数据集的机制

这是一个独特的机器学习数据集,由细胞活力数据和基因表达组成,可以访问超过5K药物的MoA注释。这个用于机器学习的数据集基于一种新颖的技术,该技术可测量人类细胞对数百种不同细胞类型池中药物的反应,从而消除了确定哪种细胞类型更适合任何给定药物的问题。


Download Mechanisms of Action (MoA) Prediction Kaggle Dataset

使用MoA预测数据集的机器学习项目构想

药物发现在疾病治疗的发展中起着至关重要的作用。机器学习被广泛用于理解疾病的潜在机制,临床标记,药物发现和验证。通过开发机器学习算法来基于药物的生物活性对药物进行分类,该数据集可用于促进药物开发。

10)世界卫生组织-医疗机器学习数据集的世界

不同国家/地区最值得信赖和最真实的医疗数据来源。通过针对霍乱,肺结核,流行性感冒和其他疾病等特定疾病的COVID -19数据和分析,世卫组织获得了全球卫生重点数据以及大多数卫生状况的趋势重点。


Download Healthcare Datasets for Machine Learning from WHO Repository

与医疗数据配合使用的其他有趣且有趣的机器学习项目创意

肺分割
糖尿病预测
接触追踪以阻止传染病的传播
癌症分类
个性化医学
预测慢性病
预测疾病暴发
分类图像数据(X射线,CT扫描等)以进行诊断护理。

最佳银行和金融机器学习数据集


机器学习的银行和金融数据集

1)桑坦德数据集

由于这是银行业务数据集,因此已被完全掩盖,仅包含数值。西班牙在线银行桑坦德银行提供了四个不同的数据集,以帮助他们使用机器学习解决各种业务挑战。

ownload Santander Customer Transaction Dataset

Download Santander Value Prediction Dataset

Download Santander Product Recommendation Dataset

Download Santander Customer Satisfaction

这些桑坦德银行数据集可用于构建端到端机器学习模型,以-

预测客户将来是否会与银行进行交易,而不管交易的金额如何。
预测客户是否会购买产品
预测客户是否有能力支付费用
预测客户是否对银行的服务感到满意。
2)房屋信贷违约风险数据集

该数据集包含7个不同的客户数据源-贷款申请数据,局数据,信用卡余额数据,以前的贷款申请数据,POS现金余额数据,EMI付款数据和局余额数据。


Download Home Credit Default Risk Kaggle Dataset

使用房屋信用违约风险Kaggle数据集的机器学习项目构想

建立机器学习模型以预测客户是否有能力偿还贷款。这些模型将帮助银行决定是否只对有能力偿还贷款的申请人批准贷款。

3)银行营业额数据集

该数据集包含针对银行的大约1万名客户的14个功能,其中20%是流失客户。


Download Bank Turnover Dataset

使用银行营业额数据集的机器学习项目

该数据集可用于预测客户流失,这是机器学习的最常见应用之一。您可以建立一个机器学习模型来预测客户是否会在未来6个月内退出银行的服务。预测客户流失将有助于银行制定保留活动和忠诚度计划以保留客户。

4)信用卡交易数据集

该欧洲信用卡数据集包含2013年9月在两天内发生的284、807笔交易和492笔欺诈交易(占所有交易的0.172%)。这是一个极具挑战性的数据集,因为它的数据不平衡,因为大多数这些交易不是欺诈性交易,因此很难检测到欺诈性交易。


Download Credit Card Fraud Transaction Kaggle Dataset

使用信用卡交易数据集的机器学习项目

信用卡欺诈是许多银行和信用卡公司的常见问题,因为大多数欺诈交易看起来与正常交易相似,并且每天在信用卡上完成大量交易,因此很难手动检测到欺诈行为。使用此金融机器学习数据集来识别欺诈性信用卡交易,以确保不会因客户未进行的交易向客户收费。

5)给我一些信用数据集

该数据集包含2008年为25万巴西借款人创建的历史数据,金融机构可以利用这些历史数据来预测信用评分并做出最佳的财务决策。


Download Give me Some Credit Kaggle Dataset

使用“给我一些信誉”数据集的机器学习项目构想

建立一个机器学习模型,以预测一个人在未来两年内遭受财务困扰的可能性。

6)两个西格玛数据集

该数据集由两个数据源组成,即Intrinio和Thomson Reuters。 Intrinio提供的培训市场数据大约有400万行,而路透社提供的培训新闻分析数据则有近900万行,使其成为可用于预测股价的最大数据集之一。


Download Two Sigma Dataset

使用两个Sigma Kaggle数据集的有趣的机器学习项目创意

股票价格通常由投资者的行为决定,而投资者则根据公共信息确定股票价格以预测股票市场的反应。在此,随着投资者对这些信息做出反应,财经新闻文章在影响股票价格方面起着至关重要的作用。该数据集可用于构建机器学习模型,以对与公司列表相关的新闻文章进行分类,并基于该模型预测那些公司的股价波动。

7)比特币历史数据集

该数据集包括从2012年1月到2020年12月的精选比特币交易数据,包括开盘价,最高价,最低价和收盘价的逐分钟更新,以及加权比特币价格,BTC量和指定货币。


Download Bitcoin Historical Dataset

使用比特币历史数据集的示例机器学习项目构想

使用此Kaggle数据集构建机器学习模型,以预测明天的比特币价格。人们可以探索使用LSTM模型来预测比特币价格。

8)简街市场数据集

如果您喜欢机器学习项目或想探索一些良好的股市数据,则此数据集可能是一个绝佳的合作机会。它包含带有匿名功能的真实股市数据,其中数据集中的每一行代表一个交易机会。


Download Jane Street Market Prediction Dataset

使用Jane Street市场预测数据集的建议的机器学习项目

使用Jane Street股票市场数据来构建定量交易机器学习模型,以使用来自全球证券交易所的真实股票市场数据来最大化回报。您还可以针对未来的实际股市数据测试机器学习模型的有效性。

9)Elo商家类别推荐

Elo是巴西的大型支付品牌,向借记卡和信用卡用户提供餐厅推荐,并根据他们的偏好提供折扣。该数据集包含有关每笔卡交易的信息,以及有关特定商人长达3个月的每张卡交易价值的数据,每张卡的新商人的交易详细信息,以及基于交易中涉及的各种商人的其他商人数据。卡交易。


Download Elo Merchant Category Recommendation Dataset

建议的Elo商家类别数据集机器学习项目

该数据集可用于查找这些促销对客户和商人有多有益。建立机器学习模型来预测客户的忠诚度分数,并帮助Elo了解客户的忠诚度,以便他们减少不必要的营销活动并为其用户创造正确的体验。

10)俄罗斯储蓄银行俄罗斯住房市场数据集

此数据集的训练数据包含有关俄罗斯最古老,最大的银行Sberbank的21000个真实交易的信息,而测试数据包含7K个真实交易以及有关该物业的其他信息。


Download Sberbank Russian Housing Market Kaggle Dataset

使用Sberbank俄罗斯住房市场数据集的机器学习项目构想

使用此丰富的银行数据集来开发机器学习模型,以预测实际房价,以便开发商,贷方和提供者在购买物业或签订租约时充满信心。这些数据还包括有关俄罗斯经济和金融部门的信息,这些信息可以帮助开发准确的模型而无需再次猜测。

探索其他100个主要的金融和经济数据集。

机器学习社交媒体数据集
用于机器学习的社交媒体公共数据集

1)Twitter美国航空情绪数据集

该社交媒体数据集具有14,640行和12个属性,并包含从Twitter刮取的美国各主要航空公司的推文。


Download Twitter US Airline Sentiment Dataset

ML项目建议的想法:使用机器学习的情感分类系统

您可以使用此数据集将航空公司的推文分类为肯定,否定或中性,以分析旅行者对航空公司的反馈。

2)Google Cloud和YouTube 8M数据集

由Google AI / Research在2016年开发的数据集,其中包含800万个YouTube视频(总计50万小时)和4.8K(每个视频平均3.4个标签)视觉标题。


Download YouTube 8M Dataset

使用YouTube 8M数据集的数据科学和机器学习项目构想

建立模型大小小于1GB的紧凑型视频分类,以学习视频表示形式。这将有助于推进视频级注释。
建立分类机器学习模型以准确分配视频标签。
3)COVID-19 Tweets数据集

这是一个多语言的推文数据集,包含超过10亿条推文,其中包含冠状病毒,病毒,covid,ncov19,ncov2019等关键字,并带有标签,提及,主题和其他信息。


Download COVID19 Tweets Dataset

使用COVID 19数据集的建议ML项目

使用数据挖掘,网络分析和NLP分析来自该数据集的推文集,以识别人们对大流行的反应以及反应随时间的变化。您还可以利用此ML数据集来收集有关大流行初期如何传输正确信息和错误信息的见解。

4)Yelp数据集

该数据集包含5,200,000条评论,其中包含来自4个国家/地区11个地区的1,74,000家企业的信息。


Download Yelp Kaggle Dataset

您可以使用此数据集进行哪些项目以进行机器学习?

使用NLP和情感分析来找出评论中正面或负面的含义,并推断出各种情感和业务属性的含义。

5)Twitter上的客户支持

Twitter上来自顶级品牌的300万条推文的数据集。


Download Customer Support on Twitter Dataset

我可以使用此ML数据集做什么项目?




机器学习犯罪数据集

1)旧金山犯罪分类

这是一个历史数据集,包含2003年至2015年旧金山地区的12年犯罪报告。数据包括犯罪发生的日期,犯罪时间,犯罪描述,地区,地址,位置坐标和解决方案。

Download San Francisco Crime Classification Dataset

使用犯罪分类Kaggle数据集的ML项目构想

建立端到端机器学习模型,根据事件发生的位置和时间来预测犯罪事件的类别。

2)伦敦犯罪数据集

该数据集由LSOA区,月份和次要/主要类别在2008年1月至2016年12月之间的犯罪报告组成,犯罪记录为1300万行。


Download London Crime Dataset

使用London Crime Kaggle数据集的建议项目

该数据可用于分析根据一周中的某天或某个季节的犯罪发生率是否发生任何变化,或确定特定犯罪在减少或增加的自治市镇。

3)印度犯罪

该数据集包含有关2001年国家犯罪数据的完整信息,分为40多个因素。


Download Crime in India Dataset

使用此数据集的分析建议项目

该数据集可用于分析印度的犯罪模式,例如虐待儿童案件,针对SC和ST的犯罪以及其他犯罪,以根据犯罪模式发现潜在的罪犯。

4)芝加哥犯罪数据集

来自芝加哥警察局的芝加哥犯罪数据集有699万行,具有22个属性。该数据集会随着犯罪事件不断更新。


Download Chicago Crime Dataset

使用Chicago Crime Dataset的机器学习项目构想

可以利用该数据集来构建模型,以分析温度对暴力犯罪(如殴打或殴打)的影响,确定同比增长最高的犯罪类别等。

5)波士顿数据集中的犯罪

数据集由波士顿警察局提供,其中包含2015年6月以来的犯罪类型,犯罪发生的时间和地点,犯罪描述,位置坐标以及其他信息。


Download Crime in Boston Dataset

该数据集可用于构建一个模型,以识别犯罪热点和犯罪的频繁发生时间。


关注公众号“康波之道”回复“小程序”获取1000个小程序打包源码。回复“大数据”获取多本大数据电子书

发表评论

邮箱地址不会被公开。 必填项已用*标注