导语:讲者梳理了神经模型在关系抽取中的发展脉络,并分享相关领域的最新工作进展。雷锋网(公众号:雷锋网)ai研习社按:关系抽取是自然语言处理中的重要任务,也是从文本中挖掘知识的基本途径之一。深度学习在关系抽取中的研究在近几年取得了广泛关注,其中基于远距离监督

导语:在这种类型的竞赛和问题中,特征工程和特征选择是最重要的。雷锋网(公众号:雷锋网)ai科技评论按:kagglecreditdefaultrisk比赛日前落下帷幕,该比赛总奖金7万美元,第一名奖金35000美元,第二名奖金25000美元,第三名奖金10000美元。该竞赛从2018年5月17日持续到2018年8月29日,共吸引到7198支参赛队伍,竞争异常激烈。由michaeljahrer担任队长的aloan队获得第一名。许多人由于较少甚至没有使用过信用卡消费,因而很难获得贷款,而且这类群体往往又被不值得信赖的借款人利用。credit希望为没有银行账户的群体提供正当且安全的贷款,为了判断这类群体的贷款是否正当合理,credit利用不同来源的数据(电话和交易记录等)来预测这些人的偿债能力。基于以上原因,credit在kaggle上发起了一场贷款偿债能力预测的比赛,并提供了丰富的数据。

此次比赛的评测指标采用的是auc,要求参赛人员或队伍对测试集的每个sk_id_curr预测target(偿清贷款)的概率并以文件形式提交到kaggle平台。

冠军团队成员之一bojantunguz在kaggle上发表了这支团队的具体方案,以下是雷锋ai科技评论对这一方案的编译整理。

比赛冠军队伍方案根据我之前信用担保的经验,不得不承认这个问题是应用机器学习领域中最复杂的问题之一。这个领域的数据一般非常混杂,比如数据是在不同时间段上收集的,来自不同途径,且可能在收集数据的过程中发生改变。此外,找到一个合适的目标变量也很棘手,需要深厚的专业知识和高超的商业分析能力。

插一句,credit和kaggle提供的这个数据集非常赞,既不会泄露用户隐私,且易于进行机器学习。

基于对信用担保的了解,通常来说,很显然,这种类型的机器学习问题要构建一个很好的比赛模型一不同的基线算法。我们主要有四个充满多样性的数据来源,以及少量的次要特征数据来源。

数据和特征工程

我们使用的第一个比较大的特征集合是在许多kernel中找到的。这些特征在多对一的表格上采用不同形式聚合,另外还有申请贷款次数特征。我们一共使用了大约700个特征。跟许多人一样,对于每个sk_id_curr,我们只是基于sk_id_prev和sk_id_bureau的特征建立基础模型,另外,我们还基于除法和减法从applicacsv构造了许多特征。效果最显著的除法操作是除以ext_source_3,这对我们的cv(本地做交叉验证得到的分数)有一个小的提升,也带来了榜单排名的提升。我们还发现通过为类别变量使用类别编码器可以获得相当不错的提升,我对applicacsv中所有的类别变量建立了类别编码器,也对previous_apcsv表中lastapplication中的所有类别变量建立了类别编码器。除了聚合sk_id_prev和sk_id_bureau,我还使用了数据的不同部分来计算聚合特征。

previous_acsv聚合了最近的3、5次和起初的2、4次申请信息。这些申请中的每个变量都有交叉验证过,使cv分数获得了最大的提升。installmencsv聚合了最近的2、3、5次的偿还贷款信息。我对num_installment_numer上的1、2、3、4次分期进行了聚合,对从days_installment中过滤出来的最近60、90、180和365天的分期做了聚合,还对所有逾期付款的分期做了聚合。如果entry_payment的值比days_instalment大,逾期变量就被定义为1,否则就定义为0。pos_cacsv,credit_cacsv与installmencsv采用了同样的方法进行特征聚合。我还使用了来。

  • 品牌简介
  • 品牌文化
  • 发展历程
  • 关联品牌
  • 伊派新品
  • 进口瓷砖THG
  • 伊派瓷砖
  • 实景案例
  • 招商加盟
  • 诚聘英才
  • 联系方式

agglekaggle本专题为雷锋网的kaggle专题,内容全部来自雷锋网精心选择与kaggle相关的最近资讯,雷锋网读懂智能与未来,拥有kaggle资讯的信息,在这里你能看到未来的世界。

进入kaggle竞赛前2%的秘诀吸引7198支队伍

导语:现在的闲聊机器人在对话的互动性、一致性以及逻辑性上都还存在着一些亟待解决的缺陷。雷锋网ai研习社按:现如今,诸如小冰这类闲聊机器人逐渐进入了大众的视野,甚至成为了一部分人打发闲暇时光的伴侣。然而,现在的闲聊机器人在对话的互动性、