SnailDove's blog

蜗牛哥博客


  • Home

  • About

  • Tags

  • Archives

  • Sitemap

  • Search

《Spark权威指南》的翻译综述

sticky | Posted on 2020-02-10 | In 中文
Words count in article 777 | Reading time ≈ 3
前言本系列文章将对《Spark - The Definitive Guide - Big data processing made simple》进行翻译,参照其他译本,取名为:《Spark权威指南》,翻译工作全程由我个人独自翻译,属于对照式翻译,有助于读者理解,如有不当或错误之处,欢迎不吝指出,方便你我他,我将标注出在原文标注出@纠正者和纠正内容。所有文件都是免费开源的,无权售卖出版,请勿二 ...
Read more »

Paper Google Bigtable 翻译与总结

sticky | Posted on 2019-12-31 | In English,中文
Words count in article 27.6k | Reading time ≈ 127
前言 第一部分主要是论文的翻译与旁注:按照论文原文结构一步步翻译 第二部分主要是BigTable思想总结:BigTable论文相比GFS、MapReduce两篇复杂,行文并不流畅(可能本渣渣太弱),文中甚至没有总体结构说明和一些难点解释(例如:BigTable中出现的且在后来众多优秀的开源组件(例如:LevelDB, RocksDB)中常用的SSTable文件索引格式:LSM 都没有详细说明),因 ...
Read more »

CAP定理图示与Raft各种场景演示

sticky | Posted on 2019-12-11 | In 中文
Words count in article 5.6k | Reading time ≈ 21
本文主要着重于CAP定理和raft各种场景演示,如有错误,欢迎指出,方便你我他,互相学习进步。 CAP 定理根据加州大学伯克利分校计算机科学家Eric Brewer说法,该定理于1998年秋季首次出现。该定理于1999年作为CAP原理发表,并由Brewer在2000 年的分布式原理研讨会上提出计算(PODC)。2002年,麻省理工学院的塞斯·吉尔伯特(Seth Gilbert ) 和 南希·林奇( ...
Read more »

kaggle首战Titanic 0.82275-Top3% & 0.83732-Top2%

sticky | Posted on 2019-01-06 | In 中文
Words count in article 167 | Reading time ≈ 1
本文用数据分析探索规律,效果好于一堆的随机森林和xgboost,超过参加这个比赛的很多ensemble模型,至少排在前156/10021(Top 2%),最终只选择 name,sex,age,Ticket 4个特征,构建出新的特征,然后进行规则判断,即多个嵌套的if-else,再一次感受到了特征工程的强大。省了数据缺失弥补,其他繁琐的数据预处理,数据清洗,后续的调参和集成模型。需要注意的是:需 ...
Read more »

XGBoost原理和底层实现剖析

sticky | Posted on 2018-10-02 | In 中文
Words count in article 14.1k | Reading time ≈ 60
前言在深度学习火起来之前,集成学习 (ensemble learning 包括 boosting: GBDT, XGBoost)是 kaggle 等比赛中的利器,所以集成学习是机器学习必备的知识点,如果提升树或者GBDT不熟悉,最好先看一下我的另一文: 《统计学习方法》第8章 提升方法之AdaBoost\BoostingTree\GBDT ,陈天奇 的 XGBoost (eXtreme Grad ...
Read more »

Transformer论文简记

sticky | Posted on 2019-03-10 | In 中文
Words count in article 531 | Reading time ≈ 2
资源Transformer来自论文: All Attention Is You Need 别人的总结资源: 谷歌官方AI博客: Transformer: A Novel Neural Network Architecture for Language Understanding Attention机制详解(二)——Self-Attention与Transformer 谷歌软件工程师 一个是Ja ...
Read more »
12…24<i class="fa fa-angle-right"></i>
SnailDove

SnailDove

keep enthusiasm

142 posts
3 categories
36 tags

Tag Cloud

  • Basic Algorithm1
  • Big Data1
  • Calculus and Differential1
  • Data Structure2
  • Distributed System2
  • Estimate1
  • Hadoop YARN2
  • Improving Deep Neural Networks7
  • Information Theory1
  • Latex1
  • Machine Learning27
  • Machine Learning by Andrew NG1
  • Machine Learning.feature engineering1
  • NLP1
  • Python Data Science Cookbook1
  • Redis1
  • Spark31
  • Structuring Machine Learning Projects3
  • XGBoost1
  • convolutional-neural-networks11
  • deep learning41
  • distributed compute1
  • distributed system1
  • distributed-system1
  • english1
  • google1
  • hexo1
  • java1
  • kaggle1
  • linear_algebra13
  • linux1
  • neural-networks-deep-learning8
  • nlp-sequence-models11
  • papers1
  • probability13
  • 统计学习方法4
RSS
E-Mail Weibo
Links
  • Linear Algebra on MIT
  • Probability-and-statistics on MIT
© 2018 — 2023 SnailDove | Site words total count 929.1k
Visitors Total hits
0%