《Spark权威指南》的翻译综述

sticky | Posted on 2020-02-10 | In 中文

Words count in article 777 | Reading time ≈ 3

前言本系列文章将对《Spark - The Definitive Guide - Big data processing made simple》进行翻译，参照其他译本，取名为：《Spark权威指南》，翻译工作全程由我个人独自翻译，属于对照式翻译，有助于读者理解，如有不当或错误之处，欢迎不吝指出，方便你我他，我将标注出在原文标注出@纠正者和纠正内容。所有文件都是免费开源的，无权售卖出版，请勿二 ...

Paper Google Bigtable 翻译与总结

sticky | Posted on 2019-12-31 | In English,中文

Words count in article 27.6k | Reading time ≈ 127

前言第一部分主要是论文的翻译与旁注：按照论文原文结构一步步翻译第二部分主要是BigTable思想总结：BigTable论文相比GFS、MapReduce两篇复杂，行文并不流畅（可能本渣渣太弱），文中甚至没有总体结构说明和一些难点解释（例如：BigTable中出现的且在后来众多优秀的开源组件（例如：LevelDB, RocksDB）中常用的SSTable文件索引格式：LSM 都没有详细说明），因 ...

CAP定理图示与Raft各种场景演示

sticky | Posted on 2019-12-11 | In 中文

Words count in article 5.6k | Reading time ≈ 21

本文主要着重于CAP定理和raft各种场景演示，如有错误，欢迎指出，方便你我他，互相学习进步。 CAP 定理根据加州大学伯克利分校计算机科学家Eric Brewer说法，该定理于1998年秋季首次出现。该定理于1999年作为CAP原理发表，并由Brewer在2000 年的分布式原理研讨会上提出计算（PODC）。2002年，麻省理工学院的塞斯·吉尔伯特（Seth Gilbert ) 和南希·林奇（ ...

kaggle首战Titanic 0.82275-Top3% & 0.83732-Top2%

sticky | Posted on 2019-01-06 | In 中文

Words count in article 167 | Reading time ≈ 1

本文用数据分析探索规律，效果好于一堆的随机森林和xgboost，超过参加这个比赛的很多ensemble模型，至少排在前156/10021（Top 2%），最终只选择 name，sex，age，Ticket 4个特征，构建出新的特征，然后进行规则判断，即多个嵌套的if-else，再一次感受到了特征工程的强大。省了数据缺失弥补，其他繁琐的数据预处理，数据清洗，后续的调参和集成模型。需要注意的是：需 ...

XGBoost原理和底层实现剖析

sticky | Posted on 2018-10-02 | In 中文

Words count in article 14.1k | Reading time ≈ 60

前言在深度学习火起来之前，集成学习（ensemble learning 包括 boosting: GBDT, XGBoost）是 kaggle 等比赛中的利器，所以集成学习是机器学习必备的知识点，如果提升树或者GBDT不熟悉，最好先看一下我的另一文：《统计学习方法》第8章提升方法之AdaBoost\BoostingTree\GBDT ，陈天奇的 XGBoost (eXtreme Grad ...

Transformer论文简记

sticky | Posted on 2019-03-10 | In 中文

Words count in article 531 | Reading time ≈ 2

资源Transformer来自论文: All Attention Is You Need 别人的总结资源：谷歌官方AI博客: Transformer: A Novel Neural Network Architecture for Language Understanding Attention机制详解（二）——Self-Attention与Transformer 谷歌软件工程师一个是Ja ...