2017-12-19

LevelDB源码分析-SSTable

LevelDB

SSTable是LevelDB的核心，将数据文件组织存储在磁盘中。有关SSTable的结构设计参考下列博客：

2017-12-04

LevelDB源码分析-Put/Delete

LevelDB

在LevelDB中，Put和Delete操作本质上都是Writebatch，不同点在于key值有不同的标记。真正的Delete会在Compaction时删除标记为kTypeDeletion的数据。(在本文中mem和memtable等价，imm和Immutable等价)

enum ValueType {
        kTypeDeletion = 0x0,
        kTypeValue = 0x1
};

2017-12-04

LevelDB源码分析-Prepare

LevelDB

LevelDB整体设计

2017-08-10

配置PostgreSQL调试环境

PostgreSQL

首先下载PostgreSQL源码，我用的是PostgreSQL9.4.2。

在/home/username/新建pg文件夹，然后在.bashrc文件内添加

#每次更改.bashrc之后，执行
source ~/.bashrc
export PG=/home/username/pg

在源代码文件夹下执行

./configure --prefix=$PG --enable-depend --enable-cassert --enable-debug
make install

为了方便调试运行在.bashrc内添加

export PATH=$PATH:/home/username/pg/bin

2017-03-29

MIT 6.824 Lab1 MapReduce

distributed system

MapReduce

MapReduce是Google提出的一种分布式编程框架，具体介绍看MapReduce论文

MIT 6.824 Lab1要求使用Go语言实现一个简易版本的MapReduce框架，在实现之前先通过下图了解MapReduce的执行过程

f:id:plutolove:20170329153559p:plain 以实验1的wordcount为例，首先将输入文件分成5份，用户规定Map操作和Reduce操作的数量设为m和r，Map和Reduce操作用用户自己定义，由Master将5个文件分配给3个worker,每一个执行Map操作的worker将生成r个中间文件(key,val)，Map操作要保证相同key值的数据在同一个文件中，然后执行Reduce操作，每个Reduce产生一个文件

2016-04-06

Logistic Regression

逻辑回归模型（二分类）： $h_\theta(x) = \frac{1}{1 + \exp(-\theta^\top x)}$
代价函数cost function为： $J(\theta) = -\frac{1}{m} \sum_i \left(y^{(i)} \log( h_\theta(x^{(i)}) ) + (1 - y^{(i)}) \log( 1 - h_\theta(x^{(i)}) ) \right)$

同样通过梯度下降算法计算最小的cost来得到参数 $\theta$ ，迭代多次直到收敛

每次迭代参数更新： ${\theta}_{j} = {\theta}_{j} - \alpha * \frac{\partial J(\theta)}{\partial \theta_j} = \theta}_{j} - \alpha * \sum_i x^{(i)}_j (h_\theta(x^{(i)}) - y^{(i)})$

2016-02-05

Linear Regression

線性迴歸模型：$h_\theta(x) = \theta * x$
參數$\theta = (\theta_0, \theta_2, ..., \theta_n)$
Cost Function爲：$J(\theta) = \frac{1}{2} \sum_i \left( h_\theta(x^{(i)}) - y^{(i)} \right)²$

m爲訓練集的大小，解線性迴歸模型即就是求出最小的Cost Function對應的$\theta$值