Home >  List

学习材料的链接


文档

类型 名称 链接
数据分析 pandas 官网
数据分析 numpy 官网
数据分析 scipy 官网
可视化 seaborn 官网
可视化 matplotlib 官网
机器学习 sklearn 官网, 中文@apachecn
深度学习 pytorch 官网 & github, examples@github, 中文@apachecn & github

课程

名称 链接
CS229(吴恩达机器学习) (1) Video @Coursera
(2) slides & quiz@Coursera
(3) Coursera note @holehouse
(4) Video @Stanford
(5) Course material @Stanford
(6) CS229 cheatsheet: English & Chinese & @Stanford
CS230(吴恩达深度学习) course, notes, github
CS231(李菲菲计算机视觉) course, notes, github
李宏毅机器学习 中文材料@datawhalechina
deeplearning.ai系列课程
(1) 神经网络和深度学习
(2) 改善深层神经网络:超参数调试、正则化以及优化
(3) 结构化机器学习项目
(4) 卷积神经网络
(5) 序列模型
笔记@黄海广(ai-start), pdf@seafile
林轩田: 机器学习基石 笔记@红色石头, pdf@seafile
林轩田: 机器学习技法 笔记@红色石头, pdf@seafile

书籍

名称 链接
机器学习实战(Peter Harrington) my github, pdf@seafile
机器学习(周志华西瓜书) pdf@seafile
深度学习(花书) 官网, 中文翻译, pdf@seafile
统计学习方法(李航) pdf@seafile
Machine Learning Yearing(吴恩达) pdf@seafile
Troubleshooting DNN(Josh Tobin) pdf@seafile
动手深度学习 英文, 中文(MXNet), 中文(pytorch)
PyTorch深度学习 packtpub, notebook@github

Read full-text »


Area plot


Stacked area for multiple category reference

import numpy as np
import matplotlib.pyplot as plt

x=range(1,6)
y=[ [1,4,6,8,9], [2,2,7,10,12], [2,8,5,10,6] ]
 
plt.stackplot(x,y, labels=['A','B','C'])
plt.legend(loc='upper left')
plt.show()

Read full-text »


Lollipop plot


A lollipop(棒糖) plot is an hybrid between a scatter plot and a barplot, which is used to show amino acid mutation along a protein sequence. An example as below:

img

lillopop gally also show the basic usage of python to achieve this.

# library
 import matplotlib.pyplot as plt
 import numpy as np
 
# create data
 x=range(1,41)
 values=np.random.uniform(size=40)
 
# stem function: first way
 plt.stem(x, values)
 plt.ylim(0, 1.2)
 #plt.show()
 
# stem function: If no X provided, a sequence of numbers is created by python:
 plt.stem(values)
 #plt.show()
 
# stem function: second way
 (markerline, stemlines, baseline) = plt.stem(x, values)
 plt.setp(baseline, visible=False)
 #plt.show()

img

Read full-text »


Coordinate systems in different file formats


coordinate of files:

Format Coordinate Example
sam, vcf, gff, wig 1-based [3,7]
bam, bcf, bed, psl, bedgraph 0-based [2,7)

Read full-text »


Job manager on cluster


目录


IBM对于各命令的解释

  • bsub: Submits a job to LSF
  • bjobs: displays and filters information about LSF jobs
  • bqueues: displays information about queues

查看运行的任务

  • bjobs: 列出正在运行的任务
  • -w: 展示全部的信息,尤其是任务名称,在识别不同的样本时很有用
$ bjobs -w
JOBID   USER    STAT  QUEUE      FROM_HOST   EXEC_HOST   JOB_NAME   SUBMIT_TIME
734009  zhangqf7 RUN   Z-ZQF      loginview02 5*node524   Fastqc_raw.4 Apr 23 10:58
734092  zhangqf7 RUN   Z-ZQF      loginview02 5*node526   Fastqc_raw.11 Apr 23 10:58
734117  zhangqf7 RUN   Z-ZQF      loginview02 5*node522   Fastqc_raw.13 Apr 23 10:58
734212  zhangqf7 RUN   Z-ZQF      loginview02 5*node531   Fastqc_raw.21 Apr 23 10:58

提交含有脚本参数的任务

有时候需要提交的任务除了qsub可以指定的参数之外,还有本身执行的命令带有的命令行参数,比如下面例子中R脚本的参数:-f,-o,通常的做法是,用引号把执行的命令部分引起来,格式如下(可参考这里):

bsub -q [queue] -J "[name]" -W 00:10 [other bsub args] "sh script.sh [script args]"

sample=test
bsub_err=./${sample}.err
bsub_out=./${sample}.out
filein=/Share/home/zhangqf5/gongjing/data/${sample}.txt
fileout=/Share/home/zhangqf5/gongjing/rerun/${sample}
bsub -q Z-ZQF -oo $bsub_out -eo $bsub_err "Rscript test.R -f $filein -o $fileout"

查看集群队列使用情况

$ bqueues
QUEUE_NAME      PRIO STATUS          MAX JL/U JL/P JL/H NJOBS  PEND   RUN  SUSP
TEST             60  Open:Active       -    -    -    -     0     0     0     0
TEST 1          60  Open:Active     460    -    -    -   380   380     0     0
TEST 2          60  Open:Active     380    -    -    -   680   580   100     0

杀死所有pending的任务

参考这里

bjobs -w | grep 'PEND' | awk '{print $1}' | xargs bkill

提交任务在某个任务完成之后再执行

bsub -q Z-ZQF -eo run.err -oo run.out -w "done(323228)" bash sampling.sh

bsub_waiting_jobs_done.png


提交任务在某个任务完成之后再执行(任务名称)

可参考这里的例子

# map
for seed in 1234 #1234 40 9988 17181790 81910 625178 1 7829999 9029102 918029109
do
	for i in 10 20 40 #10 20 30 40 50 60 70 
	do
		# mkdir -p $sampling_dir/${sample}_${i}_${seed}/1.mapGenome
		# icSHAPE-pipe mapGenome -i $sampling_dir/${sample}_${i}_${seed}/0.rawData/nai.trimmed.fastq -o $sampling_dir/${sample}_${i}_${seed}/1.mapGenome/nai -x $star_index -p 16 --maxMMap 10
		# sleep 10

		mkdir -p $sampling_dir/${sample}_${i}_${seed}/2.tab
		bsub -q Z-ZQF -J "${sample}.${seed}.${i}.totab" -n 5 -eo $sampling_dir/${sample}_${i}_${seed}/2.tab/sam2tab.err -oo $sampling_dir/${sample}_${i}_${seed}/2.tab/sam2tab.out "icSHAPE-pipe sam2tab -in $sampling_dir/${sample}_${i}_${seed}/1.mapGenome/nai.sorted.bam -out $sampling_dir/${sample}_${i}_${seed}/2.tab/nai.tab"

		mkdir -p $sampling_dir/${sample}_${i}_${seed}/3.shape
		bsub -q Z-ZQF -n 5 -w "done(${sample}.${seed}.${i}.totab)" -J "${sample}.${seed}.${i}.tabtoscore" -eo $sampling_dir/${sample}_${i}_${seed}/3.shape/score.err -oo $sampling_dir/${sample}_${i}_${seed}/3.shape/score.out \
		    "icSHAPE-pipe calcSHAPENoCont \
		        -N $sampling_dir/${sample}_${i}_${seed}/2.tab/nai.tab \
		        -size $star_index/chrNameLength.txt \
		        -out $sampling_dir/${sample}_${i}_${seed}/3.shape/score.tab \
		        -genome $ref_fa \
		        -bases A,C \
		        -non-sliding"


		for c in 200 #0 50 100 150 200 250
		do
			for T in 2 #0 1 2 3
			do
				echo $c,$T
				bsub -q Z-ZQF -w "done(${sample}.${seed}.${i}.totab) && done(${sample}.${seed}.${i}.tabtoscore)" -J "${sample}.${seed}.${i}.scoretoshape" -eo $sampling_dir/${sample}_${i}_${seed}/3.shape/genSHAPEToTransSHAPE.c${c}T${T}.err -oo $sampling_dir/${sample}_${i}_${seed}/3.shape/genSHAPEToTransSHAPE.c${c}T${T}.out \
					"icSHAPE-pipe genSHAPEToTransSHAPE -s $star_index/chrNameLength.txt -i $sampling_dir/${sample}_${i}_${seed}/3.shape/score.tab \
					-o $sampling_dir/${sample}_${i}_${seed}/3.shape/shape.c${c}T${T}M0m0.out -c $c -T $T -M 0 -m 0"
			done
		done

	done
done


指定需要多少核数

# 指定所需最大最小核数
bsub -n min_proc[,max_proc]

指定在什么时间执行

bsub -b [[year:][month:]day:]hour:minute

提交到所在队列的特定节点

比如有时候一个队列中某些节点内存很大,而自己的程序需要很大的内存,此时需要指定节点:

# bsub -m “host_name”
bsub -m ‘‘node1 node3’’

参考

Read full-text »


kramdown用法



参考


常见用法


表格

| Header1 | Header2 | Header3 |
|:--------|:-------:|--------:|
| cell1   | cell2   | cell3   |
| cell4   | cell5   | cell6   |
Header1 Header2 Header3
cell1 cell2 cell3
cell4 cell5 cell6

指定文字的颜色

# 颜色是seaborn的,可直接指定:red,blue,green等
**设置为红色的(加粗版本)**{: style="color: #C44E52"}
*设置为红色的(斜体版本)*{: style="color: #C44E52"}
**设置为绿色的**{: style="color: #55A868"}
**设置为蓝色的**{: style="color: #4C72B0"}
  • 设置为红色的
  • 设置为红色的(斜体版本)
  • 设置为绿色的
  • 设置为蓝色的

block: 使用>符号

> 会用竖线把该段文字放在一起

会用竖线把该段文字放在一起


Read full-text »


读后感-余华《活着》


读后感-余华《活着》

因为《老黑奴》这首歌曲,看到了人面对生活所持有的积极乐观的心态,便有了小说里这个中国式小人物的浮沉一生。通过田间偶遇的回忆,描述了老人徐福贵的一生,让我想起了阿甘,坐在长崎上,对着陌生人讲述自己的故事。 作为富贵子弟的徐福贵,家境殷实,但是在其沉迷于赌博的挥霍之下,100亩地都被其输光了,从此过上了贫苦的日子。他的双亲相继死去,虽然生前满是对于儿子的无奈,但都洋溢着浓浓的爱。富贵的一生经历了他人没有过的痛苦,既有来自身体上的,更多的是来自心灵的创伤。他的儿子因为献血用于抢救县长夫人,但是因为医务人员抽血过度而死,巧合的是县长正是自己曾经的战友,痛失爱子但又无处宣泄。他的女儿因为一场病变成了哑巴,虽然不能说话,但是聪明伶俐,在嫁给了老实本分的“歪头”二根之后,难产大出血而死,留下了一个儿子-苦根,这也是她和其丈夫原本幸福爱情的结晶。在女儿死后,原本患有软骨病的妻子也离开了人世,至此便自己和女婿守护着这苦命的外孙。但是上天并没有因此停下脚步,二根在工地上被坍塌的水泥墙砸死了。一个近古稀之年的老人,一个几岁大小的孩童,相依为命,守着自家的茅草屋。苍天的怜悯之心已经淹没了,苦根也因为福贵的一次照顾不周,发烧病死了,白发人送黑发人,徐福贵眼睁睁的看着亲人一个个的离去,不论大小,不分男女。 一般的人,在经历过丧子之后,便斗志全无,更何况是这种“灭门之灾”。一个印象很深的情节是,二根死了准备送去医院,福贵死活不愿意进去,因为就是在那里他送走了自己的儿子和女儿。当生活一次次的摧残着自己,拿走原本活下去的些许盼头,活着还有什么意义?抗日战争的硝烟炮火没有夺走他的命,自然灾害的大饥荒他也挺过来了,文化大革命也逃脱了,却仍然摆脱不了噩运。他没有哭天抢地,痛诉命运的不公,也没有愤世嫉俗,指责社会的无良。只是默默地承受着,默默地活着,也许活着就是无声的胜利。当他和一头叫福贵的牛在田间犁地,谁说他活着不好呢?

Read full-text »


Python module scipy


python scipy

Python_SciPy_Cheat_Sheet_Linear_Algebra.png

Read full-text »