STATA常用命令总结

来源:互联网 发布:数据库存储过程怎么用 编辑:程序博客网 时间:2024/06/05 08:30

1、input: 输入数据

例: inpurt x y

      1  4

      2  3.5

      3   7

      end

2、by: 按照某一变量的取值来进行分析

例:一般要先sort(排序),然后   by group: regress Y x1 x2        //按照不同的组,对Y分别作四个回归分析

3、weight: 加权或者頻数

例:fw=頻数变量                   //多用在四格表资料中或者未原资料未给出所有值,只给出了值和对应的頻数

4、if: 用条件语句指定条件

例:drop if group==1|group==2                   //把group变量值为1或者2的记录删除掉

5、in:指定观察值的范围,对在范围内的观察值做分析处理

例:replace x1="123"  in 100/200               //把第100-200条记录中的X1变量值改为123

6、for: 用来指定变量

例:for y1-y10 z1-z5: regress @x1-x22           //把y1-y10,z1-z5分别于x1-x22做回归,一次性代表15次回归,其中@是替换符,代表y1-y10, z1-z5

7、函数:

abs(x)      绝对值

exp(x)      指数函数

log(x)       自然对数

log10(x)  常用对数

sqrt(x)      平方根

uniform(x)  生成(0,1)内均匀分布的伪随机数

length(x)   计算长度

substr(s,n1,n2)   获得从S的n1个字符开始的n2个字符组成的字符串

real(x)     将字符串s转换为数值函数

trim(x)      去除字符串前面和后面的空格

int(x)         去掉x的小数部分,得到整数

sum(X)    求和

max(x)  min(x)   最大值最小值

_n        当前观察值的位置

_N       观察值的总个数

8、ren: 重命名

例:ren   var1   var123          // 把var1重新命名为var123

9、des:描述数据库的基本情况      

10、label: 为变量添加一些说明,以示说明

11、sort: 按照某一变量从小到大排序

        gsort  +/-:按照某一变量从大到小或者从小到大排序

        sort var1 var2:按照var1大小排序,相同的var1按照var2大小排序

12、drop:删除变量或者记录

        drop x1 x2

        drop x1-x5

        drop if x<0\

        drop in 1/100

        drop if x==.|y==.

        drop _all                  //清空数据库

13、keep: 与drop对应,保存变量

14、append:纵向连接数据库

15、merge:横向连接数据库

16、gen: 生成新变量

       gen bh=_n             //将数据库的内部编号赋给变量bh

17、replace:更改变量值

     replace z=. if z=9       //将所有z=9的值用缺失值代替

18、set obs: 增加空白记录

       set obs 20           //增加20条空白记录

19、format: 改变数据格式

    format tjrq %td         //将tjrq改成日期形式

20、l: list 将结果列出

21、su: 对分析数据进行描述,均值标准差等,与des不同,des是描述数据库变量个数,格式等

su x, d         // 对x进行统计描述,如果加了d,那么就会更加detail

22、centile: 百分位数计算

centile x, centile(2.5,50,97.5)               //计算变量x的2.5,50.97.5百分位数

23、tab:頻数表达

tab sex                        //计算两个性别各自的頻数

tab sex group           //看看各组性别分布的情况

tab group, sum(x1)       //在各组内对x1统计分析

24、ci: 计算可信区间

25、直方图:gra x, bin(9) xlab(10,20,30,40) ylab(0,1,2,3) norm gap(4) b2("height (cm)")    

 //对x画直方图,分为9组,X轴为10,20,30,40,y轴为0,1,2,3,加上正态分布曲线,标题与坐标轴的距离(1-8),下坐标轴加标题为height(cm)

b1/t1/l1/r1("")  给各个坐标轴加标题

b2/t2/l2/r2("")  给各个坐标轴加副标题

title  给图加总标题

       条图:gra x1 x2, bar by(group) sh(31) l1("rate of die") b1("comparison of rate of die")

// 对x1,x2画条图,分组变量为group,两组的明暗对比度为3:1,左标题rate of die,下标题comparison of rate of die

      饼图:gra x1 x2 x3 x4 x5, pie by(group) sh(31) total

      散点图与线图:connect(简写c)——连接散点的方式:.   不连接

                                                                                                          l   直线连接

                                                                                                          s  平滑曲线连接

                                                                                                          ||  直线连接在同一纵向上的两点

                                                                                                          J  阶梯式线条连接

                                  symbol(简写s)——各个散点的图形:O  大圆圈

                                                                                                    S   大方块

                                                                                                    T   大三角型

                                                                                                    o   小圆圈

                                                                                                    d   小菱形

                                                                                                    p   小加号

                                                                                                    .     小点

                                   gra y x,  xlab ylab c(l) s(d)  

      箱式图: gra y x, oneway/twoway box

26、单样本均数t检验: ttest     x=14.02(总体均数μ)

                                           ttesti    n mean sd μ

         配对t检验: ttest x1==x2

        两样本均数t检验:ttest x1==x2,unpaired

                                         ttest x, by(group)

27、方差分析:方差齐性检验:sdtest x1=x2

                                                        sdtest x, by (group)

                              正态性检验: sktest   x

                           单因素方差分析:  oneway 相应变量 分组变量

                           两因素方差分析:anova 相应变量 分组变量1 分组变量2

                          多因素方差分析:anova x a b c ... a*b b*c a*b*c...           //乘积项代表交互作用

28、率、构成比的比较: tab var1  var2 [fw=頻数变量]

                                              chi2  pearson卡方检验

                                              exact  fisher确切概率法

           如果是原始资料RXC列联表: tabi 第一行数字从左到右\第二行从左到右...\最后一行从左到右, row chi2 exact

29、 队列研究(暴露,不暴露): ir  病例变量 暴露变量  时间变量    ./ irs  a  b   n1  n2

                                                               cs 病例变量 暴露变量 / csi  a  b  c  d

        病例对照研究(发病,不发病):cci a b c d

30、等级资料: genrank  编秩                genrank rankx=x

                              signtest   符号检验         类似t检验,signtest x=常数,signtest x1=x2, signrank x1=x2

                              signrank  符号秩和检验

                              ranksum/Wilcoxon  两样本秩和检验    wilcoxon var, by (group_var)

                              kwallis    多样本秩和检验(Kruskal-Wallis) kwallis var,by (group_var)

                              spearman   等级相关                spearman x y

                              ktau      等级相关(kendall)                 ktau x y

31、直线相关与回归:   相关 corr y x

                                           回归 reg y x

                                     估计与预测 pre yhat

                      画图 gra y yhat l1 l2 l3 l4 x, c(.lssss) s(oiiii) xlab() ylab()

32、多元线性回归及逐步回归:散点图矩阵: gra y x1 x2, matrix

                                                         相关系数矩阵:  corr

                                                        多元回归方程: reg y x1 x2     //标准化偏回归系数,reg y x1 x2, beta

                                                        逐步回归: stepwise y x1-x4, forward fe(2.73)          //α等于0.05时F界值为2.73,fe代表fenter选入标准,fs代表fstay剔除标准

           逐步回归法:forward,backward,stepwise,stepwise forward 例如:step y x1-x4, step fe(2.5)  fs(2.6) back

33、logistic回归:  logit y x [fw=f]

                                    blogit y x1 x2 x3/ glogit y x1 x2 x3

                                  也可以同上做逐步Logistic回归

34、生存曲线:中位生存时间:survsum 时间变量 截尾变量, by(分组变量)

                            生存曲线:kapmeier 时间变量 截尾变量, by(分组变量) // kaplan-meier生存曲线

                           生存率比较: 两组:wilcoxon 时间变量 截尾变量, by(分组变量)

                                                     多组:logrank 时间变量 截尾变量, by(分组变量)

                          COX分析: cox 时间变量 自变量, dead(截尾变量)

 

                                                        

                                                        

 

         

                                                                          

0 0
原创粉丝点击