这一节介绍数据的读入和写入,要在R中做数据分析,首先需要将相关的数据读入,读入的方法多种多样,即使同一个文件,加载不同的包都有不同的读入方法,这里介绍一些比较常见的。直接编辑可以通过直接输入的方式输入数据,编辑的对象是数据框,如:data1<-data.frame(1,2,2)fix(data1)这里的fix函数是打开表格,你就可以直接……继续阅读 » Haran 8年前 (2017-12-01) 8932浏览 0评论6个赞
最近在复习R,买了两本书,参加一个在线课程,打算系统的过一遍,这一节关注R的数据结构,R中的数据结构主要有向量,矩阵,数组,数据框和列表。向量向量是R中最简单的数据结构了,有数值型,字符型,逻辑型和负数型。可以进行四则运算,函数运算,逻辑运算和切片操作,其中切片操作是最重要的,也是其他几种数据结构进行数据处理时常用的。矩阵矩阵是R中最常用到的数据结构……继续阅读 » Haran 8年前 (2017-11-16) 4918浏览 0评论0个赞
最近收到 Let’s Encrypt 的证书即将过期提醒邮件:说明之前配置的自动续期任务(cron)没有正常执行。自动续期部分之后再排查,这里先手动续期证书,保证网站正常访问,下回再研究如何设置自动更新。确认certbot-auto的位置进入你部署 certbot-auto 的目录,例如:cd /path/to/certbot就可以……继续阅读 » Haran 8年前 (2017-11-08) 7562浏览 0评论2个赞
网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4源码:from bs4 import BeautifulSoupimport requestsimport osimport urllib.requestimport randomimport timeuser_agent = [……继续阅读 » Haran 9年前 (2016-12-12) 4623浏览 0评论1个赞
变量间的关系不确定:相关关系,通常用相关系数表示,相关系数的取值范围是[-1,1],大于0 表示正相关,小于0表示负相关;绝对值接近于1,表示相关性越强确定:函数关系,通常用公式表示:Y=a+bX,通常也叫线性回归线性回归一元线性回归:Y=a+bX求解参数通常是通用最小线性二乘法求解参数a和b检验通常包含:方程检验,拟合度用R^2,RSS……继续阅读 » Haran 9年前 (2016-11-23) 6965浏览 0评论2个赞
最近在复习机器学习方面的算法,对此做些总结回顾。什么是机器学习?利用算法,是机器具有人一样的学习能力,能够自动分析判别机器学习与数据挖掘,人工智能,深度学习的区别?机器学习是利用算法,让机器具备人一样的学习能力,能够自动分析判别数据挖掘是只从一大堆数据中寻找模式和特征,需找出有价值的信息人工智能是指通过人通过电脑实现的智能,机器学习是人工智能……继续阅读 » Haran 9年前 (2016-11-22) 4538浏览 0评论1个赞
建模的流程大三步:数据清理处理,模型选择,检验,下面以线性回归为例:导入数据import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets,linear_modeldiabetes=datasets.load_diabetes() #加载数据……继续阅读 » Haran 9年前 (2016-09-23) 9222浏览 0评论3个赞
网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4现在将单线程版改为多线程运行:可以到看到运行时间不到1分钟,相较单线程版的5~6分钟,速度提高了6倍源码如下:from bs4 import BeautifulSoupimport requestsimport osimport urlli……继续阅读 » Haran 9年前 (2016-09-13) 4331浏览 0评论1个赞
数据集 ex14.csv 是关于中国各个省份的三项指标数值。请根据这些指标数值,将各个省份分为3类,并尝试归纳出各个类别的特点查看数据图形分布:# coding=utf-8import osimport pandas as pdfrom sklearn.cluster import AgglomerativeClusteringfr……继续阅读 » Haran 9年前 (2016-09-07) 11233浏览 0评论7个赞
1、 读入数据做时序图# -*- coding: UTF-8 -*- import pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.graphics.tsaplots import plot_acffrom statsmodels.tsa.stattools ……继续阅读 » Haran 9年前 (2016-09-04) 11482浏览 0评论5个赞
data2 是关于重伤病人的一些基本资料。自变量X是病人的住院天数,因变量Y是病人出院后长期恢复的预后指数,指数数值越大表示预后结局越好。尝试对数据拟合合适的线性或非线性模型过程:1、通过散点图可以判断可能可以使用的模型有:线性回归,对数,指数和冥指数回归# -*- coding: utf-8 -*-import pandas as pdfr……继续阅读 » Haran 9年前 (2016-08-10) 7928浏览 0评论0个赞