数据可视化的方法、工具和应用 - 林骥

1. 数据可视化简介

数据可视化,是指用图形的方式来展现数据,从而更加清晰有效地传递信息,主要方法包括图表类型的选择和图表设计的准则。随着互联网的广泛应用,我们的工作和生活等各个方面,每时每刻都在产生大量的数据,也就是所谓的「大数据时代」,发展的趋势是人们越来越喜欢用数据说话。

数据可视化作为一种有效传递信息的手段,被越来越广泛地应用到很多领域。一个比较典型的案例,是淘宝双十一的数据可视化,在一块大屏幕上实时动态展示交易数据,使用的数据可视化工具是阿里云出品的 DataV,体现了阿里巴巴用数据驱动运营的一种探索。

如果想要让数据发挥更大的价值,那么合理地运用数据可视化的方法和工具就显得特别重要。

2. 数据可视化的图表选择

根据数据分析的实际情况,需要有针对性地选择合适的数据可视化方法。但是可视化的图表花样繁多,我们应该如何选择并设计你的图表呢?下面这张图最早是从刘万祥老师的公众号「Excel图表之道」上发现的,原图来自于 http://chart.guide,我做了一点修改。

img

本文将把它拆分为 8 个部分,逐一进行介绍。

(1) 当你需要对不同的类别进行比较时,有很多种图形可供选择,其中条形图是最常见的,垂直瀑布图适合用来比较并分析各个组成部分的变化情况,词云图适用于大量文本的分析和比较。

img

(2) 当你想要直观反映关键业绩指标随时间的变化情况时,用柱形图或曲线图是比较好的选择。建议不要用面积图,因为可视化的目标应该不仅仅只是为了视觉上的好看,准确有效地传递信息更加重要。


为 Centos 7 设置静态IP

  1. 编辑 ifcfg-eth0

    vi /etc/sysconfig/network-scripts/ifcfg-eth0
    
  2. 增加/修改设置

    BOOTPROTO="static" # dhcp改为static 
    ONBOOT="yes" # 开机启用本配置
    IPADDR=192.168.7.106 # 静态IP
    GATEWAY=192.168.7.1 # 默认网关
    NETMASK=255.255.255.0 # 子网掩码
    DNS1=192.168.7.1 # DNS 配置
    
  3. 重启网络

    service network restart
    

kubernetes 限制磁盘IO

磁盘 IO 限制 在 IaaS 层是一个基本功能,在 docker 中也有实现。

参考这篇文章: 《限制容器的_Block_IO_每天5分钟玩转_Docker_容器技术 - IBM developerworks》

Block IO 指的是磁盘的读写,实际上 docker 是通过 cgroups 做了限制,通过设置权重、限制 bps 和 iops 的方式控制容器读写磁盘的带宽。 --device-read-bps,限制读某个设备的 bps。 --device-write-bps,限制写某个设备的 bps。 --device-read-iops,限制读某个设备的 iops。 --device-write-iops,限制写某个设备的 iops。

docker run -it --device-write-bps /dev/sda:30MB ubuntu /bin/bash

time dd if=/dev/zero of=test.out bs=1M count=800 oflag=direct

不清楚是什么原因,kubernetes 一直未把 io 限速加入到系统功能中。社区中相关的 issue 和 pull request 已经多到不行了,例如:

然而一直未合并至主分支。

由于我使用的为 1.10 某版本的kubernetes,参考了这位朋友的提交,完成了对 block io 的支持 honglei24/kubernetes

修改完成代码之后根据之前 《kubernetes 的编译、打包和发布(v1.10)》,编译完成。

使用时按照代码也可以猜出来用法了:

以下注释表示限制磁盘写的速度为30M:

annotations: 
  BlkioDeviceWriteBps: '/dev/sda:31457280'

使用 deb 包安装 docker

手头有一个某云平台的虚拟机,很不幸无法使用docker官方的脚本安装docker:

curl -sSL https://get.docker.com/ | sh
usermod -aG docker $USER
systemctl enable docker
systemctl start docker

报错则是xxx链接超时。我使用的是debian系统,所以这一篇记录如何使用deb包安装docker。

查看系统版本

YUKI.N > lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 9.11 (stretch)
Release:        9.11
Codename:       stretch

进入下载页

进入到下载包页面 https://download.docker.com/linux/

点击进入 debian>dists>stretch 进入了这个连接地址 https://download.docker.com/linux/debian/dists/

选择一个比较新的版本

我选择的是 19.03

wget https://download.docker.com/linux/debian/dists/stretch/pool/stable/amd64/docker-ce_19.03.0~3-0~debian-stretch_amd64.deb

安装命令

sudo dpkg -i docker-ce*.deb
sudo apt-get -f install

安装完成后查看版本信息:

YUKI.N > docker version
Client: Docker Engine - Community
 Version:           19.03.2
 API version:       1.40
 Go version:        go1.12.8
 Git commit:        6a30dfca03
 Built:             Thu Aug 29 05:29:49 2019
 OS/Arch:           linux/amd64
 Experimental:      false

Server: Docker Engine - Community
 Engine:
  Version:          19.03.0
  API version:      1.40 (minimum version 1.12)
  Go version:       go1.12.5
  Git commit:       aeac9490dc
  Built:            Wed Jul 17 18:12:33 2019
  OS/Arch:          linux/amd64
  Experimental:     false
 containerd:
  Version:          1.2.6
  GitCommit:        894b81a4b802e4eb2a91d1ce216b8817763c29fb
 runc:
  Version:          1.0.0-rc8
  GitCommit:        425e105d5a03fabd737a126ad93d62a9eeede87f
 docker-init:
  Version:          0.18.0
  GitCommit:        fec3683

至此安装完成。


laravel 根据 postgresql jsonb 字段数组筛选数据行

这篇文章记录一下我如何解决在 laravel 中使用jsonb 数组筛选数据行。

背景

先描述一下背景,数据库中我们有一个jsonb字段data,这个字段里存的是数组。在 laravel 数据表中定义如下:

        Schema::create('xxx', function (Blueprint $table) {
            $table->uuid('uuid');
            $table->jsonb("data")->nullable(); // 
            ... ...
        });

在类中定义如下:


    protected $casts = [
        'data' => 'array',
    ];

在data中我们使用数组存了一组无序的数据,例如:

[ a,b,c ]

初始想法

这种情况和我们使用 jsonb 存对象,根据对象取记录行是不一样的。

先来看下常规的json对象如何筛选记录行的。如果我们使用对象来存,可以很方便的达到我们的效果,例如:

if (XxxClass::where("data->id", $id)->where("data->name", $name)->count() == 0) {
}

数组无法使用这种方式取值,故而pass。

而laravel我也没有查到相关的办法解决。所以比较好的办法是自己写SQL语句查询。参考 postgresql 官方的文档:https://www.postgresql.org/docs/9.4/functions-json.html

很自然的我选择了 ?| 操作符进行筛选,并且成功了!

p1

具体 SQL 语句如下:

select * from "xxx" where "data" :: jsonb ?| ARRAY['b']

由此查到了相关的记录。

p1

困难初现

难题在于通过这种方式无法在 laravel 中使用:

p1

以下是错误提示:

p1

从错误提示里可以知道 被转义成了laravel eloquent 默认的 变量了。 但即使使用了转义符 \ 仍然是同样的错误。

为了更准确地定位问题,我用了下面的代码查看生成的sql语句是什么:

echo DB::select('select * from "xxx" where "data" :: jsonb ?| ARRAY[\'b\']')->toSql();

这个和我使用纯sql语句一毛一样。在此时我一度陷入了困境,便开始群聊和谷歌之旅。

定位问题

此时一位能力强悍的老同事,找到了一个issue,不过竟然是golang的框架 gorm 的讨论:Way to escape Question Mark in Raw Query? #533 - github

问题也就是:这是 postgresql 9.4 的一个系统bug,目前官方并没有解决办法。

绕过问题

虽然问题一时半会无法解决,但是社区里找到了绕过此问题的方法,那就是——不使用 ?| 操作符!

https://laravel.io/forum/01-25-2015-postgres-94-new-question-mark-operator-cant-be-used-in-eloquent-raw-queries

具体来说,是使用 @> 操作符替代 ?|操作符:

select * from "xxx" where "data" :: jsonb @> '["b"]'

至于这两个操作符具体实现和效率有何不同,就不太清楚了,不过已经能解决目前遇到的问题了。转换到 laravel 的实现,使用下面的代码:

DB::table('xxx')->whereRaw('"data" :: jsonb @> \'["'.$this->name.'"]\';')->get()

问题解决~


laravel 中如何写json文件

写json要注意使用如下方法:

$content = stripslashes(json_encode($array));

stripslashes用于删除反斜杠。

写文件使用laravel方法

  • Storage::put($file, $content);

或php原生方法:

  • file_put_contents
    // 读文件

    $jsonString = file_get_contents(base_path('resources/lang/en.json'));

    $data = json_decode($jsonString, true);

    // 更新内容

    $data['country.title'] = "Change Manage Country";

    // 写文件

    $newJsonString = json_encode($data, JSON_PRETTY_PRINT);

    file_put_contents(base_path('resources/lang/en.json'), stripslashes($newJsonString));

参考资料