2019年1月30日 星期三

[Python] 爬網頁分析練習 套件安裝

因為工作需求,第一次自己寫一個很簡單的爬蟲分析

其實也是照著網路上面各個神人的方式刻成符合自己的需求

首先因為python 簡陋,你要依你的需求安裝module

才能帶入這個module的指令

我們今天是要爬網頁,所以會需要安裝下面幾個套件

使用pip install 的指令進行安裝 pip install (your_module_name)

第一個要安裝BeautifulSoup 套件
再來我們還需要搭配使用 lxml 套件與 requests 套件。
lxml 套件是用來作為 BeautifulSoup 的解析器
BeautifulSoup 可以支援的解析器其實不只一種
還有 html.parser(Python 內建)與 html5lib
根據官方文件的推薦,我們使用解析速度最快的 lxml

[Python] CentOS 7 安裝 Python 3.7

1. 我們先看看原生現有的python2在哪裡

[root@kevin /]# whereis python
python: /usr/bin/python /usr/bin/python2.7 /usr/bin/python.bak /usr/lib/python2.7 /usr/lib64/python2.7 /etc/python /usr/include/python2.7 /usr/share/man/man1/python.1.gz
[root@kevin bin]# ll python*
lrwxrwxrwx. 1 root root    9 5月  27 2016 python2 -> python2.7
-rwxr-xr-x. 1 root root 7136 11月 20 2015 python2.7
lrwxrwxrwx. 1 root root    7 5月  27 2016 python.bak -> python2

2. 接下來我們要安裝編譯Python3的相關包,安裝相對應套件

yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make libffi-devel
這裡面有一個包很關鍵libffi-devel,因為只有3.7才會用到這個包,如果不安裝這個包的話,在make階段會出現如下的報錯:
# ModuleNotFoundError: No module named '_ctypes'

3. 安裝pip,因為CentOs 是沒有pip 的。

yum -y install epel-release 
#安装pip 
yum install python-pip

4. 可以用python 安裝一下wget

pip install wget

5. 我們可以下載python3.7的源碼包了

wget https://www.python.org/ftp/python/3.7.0/Python-3.7.0.tgz
#解壓縮
tar -zxvf Python-3.7.0.tgz

#解壓縮後,依序執行下面指令進行編譯
./configure prefix=/usr/local/python3 
make && make install
如果最後沒提示出錯,就代表正確安裝了,在/usr/local/目錄下就會有python3目錄

6. 添加Link

#添加python3的link 
ln -s /usr/local/python3/bin/python3.7 /usr/bin/python3.7 
#添加 pip3 的link 
ln -s /usr/local/python3/bin/pip3.7 /usr/bin/pip3.7
#測試是否成功 
python -V

[Linux] DHCP 服務檢查


1. 查看是否設置開機啟動chkconfig --list | grep dhcpd

2. 查看端口是否打開netstat -anulp | grep :67 

3.查看服務狀態/etc/init.d/dhcpd status【查看是否運行dhcp服務: ps aux | grep dhcp |grep -v grep 】 

4:關閉dhcpd /etc/init.d/dhcpd stop  

5:開啟dhcpd/etc/init.d/dhcpd start

2019年1月21日 星期一

[Linux] Postfix mail 常用命令以及除錯mailq

maildrop:本地郵件放置在maildrop中,同時也被拷貝到incoming中。
incoming:放置正在到達隊列或管理進程尚未發現的郵件。
active:放置隊列管理進程已經打開了並正準備投遞的郵件,該隊列有長度的限制。
deferred:放置不能被投遞的郵件。可能是推遲發送的郵件
啟動postfix
/usr/sbin/postfix start
停止postfix
/usr/sbin/postfix stop
檢查postfix配置檔
/usr/sbin/postfix check
顯示Postfix當前生效的配置信息
postconf -n
重新讀取postfix配置檔
/usr/sbin/postfix reload
查看隊列中的郵件:
mailq
postqueue -p
查看隊列大小
mailq | wc -l
postqueue -p | wc -l
查看信件內容
postcat -q Queue_ID
強制發送隊列中的郵件
/usr/sbin/postfix flush
postqueue -f
暫緩發送隊列中的問題郵件
postsuper -h Queue_ID
postsuper -h ALL deferred
解除暫緩發送的郵件
postsuper -H Queue_ID
postsuper -H ALL deferred
重新加入隊列:
postsuper -r Queue_ID
postsuper -r ALL
刪除指定郵件
postsuper -d Queue_ID
清空隊列中的郵件
postsuper -d ALL
# 刪除隊列中有問題的郵件(正在deferred列表中的郵件,直接刪除郵件文檔,可看出哪些信被刪除了 ):
postsuper -d ALL deferred
find /var/spool/postfix/deferred -type f -exec rm -vf {} \;
# find /var/spool/postfix/defer -type f -exec rm -vf {} \;
列出所有問題郵件(目前所有無法發送的郵件)
find /var/spool/postfix/deferred -type f -exec ls -l --time-style=+%Y-%m-%d_%H:%M:%S {} \;
刪除已經3天未發出的郵件
find /var/spool/postfix/deferred -type f -mtime +3 -exec rm -f {} \;
刪除超過5天的問題郵件的退信記錄(超過5天的 “defer” 列表中的退信)
find /var/spool/postfix/defer -type f -mtime +5 -exec rm -f {} \;
# 以下是一些相關的日誌
查看系統日誌:
tail -f /var/log/messages
查看郵件日誌:基本很全面,幾乎所有遇到的郵件問題都可以通過該日誌來處理
tail -f /var/log/maillog

2019年1月15日 星期二

[Citrix] XenServer VM 備份匯出匯入

通常我們在管理一個服務時最重要的就是
備份 監控 校時

備份 監控 校時
備份 監控 校時
很重要,所以說三遍

今天來介紹怎麼做匯出匯入xenserver vm的 指令showmount -e  看哪個資料夾可以掛載,在那台compute node 
把路徑mount起來
ex : Mount -t nfs 10.100.1.1:/volume/storage /mnt/vm-backup/

匯出的指令:
xe vm-export vm=0d2b5f9a-c88f-6b27-be08-4ac61baadc41 filename=/mnt/vm-backup

匯入的指令:
xe vm-import filename=/mnt/vm-backup檔案 sr-uuid=storaeuuid

2019年1月5日 星期六

[Linux] Rsync 檔案同步備份 & 差異備份

因為最近在同步檔案於是上網查了一下,能怎樣更有效地做備份
一般都只是用cp這個指令來做,只是他會變得copy全部的檔案,耗費時間太長了
也會佔用頻寬還有機器的效能,後來查到了可以用rsync這個指令來做
下面是指令的介紹

rsync 基本用法

rsync 的基本語法結構如下:
rsync 參數 來源檔案 目的檔案
以下是最常見的幾個參數:
  • -v:verbose 模式,輸出比較詳細的訊息。
  • -r:遞迴(recursive)備份所有子目錄下的目錄與檔案。
  • -a:封裝備份模式,相當於 -rlptgoD,遞迴備份所有子目錄下的目錄與檔案,保留連結檔、檔案的擁有者、群組、權限以及時間戳記。
  • -z:啟用壓縮。
  • -h:將數字以比較容易閱讀的格式輸出。
rsync 最簡單的用法就是複製本地端的檔案:
rsync -avh myfile.gz /home/pi/tmp/
sending incremental file list
myfile.gz

sent 14.34M bytes  received 35 bytes  28.67M bytes/sec
total size is 14.33M  speedup is 1.00
其效果就跟 cp -r 類似,可將 myfile.gz 複製到 /home/pi/tmp/ 目錄中,不過如果執行第二次時,rsync 就會自動跳過沒有變動的檔案:
rsync -avh myfile.gz /home/pi/tmp/
sending incremental file list

sent 74 bytes  received 12 bytes  172.00 bytes/sec
total size is 14.33M  speedup is 166,658.15
這種用法對於檔案或目錄都適用:
rsync -avh /path/to/myfolder /home/pi/tmp/

rsync 遠端備份

rsync 也可以用於不同台機器之間的遠端備份,這樣的用法就跟 scp 指令很像,不過 rsync 會更有效率:
rsync -avzh /mypath/myfile.gz pi@192.168.1.12:/mybackup/
這樣就會將本地端的 myfile.gz 備份至 pi@192.168.1.12 的 /mybackup/ 目錄中,在遇到這種遠端備份的狀況時,rsync 預設會以 ssh 的方式登入遠端的機器,所以在執行這行備份指令之後,要接著輸入pi@192.168.1.12 的密碼,接著就會開始備份資料,輸出會類似這樣:
pi@192.168.1.12's password: 
sending incremental file list
myfile.gz

sent 13.62M bytes  received 34 bytes  48.56K bytes/sec
total size is 14.33M  speedup is 1.05
而這裡我們多加入一個 -z 參數,目的是讓 rsync 可以自動將資料壓縮後再傳送,並在遠端接收到資料後自動解壓縮,減少網路傳輸的資料量。
rsync 也可以將遠端的檔案備份至本地端,其語法也跟 scp 類似:
rsync -avzh pi@192.168.1.12:/mypath/myfile.gz /mybackup/
pi@192.168.1.12's password: 
receiving incremental file list
myfile.gz

sent 30 bytes  received 23.74M bytes  571.98K bytes/sec
total size is 24.14M  speedup is 1.02
這裡的 rsync 在複製檔案時,由於我們加入了 -a 參數,所以可以用於檔案或是整個目錄的備份,相當於 scp -r 的效果,而且由於 rsync 只會傳輸有變動的部份,所以通常在異地備份資料時都會使用這種方式來處理。

-v, --verbose 詳細模式輸出訊息
-q, --quiet 安靜模式,幾乎沒有訊息產生。常用在以 cron 執行 rsync
-c, --checksum 打在傳送之前透過 128bit 的 MD4 檢查碼來檢查所有要傳送的檔案(會拖慢速度)
-a, --archive 備份模式,表示以遞迴方式傳輸文件,並保持所有文件屬性,等於 -rlptgoD(沒有 -H)
-r, --recursive 對子目錄以遞迴模式處理
-R, --relative 使用相對路徑名稱
     --no-relative 不使用相對路徑
     --no-implied-dirs 

-b, --backup 產生備份,也就是對於目的已經存在有同樣的文件名時,將老的文件重新命名為 ~filename。可以使用 --suffix 選項來指定不同的備份文件前綴。
     --backup-dir=DIR 將備份文件(如~filename)存放在在目錄下。
     --suffix=SUFFIX 定義備份文件前綴
-u, --update 僅僅進行更新,也就是略過所有已經存在於目的端,且文件時間比要備份的檔案為新。(不覆蓋較新的文件) 
     --inplace 
-K, --keep-dirlinks 接收方將連結到資料夾的檔案視為資料夾處理
-l, --links 保留符號連結
-L, --copy-links 像對待常規文件一樣處理符號連結
     --copy-unsafe-links 僅僅拷貝指向SRC路徑目錄樹以外的連結
     --safe-links 忽略指向來源端路徑目錄樹以外的連結
-H, --hard-links 保留硬式連結
-p, --perms 保留檔案權限
-o, --owner 保留檔案擁有者資訊(root only)
-g, --group 保留檔案所屬群組資訊
-D, --devices 保留設備檔案資訊(root only)
-t, --times 保留檔案時間資訊
-S, --sparse 對稀疏檔案進行特殊處理以節省目的端的空間
-n, --dry-run 不實際執行傳送,只顯示將會有的傳輸動作
-W, --whole-file 複製檔案,不進行增量檢測
     --no-whole-file 關閉 --whole-file 參數
-x, --one-file-system 不要跨越檔案系統分界(只在一個檔案系統處理)
-B, --block-size=SIZE 強制透過 rsync 程式去比對修復 block-sizeforce,預設是700字節
-e, --rsh=COMMAND 定義所使用的 remote shell
     --rsync-path=PATH 定義 rsync 在遠端機器存放資料的路徑
     --existing 只比對更新目的端已經存在的檔案,而不備份那些新產生的檔案
     --ignore-existing 忽略目的端已經存在的檔案(也就是不更新)
     --delete 刪除傳送端已經不存在,而目的端存在的檔案
     --delete-excluded 除了把傳送端已經不存在,而目的端存在的檔案刪除之外,也刪除 --exclude 參數所包含的檔案
     --delete-after rsync 預設會在檔案傳送前進行相關刪除動作確保接收端有足夠的檔案空間,但可以透過 --delete-after 讓刪除動作在檔案傳送後再行刪除
     --ignore-errors 忽略任何錯誤既使是 I/O error 也進行 --delete 刪除動作
     --max-delete=NUM 定義 rsync 不要刪除超過 NUM 個檔案
     --partial rsync若遇到傳輸過程中斷時,會把那些已經傳輸的檔案刪除。在某種狀況下保留那些部分傳送的檔案是令人高興的。你可以透過 --partial 參數達到這個目的
     --partial-dir=DIR 在 --partial 參數啟動時,你還可以定義 rsync 把那些部分傳送的檔案寫入定義的資料夾,而非直接寫入目的端。需要注意的是,此資料夾不應該被其他使用者可以寫入(如:/tmp)
     --force 當目的端資料夾被傳送端非資料夾名稱覆蓋時,強制 rsync 刪除資料夾,即使該資料夾不是空的
     --numeric-ids 不將傳送端檔案的 UID 及 GID 值,與目的端的使用者/群組進行配對。若傳送端並沒有 UID 及 GID 的對應名稱(如:原帳號群組被刪除的遺留檔案),或目的端沒有相對應的帳號/群組,保留數字型態的 UID/GID
     --timeout=TIMEOUT 設定 I/O 逾時的時間(秒)。超過這個秒數而沒有資料傳送,rsync 將會結束。預設為 0,也就是沒有定義逾時時間
-I, --ignore-times 不跳過那些有同樣的時間和長度的文件,可以透過此參數關閉此快速檢查
     --size-only 只檢查檔案大小是否改變,不管時間存取點是否改變。通常用在 mirror,且對方時間不太正確時
     --modify-window=NUM 決定文件是否時間相同時使用的時間戳窗口,預設為 0 
-T, --temp-dir=DIR 定義 rsync 在接收端產生暫時性的複製檔案時使用資料夾暫存。預設是直接在接收端資料夾直接產生暫存檔案
     --compare-dest=DIR 定義 rsync 在目的端建立資料夾來比對傳送過來的檔案
     --link-dest=DIR 與 --compare-dest 相同,但同時會針對無法改變的檔案建立硬式連結
-P, 等同於 --partial --progress 顯示備份過程,只是為了把參數簡單化
-z, --compress 對備份的檔案在傳輸時進行壓縮處理
-C, --cvs-exclude 排除那些通常不希望傳送的檔案。定義的方式與CVS傳送相同:
                          RCS SCCS CVS CVS.adm RCSLOG cvslog.* tags TAGS .make.state .nse_depinfo *~ #* .#* ,* _$* *$ *.old *.bak *.BAK *.orig *.rej .del-* *.a *.olb *.o *.obj *.so *.exe *.Z *.elc *.ln core .svn/ 符合以上條件的都會被忽略而不傳送
     --exclude=PATTERN 符合 PATTERN(規則表示式)樣式的檔案不進行傳送
     --exclude-from=FILE 和 --exclude 參數相同,不過是把不進行傳送的檔案事先寫入某一檔案,執行時,透過此參數讓 rsync 讀取。(; # 開頭的行列或空白行會被 rsync 忽略)
     --include=PATTERN 指定義 rsync 不要排除符合 pattern 樣式的檔案
     --include-from=FILE 和 --include 參數相同,只不過把要包含的檔案寫到某一檔案
     --files-from=FILE 把要傳送的檔案名稱都精確的寫入某一檔案,讓 rsync 讀取
                             如:rsync -a --files-from=/tmp/foo /usr remote:/backup
-0, --from0 定義檔案所要讀取的檔案是null字元結尾
     --version 顯示 rsync 版本
     --daemon 定義 rsyn c以 daemon 型態執行
     --no-detach 當以 daemon 型態執行時,不要進行分裂且變成背景程序
     --address=ADDRESS 定義所要連結(bind)的ip位址或是 host 名稱(daemon限定)
     --config=FILE 定義所要讀取的設定檔 rsyncd.conf 位置(daemon 限定)
                        預設值為 /usr/local/etc/rsyncd.conf
     --port=PORT 定義 rsyncd(daemon)要執行的 port(預設為 tcp 873)
     --blocking-io 使用 blocking I/O 連結遠端的 shell,如 rsh、remsh
     --no-blocking-io 使用 non-blocking 連結遠端的 shell,如 ssh(預設值)
     --stats 顯示檔案傳送時的資訊狀態
     --progress 顯示傳送的進度(給檔案傳送時,怕無聊的人用的..)
     --log-format=FORMAT 定義 log 的格式(在 rsyncd.conf 設定)
     --password-file=FILE 從檔案讀取與遠端 rsync 伺服器連結的密碼
     --bwlimit=KBPS 定義傳輸頻寬的大小(KBytes/秒)
     --write-back=FILE 把紀錄資料寫入一個檔案(給其他相同環境且相同需求的機器使用)
     --read-batch=FILE 透過讀取紀錄檔案來進行傳輸(檔案由 --write-batch 參數產生)
     --checksum-seed=NUM 定義檔案 checksum-seed 的大小(byte)
-4, --ipv4 使用 IPv4 協定
-6, --ipv6 使用 IPv6 協定
-h, --help 顯示 rsync 求助資訊

限制網路頻寬

如果不想讓 rsync 在透過網路備份資料時,佔用太大的網路頻寬而影響正常的服務,可以加上 --bwlimit 參數來指定資料傳輸的速度上限:
rsync -avzh --bwlimit=100K pi@192.168.1.12:/mypath/myfile.gz /mybackup/
pi@192.168.1.12's password: 
receiving incremental file list
myfile.gz

sent 30 bytes  received 14.34M bytes  99.22K bytes/sec
total size is 14.33M  speedup is 1.00

參考:GT大的介紹 https://blog.gtwang.org/linux/rsync-local-remote-file-synchronization-commands/