佳木斯湛栽影视文化发展公司

主頁 > 知識(shí)庫 > 詳解Linux中的日志及用日志來排查錯(cuò)誤的方法

詳解Linux中的日志及用日志來排查錯(cuò)誤的方法

熱門標(biāo)簽:電話機(jī)器人搭建 服務(wù)器配置 百度競價(jià)點(diǎn)擊價(jià)格的計(jì)算公式 外呼系統(tǒng) 家政服務(wù)網(wǎng)絡(luò) 美團(tuán) 解決方案 硅谷的囚徒呼叫中心

Linux 系統(tǒng)日志
許多有價(jià)值的日志文件都是由 Linux 自動(dòng)地為你創(chuàng)建的。你可以在 /var/log 目錄中找到它們。下面是在一個(gè)典型的 Ubuntu 系統(tǒng)中這個(gè)目錄的樣子:


一些最為重要的 Linux 系統(tǒng)日志包括:

/var/log/syslog 或 /var/log/messages 存儲(chǔ)所有的全局系統(tǒng)活動(dòng)數(shù)據(jù),包括開機(jī)信息?;?Debian 的系統(tǒng)如 Ubuntu 在 /var/log/syslog 中存儲(chǔ)它們,而基于 RedHat 的系統(tǒng)如 RHEL 或 CentOS 則在 /var/log/messages 中存儲(chǔ)它們。
/var/log/auth.log 或 /var/log/secure 存儲(chǔ)來自可插拔認(rèn)證模塊(PAM)的日志,包括成功的登錄,失敗的登錄嘗試和認(rèn)證方式。Ubuntu 和 Debian 在 /var/log/auth.log 中存儲(chǔ)認(rèn)證信息,而 RedHat 和 CentOS 則在 /var/log/secure 中存儲(chǔ)該信息。
/var/log/kern 存儲(chǔ)內(nèi)核的錯(cuò)誤和警告數(shù)據(jù),這對于排除與定制內(nèi)核相關(guān)的故障尤為實(shí)用。
/var/log/cron 存儲(chǔ)有關(guān) cron 作業(yè)的信息。使用這個(gè)數(shù)據(jù)來確保你的 cron 作業(yè)正成功地運(yùn)行著。
Digital Ocean 有一個(gè)關(guān)于這些文件的完整教程,介紹了 rsyslog 如何在常見的發(fā)行版本如 RedHat 和 CentOS 中創(chuàng)建它們。

應(yīng)用程序也會(huì)在這個(gè)目錄中寫入日志文件。例如像 Apache,Nginx,MySQL 等常見的服務(wù)器程序可以在這個(gè)目錄中寫入日志文件。其中一些日志文件由應(yīng)用程序自己創(chuàng)建,其他的則通過 syslog (具體見下文)來創(chuàng)建。

什么是 Syslog?
Linux 系統(tǒng)日志文件是如何創(chuàng)建的呢?答案是通過 syslog 守護(hù)程序,它在 syslog 套接字 /dev/log 上監(jiān)聽日志信息,然后將它們寫入適當(dāng)?shù)娜罩疚募小?/p>

單詞“syslog” 代表幾個(gè)意思,并經(jīng)常被用來簡稱如下的幾個(gè)名稱之一:

Syslog 守護(hù)進(jìn)程 — 一個(gè)用來接收、處理和發(fā)送 syslog 信息的程序。它可以遠(yuǎn)程發(fā)送 syslog 到一個(gè)集中式的服務(wù)器或?qū)懭氲揭粋€(gè)本地文件。常見的例子包括 rsyslogd 和 syslog-ng。在這種使用方式中,人們常說“發(fā)送到 syslog”。
Syslog 協(xié)議 — 一個(gè)指定日志如何通過網(wǎng)絡(luò)來傳送的傳輸協(xié)議和一個(gè)針對 syslog 信息(具體見下文) 的數(shù)據(jù)格式的定義。它在 RFC-5424 中被正式定義。對于文本日志,標(biāo)準(zhǔn)的端口是 514,對于加密日志,端口是 6514。在這種使用方式中,人們常說“通過 syslog 傳送”。
Syslog 信息 — syslog 格式的日志信息或事件,它包括一個(gè)帶有幾個(gè)標(biāo)準(zhǔn)字段的消息頭。在這種使用方式中,人們常說“發(fā)送 syslog”。
Syslog 信息或事件包括一個(gè)帶有幾個(gè)標(biāo)準(zhǔn)字段的消息頭,可以使分析和路由更方便。它們包括時(shí)間戳、應(yīng)用程序的名稱、在系統(tǒng)中信息來源的分類或位置、以及事件的優(yōu)先級(jí)。

下面展示的是一個(gè)包含 syslog 消息頭的日志信息,它來自于控制著到該系統(tǒng)的遠(yuǎn)程登錄的 sshd 守護(hù)進(jìn)程,這個(gè)信息描述的是一次失敗的登錄嘗試:

復(fù)制代碼
代碼如下:

34>1 2003-10-11T22:14:15.003Z server1.com sshd - - pam_unix(sshd:auth): authentication failure; logname= uid=0 euid=0 tty=ssh ruser= rhost=10.0.2.2

Syslog 格式和字段
每條 syslog 信息包含一個(gè)帶有字段的信息頭,這些字段是結(jié)構(gòu)化的數(shù)據(jù),使得分析和路由事件更加容易。下面是我們使用的用來產(chǎn)生上面的 syslog 例子的格式,你可以將每個(gè)值匹配到一個(gè)特定的字段的名稱上。

復(fù)制代碼
代碼如下:

%pri%>%protocol-version% %timestamp:::date-rfc3339% %HOSTNAME% %app-name% %procid% %msgid% %msg%n

下面,你將看到一些在查找或排錯(cuò)時(shí)最常使用的 syslog 字段:

時(shí)間戳
時(shí)間戳 (上面的例子為 2003-10-11T22:14:15.003Z) 暗示了在系統(tǒng)中發(fā)送該信息的時(shí)間和日期。這個(gè)時(shí)間在另一系統(tǒng)上接收該信息時(shí)可能會(huì)有所不同。上面例子中的時(shí)間戳可以分解為:

2003-10-11 年,月,日。
T 為時(shí)間戳的必需元素,它將日期和時(shí)間分隔開。
22:14:15.003 是 24 小時(shí)制的時(shí)間,包括進(jìn)入下一秒的毫秒數(shù)(003)。
Z 是一個(gè)可選元素,指的是 UTC 時(shí)間,除了 Z,這個(gè)例子還可以包括一個(gè)偏移量,例如 -08:00,這意味著時(shí)間從 UTC 偏移 8 小時(shí),即 PST 時(shí)間。
主機(jī)名
主機(jī)名 字段(在上面的例子中對應(yīng) server1.com) 指的是主機(jī)的名稱或發(fā)送信息的系統(tǒng).

應(yīng)用名
應(yīng)用名 字段(在上面的例子中對應(yīng) sshd:auth) 指的是發(fā)送信息的程序的名稱.

優(yōu)先級(jí)
優(yōu)先級(jí)字段或縮寫為 pri (在上面的例子中對應(yīng) ) 告訴我們這個(gè)事件有多緊急或多嚴(yán)峻。它由兩個(gè)數(shù)字字段組成:設(shè)備字段和緊急性字段。緊急性字段從代表 debug 類事件的數(shù)字 7 一直到代表緊急事件的數(shù)字 0 。設(shè)備字段描述了哪個(gè)進(jìn)程創(chuàng)建了該事件。它從代表內(nèi)核信息的數(shù)字 0 到代表本地應(yīng)用使用的 23 。

Pri 有兩種輸出方式。第一種是以一個(gè)單獨(dú)的數(shù)字表示,可以這樣計(jì)算:先用設(shè)備字段的值乘以 8,再加上緊急性字段的值:(設(shè)備字段)(8) + (緊急性字段)。第二種是 pri 文本,將以“設(shè)備字段.緊急性字段” 的字符串格式輸出。后一種格式更方便閱讀和搜索,但占據(jù)更多的存儲(chǔ)空間。

在 Linux 中使用日志來排錯(cuò)
登錄失敗原因
如果你想檢查你的系統(tǒng)是否安全,你可以在驗(yàn)證日志中檢查登錄失敗的和登錄成功但可疑的用戶。當(dāng)有人通過不正當(dāng)或無效的憑據(jù)來登錄時(shí)會(huì)出現(xiàn)認(rèn)證失敗,這通常發(fā)生在使用 SSH 進(jìn)行遠(yuǎn)程登錄或 su 到本地其他用戶來進(jìn)行訪問權(quán)時(shí)。這些是由插入式驗(yàn)證模塊(PAM)來記錄的。在你的日志中會(huì)看到像 Failed password 和 user unknown 這樣的字符串。而成功認(rèn)證記錄則會(huì)包括像 Accepted password 和 session opened 這樣的字符串。

失敗的例子:

復(fù)制代碼
代碼如下:

pam_unix(sshd:auth): authentication failure; logname= uid=0 euid=0 tty=ssh ruser= rhost=10.0.2.2
Failed password for invalid user hoover from 10.0.2.2 port 4791 ssh2
pam_unix(sshd:auth): check pass; user unknown
PAM service(sshd) ignoring max retries; 6 > 3

成功的例子:

復(fù)制代碼
代碼如下:

Accepted password for hoover from 10.0.2.2 port 4792 ssh2
pam_unix(sshd:session): session opened for user hoover by (uid=0)
pam_unix(sshd:session): session closed for user hoover

你可以使用 grep 來查找哪些用戶失敗登錄的次數(shù)最多。這些都是潛在的攻擊者正在嘗試和訪問失敗的賬戶。這是一個(gè)在 ubuntu 系統(tǒng)上的例子。

復(fù)制代碼
代碼如下:

$ grep "invalid user" /var/log/auth.log | cut -d ' ' -f 10 | sort | uniq -c | sort -nr
23 oracle
18 postgres
17 nagios
10 zabbix
6 test

由于沒有標(biāo)準(zhǔn)格式,所以你需要為每個(gè)應(yīng)用程序的日志使用不同的命令。日志管理系統(tǒng),可以自動(dòng)分析日志,將它們有效的歸類,幫助你提取關(guān)鍵字,如用戶名。

日志管理系統(tǒng)可以使用自動(dòng)解析功能從 Linux 日志中提取用戶名。這使你可以看到用戶的信息,并能通過點(diǎn)擊過濾。在下面這個(gè)例子中,我們可以看到,root 用戶登錄了 2700 次之多,因?yàn)槲覀兒Y選的日志僅顯示 root 用戶的嘗試登錄記錄。

日志管理系統(tǒng)也可以讓你以時(shí)間為做坐標(biāo)軸的圖表來查看,使你更容易發(fā)現(xiàn)異常。如果有人在幾分鐘內(nèi)登錄失敗一次或兩次,它可能是一個(gè)真正的用戶而忘記了密碼。但是,如果有幾百個(gè)失敗的登錄并且使用的都是不同的用戶名,它更可能是在試圖攻擊系統(tǒng)。在這里,你可以看到在3月12日,有人試圖登錄 Nagios 幾百次。這顯然​​不是一個(gè)合法的系統(tǒng)用戶。

重啟的原因
有時(shí)候,一臺(tái)服務(wù)器由于系統(tǒng)崩潰或重啟而宕機(jī)。你怎么知道它何時(shí)發(fā)生,是誰做的?

關(guān)機(jī)命令
如果有人手動(dòng)運(yùn)行 shutdown 命令,你可以在驗(yàn)證日志文件中看到它。在這里,你可以看到,有人從 IP 50.0.134.125 上作為 ubuntu 的用戶遠(yuǎn)程登錄了,然后關(guān)閉了系統(tǒng)。

復(fù)制代碼
代碼如下:

Mar 19 18:36:41 ip-172-31-11-231 sshd[23437]: Accepted publickey for ubuntu from 50.0.134.125 port 52538 ssh
Mar 19 18:36:41 ip-172-31-11-231 23437]:sshd[ pam_unix(sshd:session): session opened for user ubuntu by (uid=0)
Mar 19 18:37:09 ip-172-31-11-231 sudo: ubuntu : TTY=pts/1 ; PWD=/home/ubuntu ; USER=root ; COMMAND=/sbin/shutdown -r now

內(nèi)核初始化
如果你想看看服務(wù)器重新啟動(dòng)的所有原因(包括崩潰),你可以從內(nèi)核初始化日志中尋找。你需要搜索內(nèi)核類(kernel)和 cpu 初始化(Initializing)的信息。

復(fù)制代碼
代碼如下:

Mar 19 18:39:30 ip-172-31-11-231 kernel: [ 0.000000] Initializing cgroup subsys cpuset
Mar 19 18:39:30 ip-172-31-11-231 kernel: [ 0.000000] Initializing cgroup subsys cpu
Mar 19 18:39:30 ip-172-31-11-231 kernel: [ 0.000000] Linux version 3.8.0-44-generic (buildd@tipua) (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #66~precise1-Ubuntu SMP Tue Jul 15 04:01:04 UTC 2014 (Ubuntu 3.8.0-44.66~precise1-generic 3.8.13.25)

檢測內(nèi)存問題
有很多原因可能導(dǎo)致服務(wù)器崩潰,但一個(gè)常見的原因是內(nèi)存用盡。

當(dāng)你系統(tǒng)的內(nèi)存不足時(shí),進(jìn)程會(huì)被殺死,通常會(huì)殺死使用最多資源的進(jìn)程。當(dāng)系統(tǒng)使用了所有內(nèi)存,而新的或現(xiàn)有的進(jìn)程試圖使用更多的內(nèi)存時(shí)就會(huì)出現(xiàn)錯(cuò)誤。在你的日志文件查找像 Out of Memory 這樣的字符串或類似 kill 這樣的內(nèi)核警告信息。這些信息表明系統(tǒng)故意殺死進(jìn)程或應(yīng)用程序,而不是允許進(jìn)程崩潰。

例如:

復(fù)制代碼
代碼如下:

[33238.178288] Out of memory: Kill process 6230 (firefox) score 53 or sacrifice child
[29923450.995084] select 5230 (docker), adj 0, size 708, to kill

你可以使用像 grep 這樣的工具找到這些日志。這個(gè)例子是在 ubuntu 中:

復(fù)制代碼
代碼如下:

$ grep “Out of memory” /var/log/syslog
[33238.178288] Out of memory: Kill process 6230 (firefox) score 53 or sacrifice child

請記住,grep 也要使用內(nèi)存,所以只是運(yùn)行 grep 也可能導(dǎo)致內(nèi)存不足的錯(cuò)誤。這是另一個(gè)你應(yīng)該中央化存儲(chǔ)日志的原因!

定時(shí)任務(wù)錯(cuò)誤日志
cron 守護(hù)程序是一個(gè)調(diào)度器,可以在指定的日期和時(shí)間運(yùn)行進(jìn)程。如果進(jìn)程運(yùn)行失敗或無法完成,那么 cron 的錯(cuò)誤出現(xiàn)在你的日志文件中。具體取決于你的發(fā)行版,你可以在 /var/log/cron,/var/log/messages,和 /var/log/syslog 幾個(gè)位置找到這個(gè)日志。cron 任務(wù)失敗原因有很多。通常情況下,問題出在進(jìn)程中而不是 cron 守護(hù)進(jìn)程本身。

默認(rèn)情況下,cron 任務(wù)的輸出會(huì)通過 postfix 發(fā)送電子郵件。這是一個(gè)顯示了該郵件已經(jīng)發(fā)送的日志。不幸的是,你不能在這里看到郵件的內(nèi)容。

復(fù)制代碼
代碼如下:

Mar 13 16:35:01 PSQ110 postfix/pickup[15158]: C3EDC5800B4: uid=1001 from=hoover>
Mar 13 16:35:01 PSQ110 postfix/cleanup[15727]: C3EDC5800B4: message-id=20150310110501.C3EDC5800B4@PSQ110>
Mar 13 16:35:01 PSQ110 postfix/qmgr[15159]: C3EDC5800B4: from=hoover@loggly.com>, size=607, nrcpt=1 (queue active)
Mar 13 16:35:05 PSQ110 postfix/smtp[15729]: C3EDC5800B4: to=hoover@loggly.com>, relay=gmail-smtp-in.l.google.com[74.125.130.26]:25, delay=4.1, delays=0.26/0/2.2/1.7, dsn=2.0.0, status=sent (250 2.0.0 OK 1425985505 f16si501651pdj.5 - gsmtp)

你可以考慮將 cron 的標(biāo)準(zhǔn)輸出記錄到日志中,以幫助你定位問題。這是一個(gè)你怎樣使用 logger 命令重定向 cron 標(biāo)準(zhǔn)輸出到 syslog的例子。用你的腳本來代替 echo 命令,helloCron 可以設(shè)置為任何你想要的應(yīng)用程序的名字。

*/5 * * * * echo ‘Hello World’ 2>1 | /usr/bin/logger -t helloCron
它創(chuàng)建的日志條目:

復(fù)制代碼
代碼如下:

Apr 28 22:20:01 ip-172-31-11-231 CRON[15296]: (ubuntu) CMD (echo 'Hello World!' 2>1 | /usr/bin/logger -t helloCron)
Apr 28 22:20:01 ip-172-31-11-231 helloCron: Hello World!

每個(gè) cron 任務(wù)將根據(jù)任務(wù)的具體類型以及如何輸出數(shù)據(jù)來記錄不同的日志。

希望在日志中有問題根源的線索,也可以根據(jù)需要添加額外的日志記錄。

標(biāo)簽:防城港 撫州 邢臺(tái) 韶關(guān) 南昌 北海 臨沂 烏蘭察布

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《詳解Linux中的日志及用日志來排查錯(cuò)誤的方法》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    永丰县| 永泰县| 湘阴县| 石楼县| 宜兴市| 黔西| 龙游县| 册亨县| 乳源| 大足县| 涪陵区| 盐津县| 靖西县| 永平县| 灵寿县| 方山县| 西畴县| 姜堰市| 乌什县| 盐山县| 九龙城区| 鄂托克前旗| 平泉县| 司法| 临夏县| 南雄市| 和顺县| 同仁县| 东莞市| 泰兴市| 亳州市| 彭州市| 海晏县| 乌拉特后旗| 怀远县| 青岛市| 永平县| 友谊县| 黑龙江省| 嫩江县| 内黄县|