แนวทางปฏิบัติแนะนำในการตรวจสอบ

การแจ้งเตือนการตรวจสอบ

Apigee Edge ช่วยให้คุณส่งต่อการแจ้งเตือนไปยัง Syslog หรือระบบ/เครื่องมือตรวจสอบภายนอกได้เมื่อเกิดข้อผิดพลาดหรือความล้มเหลวเนื่องจากเหตุการณ์ล้มเหลว การแจ้งเตือนเหล่านี้อาจเป็นการแจ้งเตือน/เหตุการณ์ระดับระบบหรือระดับแอปพลิเคชัน การแจ้งเตือนระดับแอปพลิเคชันส่วนใหญ่เป็นการแจ้งเตือนที่กำหนดเองซึ่ง สร้างขึ้นตามเหตุการณ์ที่สร้างขึ้น โดยปกติแล้ว ผู้ดูแลระบบเครือข่ายจะเป็นผู้กำหนดค่าเงื่อนไขที่กำหนดเอง โปรดติดต่อทีมสนับสนุนของ Apigee เพื่อขอข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งเตือน

การตั้งค่าเกณฑ์การแจ้งเตือน

ตั้งค่าเกณฑ์หลังจากที่ต้องสร้างการแจ้งเตือน สิ่งที่คุณตั้งค่าจะขึ้นอยู่กับ การกำหนดค่าฮาร์ดแวร์ ควรตั้งค่าเกณฑ์ที่เกี่ยวข้องกับความจุ เช่น Apigee Edge อาจต่ำเกินไปหากคุณมีความจุเพียง 6 GB คุณกำหนดเกณฑ์ได้โดยใช้เกณฑ์เท่ากับ (=) หรือมากกว่า (>) นอกจากนี้ คุณยังระบุช่วงเวลาระหว่างการสร้างการแจ้งเตือน 2 รายการติดต่อกันได้ด้วย คุณสามารถใช้ตัวเลือกชั่วโมง/นาที/วินาทีได้

เกณฑ์ในการตั้งค่าการแจ้งเตือนระดับระบบ

ตารางต่อไปนี้จะอธิบายเกณฑ์

การแจ้งเตือน	เกณฑ์ที่แนะนำ	คำอธิบาย
หน่วยความจำเหลือน้อย	500MB	หน่วยความจำต่ำเกินไปที่จะเริ่มคอมโพเนนต์
พื้นที่ในดิสก์เหลือน้อย (/var/log)	8GB	พื้นที่ดิสก์เหลือน้อยเกินไป
ภาระงานสูง	3+	กระบวนการที่รอเรียกใช้เพิ่มขึ้นโดยไม่คาดคิด
หยุดกระบวนการแล้ว	ไม่มี ค่าบูลีนเป็นจริงหรือเท็จ	กระบวนการ Apigee Java ในระบบหยุดทำงาน

ตรวจสอบพอร์ตเฉพาะของ Apigee และพอร์ตของบุคคลที่สาม

ตรวจสอบพอร์ตต่อไปนี้เพื่อให้แน่ใจว่าเปิดใช้งานอยู่

พอร์ต 4526, 4527 และ 4528 ใน Management Server, Router และ Message Processor
พอร์ต 1099, 1100 และ 1101 ในเซิร์ฟเวอร์การจัดการ เราเตอร์ และตัวประมวลผลข้อความ
พอร์ต 8081 และ 15999 ในเราเตอร์
พอร์ต 8082 และ 8998 ใน Message Processor
พอร์ต 8080 ในเซิร์ฟเวอร์การจัดการ

ตรวจสอบพอร์ตของบุคคลที่สามต่อไปนี้เพื่อให้แน่ใจว่าเปิดใช้งานอยู่

พอร์ต Qpid 5672
พอร์ต 5432 ของ Postgres
พอร์ต Cassandra 7000, 7199, 9042, 9160
พอร์ต ZooKeeper 2181
พอร์ต 10389 ของ SymasLDAP

หากต้องการพิจารณาว่าคอมโพเนนต์ Apigee แต่ละรายการกำลังรอการเรียก API ที่พอร์ตใด ให้ส่งคำขอ API ต่อไปนี้ไปยังเซิร์ฟเวอร์การจัดการ (ซึ่งโดยทั่วไปจะอยู่ที่พอร์ต 8080)

curl -v -u username:password http://host:port/v1/servers?pod=gateway&region=dc-1
curl -v -u username:password http://host:port/v1/servers?pod=central&region=dc-1
curl -v -u username:password http://host:port/v1/servers?pod=analytics&region=dc-1

เอาต์พุตของคำสั่งเหล่านี้จะมีส่วนที่คล้ายกับที่แสดงด้านล่าง ส่วน http.management.port จะแสดงหมายเลขพอร์ตของคอมโพเนนต์ที่ระบุ

{
  "externalHostName" : "localhost",
  "externalIP" : "111.222.333.444",
  "internalHostName" : "localhost",
  "internalIP" : "111.222.333.444",
  "isUp" : true,
  "pod" : "gateway",
  "reachable" : true,
  "region" : "default",
  "tags" : {
    "property" : [ {
      "name" : "Profile",
      "value" : "Router"
    }, {
      "name" : "rpc.port",
      "value" : "4527"
    }, {
      "name" : "http.management.port",
      "value" : "8081"
    }, {
      "name" : "jmx.rmi.port",
      "value" : "1100"
    } ]
  },
  "type" : [ "router" ],
  "uUID" : "2d4ec885-e20a-4173-ae87-10be38b35750"
}

การดูบันทึก

ไฟล์บันทึกจะติดตามข้อความเกี่ยวกับเหตุการณ์/การทำงานของระบบ ข้อความจะปรากฏ ในบันทึกเมื่อกระบวนการเริ่มต้นและเสร็จสมบูรณ์ หรือเมื่อเกิดข้อผิดพลาด การดูไฟล์บันทึก จะช่วยให้คุณได้รับข้อมูลเกี่ยวกับคอมโพเนนต์ของระบบ เช่น CPU, หน่วยความจำ, ดิสก์, โหลด, กระบวนการ และอื่นๆ ก่อนและหลังที่ระบบเข้าสู่สถานะล้มเหลว นอกจากนี้ยังช่วยให้คุณระบุและ วิเคราะห์แหล่งที่มาของปัญหาปัจจุบันในระบบ หรือช่วยคาดการณ์ปัญหาที่อาจเกิดขึ้นในระบบได้ด้วย

ตัวอย่างเช่น บันทึกของระบบทั่วไปของคอมโพเนนต์จะมีรายการต่อไปนี้ดังที่แสดงด้านล่าง

TimeStamp = 25/01/13 19:25 ; NextDelay = 30
Memory
HeapMemoryUsage = {used = 29086176}{max = 64880640} ;
NonHeapMemoryUsage = {init = 24313856}{committed = 57278464} ;
Threading
PeakThreadCount = 53 ; ThreadCount = 53 ;
OperatingSystem
SystemLoadAverage = 0.25 ;

คุณสามารถแก้ไขไฟล์ /opt/apigee/conf/logback.xml เพื่อควบคุมกลไกการบันทึกโดยไม่ต้องรีสตาร์ทเซิร์ฟเวอร์ ไฟล์ logback.xml มีพร็อพเพอร์ตี้ต่อไปนี้ซึ่งกำหนดความถี่ที่กลไกการบันทึกตรวจสอบไฟล์ logback.xml เพื่อดูการเปลี่ยนแปลงการกำหนดค่า

<configuration scan="true" scanPeriod="30 seconds" >

โดยค่าเริ่มต้น กลไกการบันทึกจะตรวจสอบการเปลี่ยนแปลงทุกนาที หากคุณละเว้นหน่วยเวลา ในแอตทริบิวต์ scanPeriod ระบบจะตั้งค่าเริ่มต้นเป็นมิลลิวินาที

ตารางต่อไปนี้จะบอกตำแหน่งไฟล์บันทึกของคอมโพเนนต์ Apigee Edge Private Cloud

คอมโพเนนต์	ตำแหน่ง
เซิร์ฟเวอร์การจัดการ	`opt/apigee/var/log/edge-management-server`
เราเตอร์	`opt/apigee/var/log/edge-router`
Message Processor	`opt/apigee/var/log/edge-message-processor`
Qpid Server	`opt/apigee/var/log/edge-qpid-server`
เซิร์ฟเวอร์ Postgres ของ Apigee	`opt/apigee/var/log/edge-postgres-server`
UI ของ Edge	`opt/apigee/var/log/edge-ui`
ZooKeeper	`opt/apigee/var/log/apigee-zookeeper`
SymasLDAP	`opt/apigee/var/log/apigee-openldap`
Cassandra	`opt/apigee/var/log/apigee-cassandra`
Qpidd	`opt/apigee/var/log/apigee-qpidd`
ฐานข้อมูล PostgreSQL	`opt/apigee/var/log/apigee-postgresql`

การเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับโปรเซสเซอร์ข้อความและ Edge UI

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ Message Processor

ในโหนด Message Processor ให้แก้ไข /opt/apigee/customer/application/message-processor.properties หากไม่มีไฟล์ดังกล่าว ให้สร้างไฟล์
เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
```
conf_system_log.level=DEBUG
```
รีสตาร์ทตัวประมวลผลข้อความ
```
/opt/apigee/apigee-service/bin/apigee-service edge-message-processor restart
```

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ UI ของ Edge

แก้ไข /opt/apigee/customer/application/ui.properties ในโหนด UI ของ Edge หากไม่มีไฟล์ดังกล่าว ให้สร้างไฟล์
เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
```
conf_application_logger.application=DEBUG
```
รีสตาร์ท UI ของ Edge โดยทำดังนี้
```
/opt/apigee/apigee-service/bin/apigee-service edge-ui restart
```

แนวทางปฏิบัติแนะนำสำหรับ apigee-monit

เมื่อใช้ apigee-monit Apigee ขอแนะนำให้คุณทำดังนี้

หยุดตรวจสอบคอมโพเนนต์ก่อนที่จะดำเนินการใดๆ ที่เริ่มหรือหยุดคอมโพเนนต์นั้น เช่น การสำรองข้อมูลหรือการอัปเกรด
ตรวจสอบ apigee-monit โดยใช้เครื่องมือ เช่น cron โปรดดูข้อมูลเพิ่มเติมที่หัวข้อตรวจสอบ apigee-monit

เครื่องมือตรวจสอบ

เครื่องมือตรวจสอบ เช่น Nagios, Collectd, Graphite, Splunk, Sumologic และ Monit จะช่วยให้คุณ ตรวจสอบสภาพแวดล้อมของทั้งองค์กรและกระบวนการทางธุรกิจได้

ส่วนประกอบ		Nagios	Collectd	Splunk
การตรวจสอบระดับระบบ	การใช้งาน CPU
	หน่วยความจำว่าง/ที่ใช้
	การใช้พื้นที่ในดิสก์
	สถิติเครือข่าย
กระบวนการ
การตรวจสอบ API
JMX
Java
ไฟล์บันทึก
เหตุการณ์สำคัญ	ถึงขีดจำกัดอัตราคำขอ
	เข้าถึงเซิร์ฟเวอร์แบ็กเอนด์ (Hybris หรือ SharePoint) ไม่ได้
	เข้าถึง FaaS (STS) ไม่ได้
เหตุการณ์ที่ต้องระวัง	เข้าถึงเซิร์ฟเวอร์ SMTP ไม่ได้
เหตุการณ์ที่ต้องระวัง	มีการละเมิด SLA