แนวทางปฏิบัติแนะนำในการตรวจสอบ

การแจ้งเตือนการตรวจสอบ

Apigee Edge ให้คุณส่งต่อการแจ้งเตือนไปยัง syslog หรือระบบ/เครื่องมือตรวจสอบภายนอกได้เมื่อเกิดข้อผิดพลาดหรือความล้มเหลวเนื่องจากเหตุการณ์ไม่สำเร็จ การแจ้งเตือนเหล่านี้อาจเป็นการแจ้งเตือน/เหตุการณ์ระดับระบบหรือระดับแอปพลิเคชัน การแจ้งเตือนระดับแอปพลิเคชันส่วนใหญ่เป็นการแจ้งเตือนที่กําหนดเองซึ่งสร้างขึ้นตามเหตุการณ์ที่สร้างขึ้น โดยปกติแล้วผู้ดูแลระบบเครือข่ายจะกําหนดค่าเงื่อนไขที่กําหนดเอง โปรดติดต่อทีมสนับสนุนของ Apigee เพื่อขอข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งเตือน

การตั้งค่าเกณฑ์การแจ้งเตือน

กำหนดเกณฑ์ที่ระบบต้องสร้างการแจ้งเตือน สิ่งที่คุณตั้งค่าจะขึ้นอยู่กับการกำหนดค่าฮาร์ดแวร์ คุณควรตั้งค่าเกณฑ์โดยสัมพันธ์กับความจุ เช่น Apigee Edge อาจต่ำเกินไปหากคุณมีความจุเพียง 6 GB คุณสามารถกําหนดเกณฑ์ที่มีเกณฑ์เท่ากับ (=) หรือมากกว่า (>) นอกจากนี้ คุณยังระบุช่วงเวลาระหว่างการสร้างการแจ้งเตือน 2 รายการติดต่อกันได้ คุณสามารถใช้ตัวเลือกชั่วโมง/นาที/วินาที

เกณฑ์ในการตั้งค่าการแจ้งเตือนระดับระบบ

ตารางต่อไปนี้อธิบายเกณฑ์

การแจ้งเตือน เกณฑ์ที่แนะนํา คำอธิบาย

หน่วยความจําเหลือน้อย

500MB

หน่วยความจําต่ำเกินไปที่จะเริ่มต้นคอมโพเนนต์

พื้นที่ในดิสก์เหลือน้อย (/var/log)

8GB

พื้นที่ในดิสก์เหลือน้อยเกินไป

ภาระงานสูง

3+

กระบวนการที่รอดำเนินการมีจำนวนเพิ่มขึ้นโดยไม่คาดคิด

กระบวนการหยุดลง

ไม่เกี่ยวข้อง ค่าบูลีนที่เป็นเท็จหรือจริง

กระบวนการ Apigee Java ในระบบหยุดทำงาน

การตรวจสอบพอร์ตของบุคคลที่สามและพอร์ตเฉพาะของ Apigee

ตรวจสอบพอร์ตต่อไปนี้เพื่อให้แน่ใจว่าพอร์ตทำงานอยู่

  • พอร์ต 4526, 4527 และ 4528 ในเซิร์ฟเวอร์การจัดการ เราเตอร์ และโปรแกรมประมวลผลข้อความ
  • พอร์ต 1099, 1100 และ 1101 ในเซิร์ฟเวอร์การจัดการ เราเตอร์ และโปรแกรมประมวลผลข้อความ
  • พอร์ต 8081 และ 15999 ในเราเตอร์
  • พอร์ต 8082 และ 8998 ใน Message Processor
  • พอร์ต 8080 ในเซิร์ฟเวอร์การจัดการ

ตรวจสอบพอร์ตของบุคคลที่สามต่อไปนี้เพื่อให้แน่ใจว่าพอร์ตทำงานอยู่

  • พอร์ต Qpid 5672
  • พอร์ต 5432 ของ Postgres
  • พอร์ต Cassandra 7000, 7199, 9042, 9160
  • พอร์ต ZooKeeper 2181
  • พอร์ต OpenLDAP 10389

หากต้องการดูว่าคอมโพเนนต์ Apigee แต่ละรายการกำลังรอการเรียก API ที่พอร์ตใด ให้เรียก API ต่อไปนี้ไปยังเซิร์ฟเวอร์การจัดการ (ซึ่งโดยทั่วไปจะอยู่ที่พอร์ต 8080)

curl -v -u username:password http://host:port/v1/servers?pod=gateway&region=dc-1
curl -v -u username:password http://host:port/v1/servers?pod=central&region=dc-1
curl -v -u username:password http://host:port/v1/servers?pod=analytics&region=dc-1

เอาต์พุตของคําสั่งเหล่านี้จะมีส่วนคล้ายกับที่แสดงด้านล่าง ส่วน http.management.port จะแสดงหมายเลขพอร์ตของคอมโพเนนต์ที่ระบุ

{
  "externalHostName" : "localhost",
  "externalIP" : "111.222.333.444",
  "internalHostName" : "localhost",
  "internalIP" : "111.222.333.444",
  "isUp" : true,
  "pod" : "gateway",
  "reachable" : true,
  "region" : "default",
  "tags" : {
    "property" : [ {
      "name" : "Profile",
      "value" : "Router"
    }, {
      "name" : "rpc.port",
      "value" : "4527"
    }, {
      "name" : "http.management.port",
      "value" : "8081"
    }, {
      "name" : "jmx.rmi.port",
      "value" : "1100"
    } ]
  },
  "type" : [ "router" ],
  "uUID" : "2d4ec885-e20a-4173-ae87-10be38b35750"
}

การดูบันทึก

ไฟล์บันทึกจะติดตามข้อความเกี่ยวกับเหตุการณ์/การดําเนินการของระบบ ข้อความจะปรากฏในบันทึกเมื่อกระบวนการเริ่มและเสร็จสมบูรณ์ หรือเมื่อเกิดข้อผิดพลาด การดูไฟล์บันทึกจะช่วยให้คุณทราบข้อมูลเกี่ยวกับคอมโพเนนต์ของระบบ เช่น CPU, หน่วยความจำ, ดิสก์, ภาระงาน, กระบวนการ และอื่นๆ ก่อนและหลังจากที่ระบบอยู่ในสถานะ "ไม่สำเร็จ" นอกจากนี้ ยังช่วยให้คุณระบุและวิเคราะห์แหล่งที่มาของปัญหาปัจจุบันของระบบ หรือช่วยคาดการณ์ปัญหาที่อาจเกิดขึ้นกับระบบได้ด้วย

ตัวอย่างเช่น บันทึกของระบบทั่วไปของคอมโพเนนต์จะมีรายการต่อไปนี้ดังที่แสดงด้านล่าง

TimeStamp = 25/01/13 19:25 ; NextDelay = 30
Memory
HeapMemoryUsage = {used = 29086176}{max = 64880640} ;
NonHeapMemoryUsage = {init = 24313856}{committed = 57278464} ;
Threading
PeakThreadCount = 53 ; ThreadCount = 53 ;
OperatingSystem
SystemLoadAverage = 0.25 ;

คุณสามารถแก้ไขไฟล์ /opt/apigee/conf/logback.xml เพื่อควบคุมกลไกการบันทึกได้โดยไม่ต้องรีสตาร์ทเซิร์ฟเวอร์ ไฟล์ logback.xml มีพร็อพเพอร์ตี้ต่อไปนี้ซึ่งกำหนดความถี่ที่กลไกการบันทึกจะตรวจสอบไฟล์ logback.xml เพื่อหาการเปลี่ยนแปลงการกำหนดค่า

<configuration scan="true" scanPeriod="30 seconds" >

โดยค่าเริ่มต้น กลไกการบันทึกจะตรวจสอบการเปลี่ยนแปลงทุกนาที หากคุณละเว้นหน่วยเวลาในแอตทริบิวต์ scanPeriod ระบบจะใช้ค่าเริ่มต้นเป็นมิลลิวินาที

ตารางต่อไปนี้แสดงตำแหน่งไฟล์บันทึกของคอมโพเนนต์ Apigee Edge Private Cloud

คอมโพเนนต์ ตำแหน่ง

เซิร์ฟเวอร์การจัดการ

opt/apigee/var/log/edge-management-server

เราเตอร์

opt/apigee/var/log/edge-router

Message Processor

opt/apigee/var/log/edge-message-processor

เซิร์ฟเวอร์ Qpid

opt/apigee/var/log/edge-qpid-server

เซิร์ฟเวอร์ Postgres ของ Apigee

opt/apigee/var/log/edge-postgres-server

UI ของ Edge

opt/apigee/var/log/edge-ui

ZooKeeper

opt/apigee/var/log/apigee-zookeeper

OpenLDAP

opt/apigee/var/log/apigee-openldap

Cassandra

opt/apigee/var/log/apigee-cassandra

Qpidd

opt/apigee/var/log/apigee-qpidd

ฐานข้อมูล PostgreSQL

opt/apigee/var/log/apigee-postgresql

การเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ Message Processor และ UI ของ Edge

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสําหรับโปรแกรมประมวลผลข้อความ

  1. แก้ไข /opt/apigee/customer/application/messsage-processor.properties ในโหนด Message Processor หากไม่มีไฟล์ดังกล่าว ให้สร้างไฟล์
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_system_log.level=DEBUG
  3. รีสตาร์ทโปรแกรมประมวลผลข้อความโดยทำดังนี้
    /opt/apigee/apigee-service/bin/apigee-service edge-message-processor restart

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสําหรับ UI ของ Edge

  1. แก้ไข /opt/apigee/customer/application/ui.properties ในโหนด UI ของ Edge หากไม่มีไฟล์ดังกล่าว ให้สร้างไฟล์
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_application_logger.application=DEBUG
  3. รีสตาร์ท UI ของ Edge โดยทำดังนี้
    /opt/apigee/apigee-service/bin/apigee-service edge-ui restart

แนวทางปฏิบัติแนะนำสำหรับ apigee-monit

เมื่อใช้ apigee-monit Apigee ขอแนะนําให้คุณทําดังนี้

  • หยุดตรวจสอบคอมโพเนนต์ก่อนที่จะดําเนินการใดๆ ที่จะเริ่มหรือหยุดคอมโพเนนต์ เช่น การสำรองข้อมูลหรือการอัปเกรด
  • ตรวจสอบ apigee-monit โดยใช้เครื่องมือ เช่น cron โปรดดูข้อมูลเพิ่มเติมที่หัวข้อตรวจสอบ apigee-monit

เครื่องมือตรวจสอบ

เครื่องมือตรวจสอบ เช่น Nagios, Collectd, Graphite, Splunk, Sumologic และ Monit จะช่วยคุณตรวจสอบสภาพแวดล้อมขององค์กรและกระบวนการทางธุรกิจทั้งหมด

ส่วนประกอบ Nagios Collectd Splunk

การตรวจสอบระดับระบบ

การใช้งาน CPU

หน่วยความจำว่าง/ที่ใช้

การใช้พื้นที่ในดิสก์

สถิติเครือข่าย

กระบวนการ

การตรวจสอบ API

JMX

Java

ไฟล์บันทึก

เหตุการณ์สําคัญ

การเข้าถึงขีดจํากัดอัตรา

เข้าถึงเซิร์ฟเวอร์แบ็กเอนด์ (Hybris หรือ SharePoint) ไม่ได้

เข้าถึง FaaS (STS) ไม่ได้

เหตุการณ์คําเตือน

เข้าถึงเซิร์ฟเวอร์ SMTP ไม่ได้

การละเมิด SLA