การตรวจสอบแนวทางปฏิบัติที่ดีที่สุด

Edge สำหรับ Private Cloud เวอร์ชัน 4.17.05

การแจ้งเตือนการตรวจสอบ

Apigee Edge ช่วยให้คุณส่งต่อการแจ้งเตือนไปยัง syslog หรือระบบ/เครื่องมือตรวจสอบภายนอก เมื่อเกิดข้อผิดพลาดหรือความล้มเหลวเนื่องจากเหตุการณ์ล้มเหลว การแจ้งเตือนเหล่านี้อาจเป็นการแจ้งเตือน/เหตุการณ์ระดับระบบหรือระดับแอปพลิเคชัน การแจ้งเตือนระดับแอปพลิเคชันส่วนใหญ่เป็นการแจ้งเตือนที่กำหนดเอง ซึ่งสร้างขึ้นตามเหตุการณ์ที่สร้างขึ้น โดยปกติผู้ดูแลเครือข่ายจะเป็นผู้กำหนดค่าเงื่อนไขที่กำหนดเอง หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งเตือน โปรดติดต่อทีมสนับสนุนของ Apigee

การตั้งค่าเกณฑ์การแจ้งเตือน

กำหนดเกณฑ์ที่ต้องการให้สร้างการแจ้งเตือนหลังจากนั้น สิ่งที่คุณตั้งค่าจะขึ้นอยู่กับการกำหนดค่าฮาร์ดแวร์ คุณควรกำหนดเกณฑ์โดยสัมพันธ์กับขีดจำกัดของคุณ เช่น Apigee Edge อาจต่ำเกินไปหากคุณมีความจุเพียง 6 GB คุณจะกำหนดเกณฑ์ที่มีเท่ากับ (=) หรือมากกว่าเกณฑ์ (>) ได้ นอกจากนี้ คุณยังระบุช่วงเวลาระหว่างการสร้างการแจ้งเตือน 2 รายการติดต่อกันได้ด้วย ซึ่งเลือกใช้ตัวเลือกชั่วโมง/นาที/วินาทีได้

เกณฑ์ในการตั้งค่าการแจ้งเตือนระดับระบบ

ตารางต่อไปนี้จะอธิบายเกณฑ์

การแจ้งเตือน

เกณฑ์ที่แนะนำ

คำอธิบาย

หน่วยความจำต่ำ

500MB

หน่วยความจำเหลือน้อยเกินกว่าที่จะเริ่มต้นคอมโพเนนต์

พื้นที่ในดิสก์เหลือน้อย (/var/log)

8GB

พื้นที่ในดิสก์ต่ำเกินไป

ภาระงานสูง

3+

กระบวนการที่รอเรียกใช้มีจำนวนเพิ่มขึ้นอย่างไม่คาดคิด

หยุดกระบวนการแล้ว

ไม่มี ค่าบูลีนเป็น "จริง" หรือ "เท็จ"

กระบวนการ Java Apigee ในระบบหยุดทำงาน

กำลังตรวจสอบพอร์ตสำหรับ Apigee และบุคคลที่สามโดยเฉพาะ

ตรวจสอบพอร์ตต่อไปนี้เพื่อให้แน่ใจว่าใช้งานได้

  • พอร์ต 4526, 4527 และ 4528 ในเซิร์ฟเวอร์การจัดการ เราเตอร์ และผู้ประมวลผลข้อความ
  • พอร์ต 1099, 1100 และ 1101 ในเซิร์ฟเวอร์การจัดการ เราเตอร์ และผู้ประมวลผลข้อความ
  • พอร์ต 8081 และ 15999 บนเราเตอร์
  • พอร์ต 8082 และ 8998 บนตัวประมวลผลข้อความ

พอร์ต 8080 ในเซิร์ฟเวอร์การจัดการ ตรวจสอบพอร์ตของบุคคลที่สามต่อไปนี้ว่าพอร์ตทำงานอยู่

  • Qpid พอร์ต 5672
  • พอร์ต Postgres 5432
  • Cassandra Port 7000, 7199, 9042, 9160
  • พอร์ต ZooKeeper 2181
  • พอร์ต OpenLDAP 10389

หากต้องการกำหนดพอร์ตที่คอมโพเนนต์ Apigee แต่ละรายการที่รอฟังการเรียกใช้ API ให้ส่งคำขอ API ต่อไปนี้ไปยังเซิร์ฟเวอร์การจัดการ (ซึ่งโดยทั่วไปจะอยู่ในพอร์ต 8080)

curl -v -u <username>:<password> http://<host>:<port>/v1/servers?pod=gateway&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=central&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=analytics&region=dc-1

เอาต์พุตของคำสั่งเหล่านี้จะมีส่วนต่างๆ ที่คล้ายกับที่แสดงไว้ด้านล่าง ส่วน "http.management.port" ระบุหมายเลขพอร์ตสำหรับคอมโพเนนต์ที่ระบุ

{
  "externalHostName" : "localhost",
  "externalIP" : "111.222.333.444",
  "internalHostName" : "localhost",
  "internalIP" : "111.222.333.444",
  "isUp" : true,
  "pod" : "gateway",
  "reachable" : true,
  "region" : "default",
  "tags" : {
    "property" : [ {
      "name" : "Profile",
      "value" : "Router"
    }, {
      "name" : "rpc.port",
      "value" : "4527"
    }, {
      "name" : "http.management.port",
      "value" : "8081"
    }, {
      "name" : "jmx.rmi.port",
      "value" : "1100"
    } ]
  },
  "type" : [ "router" ],
  "uUID" : "2d4ec885-e20a-4173-ae87-10be38b35750"
}

การดูบันทึก

ไฟล์บันทึกจะติดตามข้อความเกี่ยวกับกิจกรรม/การดำเนินการของระบบ ข้อความจะปรากฏในบันทึกเมื่อกระบวนการเริ่มต้นและเสร็จสมบูรณ์ หรือเมื่อเกิดข้อผิดพลาด เมื่อดูไฟล์บันทึก คุณจะได้รับข้อมูลเกี่ยวกับคอมโพเนนต์ของระบบ เช่น CPU, หน่วยความจำ, ดิสก์, โหลด, กระบวนการ และอื่นๆ ก่อนและหลังการได้รับสถานะล้มเหลว นอกจากนี้ ยังช่วยให้คุณระบุและวินิจฉัยแหล่งที่มาของปัญหาของระบบปัจจุบันหรือช่วยคาดการณ์ปัญหาที่อาจเกิดขึ้นของระบบได้ด้วย

ตัวอย่างเช่น บันทึกระบบโดยทั่วไปของคอมโพเนนต์จะมีรายการต่อไปนี้

TimeStamp = 25/01/13 19:25 ; NextDelay = 30
Memory
HeapMemoryUsage = {used = 29086176}{max = 64880640} ;    
NonHeapMemoryUsage = {init = 24313856}{committed = 57278464} ;
Threading
PeakThreadCount = 53 ; ThreadCount = 53 ;
OperatingSystem
SystemLoadAverage = 0.25 ;

คุณจะแก้ไขไฟล์ /opt/apigee/conf/logback.xml เพื่อควบคุมกลไกการบันทึกได้โดยไม่ต้องรีสตาร์ทเซิร์ฟเวอร์ ไฟล์ logback.xml มีพร็อพเพอร์ตี้ต่อไปนี้ที่กำหนดความถี่ที่กลไกการบันทึกจะตรวจสอบไฟล์ logback.xml สำหรับการเปลี่ยนแปลงการกำหนดค่า

<configuration scan="true" scanPeriod="30 seconds" >

โดยค่าเริ่มต้น กลไกการบันทึกจะตรวจหาการเปลี่ยนแปลงทุกนาที หากคุณไม่ใส่หน่วยเวลาในแอตทริบิวต์ scanPeriod หน่วยเวลาจะมีค่าเริ่มต้นเป็นมิลลิวินาที

ตารางต่อไปนี้จะบอกตำแหน่งของไฟล์บันทึกของคอมโพเนนต์ Private Cloud ของ Apigee Edge

องค์ประกอบ

ตำแหน่ง

เซิร์ฟเวอร์การจัดการ

opt/apigee/var/log/edge-management-server

เราเตอร์

opt/apigee/var/log/edge-router

Message Processor

opt/apigee/var/log/edge-message-processor

เซิร์ฟเวอร์ Qpid

opt/apigee/var/log/edge-qpid-server

เซิร์ฟเวอร์ Apigee Postgres

opt/apigee/var/log/edge-postgres-server

UI ของ Edge

opt/apigee/var/log/edge-ui

ZooKeeper

opt/apigee/var/log/apigee-zookeeper

OpenLDAP

opt/apigee/var/log/apigee-openldap

Cassandra

opt/apigee/var/log/apigee-cassandra

คพิดด์

opt/apigee/var/log/apigee-qpidd

ฐานข้อมูล PostgreSQL

opt/apigee/var/log/apigee-postgresql

การเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับตัวประมวลผลข้อความและ Edge UI

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับเครื่องมือประมวลผลข้อความ

  1. ในโหนดตัวประมวลผลข้อความ ให้แก้ไข /opt/apigee/customer/application/messsage-processor.properties หากยังไม่มี ให้สร้างไฟล์ดังกล่าว
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_system_log.level=DEBUG
  3. รีสตาร์ทโปรแกรมประมวลผลข้อความ
    > /opt/apigee/apigee-service/bin/apigee-service edge-message-processorรีสตาร์ท

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ Edge UI

  1. แก้ไข /opt/apigee/customer/application/ui.properties ในโหนด Edge UI หากยังไม่มี ให้สร้างไฟล์ดังกล่าว
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_application_logger.application=DEBUG
  3. รีสตาร์ท UI ของ Edge
    > /opt/apigee/apigee-service/bin/apigee-service edge-uiของหน้าอีกครั้ง

เครื่องมือตรวจสอบ

เครื่องมือการตรวจสอบ เช่น Nagios, Collectd, Graphite, Splunk, Sumologic และ Monit จะช่วยคุณตรวจสอบสภาพแวดล้อมขององค์กรและกระบวนการทางธุรกิจทั้งหมด

ส่วนประกอบ

นาจิโอ

รวบรวมแล้ว

Splunk

การตรวจสอบระดับระบบ

การใช้งาน CPU

?

?

หน่วยความจำที่ว่าง/ใช้แล้ว

?

?

การใช้พื้นที่ในดิสก์

?

?

สถิติเครือข่าย

?

?

กระบวนการ

?

การตรวจสอบ API

?

JMX

?

Java

?

ไฟล์บันทึก

?

เหตุการณ์สำคัญ

ถึงขีดจำกัดอัตราคำขอแล้ว

?

เข้าถึงเซิร์ฟเวอร์แบ็กเอนด์ (Hybris หรือ SharePoint) ไม่ได้

?

เข้าถึง FaaS (STS) ไม่ได้

?

เหตุการณ์คำเตือน

เข้าถึงเซิร์ฟเวอร์ SMTP ไม่ได้

?

ละเมิด SLA

?