แนวทางปฏิบัติแนะนำในการตรวจสอบ

การแจ้งเตือนการตรวจสอบ

Apigee Edge ช่วยให้คุณส่งต่อการแจ้งเตือนไปยัง Syslog หรือระบบ/เครื่องมือตรวจสอบภายนอกได้เมื่อเกิดข้อผิดพลาดหรือความล้มเหลวเนื่องจากเหตุการณ์ล้มเหลว การแจ้งเตือนเหล่านี้อาจเป็นการแจ้งเตือน/เหตุการณ์ระดับระบบหรือระดับแอปพลิเคชัน การแจ้งเตือนระดับแอปพลิเคชันส่วนใหญ่เป็นการแจ้งเตือนที่กำหนดเองซึ่ง สร้างขึ้นตามเหตุการณ์ที่สร้างขึ้น โดยปกติแล้ว ผู้ดูแลระบบเครือข่ายจะเป็นผู้กำหนดค่าเงื่อนไขที่กำหนดเอง โปรดติดต่อทีมสนับสนุนของ Apigee เพื่อขอข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งเตือน

การตั้งค่าเกณฑ์การแจ้งเตือน

ตั้งค่าเกณฑ์หลังจากที่ต้องสร้างการแจ้งเตือน สิ่งที่คุณตั้งค่าจะขึ้นอยู่กับ การกำหนดค่าฮาร์ดแวร์ ควรตั้งค่าเกณฑ์ที่เกี่ยวข้องกับความจุ เช่น Apigee Edge อาจต่ำเกินไปหากคุณมีความจุเพียง 6 GB คุณกำหนดเกณฑ์ได้โดยใช้เกณฑ์เท่ากับ (=) หรือมากกว่า (>) นอกจากนี้ คุณยังระบุช่วงเวลาระหว่างการสร้างการแจ้งเตือน 2 รายการติดต่อกันได้ด้วย คุณสามารถใช้ตัวเลือกชั่วโมง/นาที/วินาทีได้

เกณฑ์ในการตั้งค่าการแจ้งเตือนระดับระบบ

ตารางต่อไปนี้จะอธิบายเกณฑ์

การแจ้งเตือน เกณฑ์ที่แนะนำ คำอธิบาย

หน่วยความจำเหลือน้อย

500MB

หน่วยความจำต่ำเกินไปที่จะเริ่มคอมโพเนนต์

พื้นที่ในดิสก์เหลือน้อย (/var/log)

8GB

พื้นที่ดิสก์เหลือน้อยเกินไป

ภาระงานสูง

3+

กระบวนการที่รอเรียกใช้เพิ่มขึ้นโดยไม่คาดคิด

หยุดกระบวนการแล้ว

ไม่มี ค่าบูลีนเป็นจริงหรือเท็จ

กระบวนการ Apigee Java ในระบบหยุดทำงาน

ตรวจสอบพอร์ตเฉพาะของ Apigee และพอร์ตของบุคคลที่สาม

ตรวจสอบพอร์ตต่อไปนี้เพื่อให้แน่ใจว่าเปิดใช้งานอยู่

  • พอร์ต 4526, 4527 และ 4528 ใน Management Server, Router และ Message Processor
  • พอร์ต 1099, 1100 และ 1101 ในเซิร์ฟเวอร์การจัดการ เราเตอร์ และตัวประมวลผลข้อความ
  • พอร์ต 8081 และ 15999 ในเราเตอร์
  • พอร์ต 8082 และ 8998 ใน Message Processor
  • พอร์ต 8080 ในเซิร์ฟเวอร์การจัดการ

ตรวจสอบพอร์ตของบุคคลที่สามต่อไปนี้เพื่อให้แน่ใจว่าเปิดใช้งานอยู่

  • พอร์ต Qpid 5672
  • พอร์ต 5432 ของ Postgres
  • พอร์ต Cassandra 7000, 7199, 9042, 9160
  • พอร์ต ZooKeeper 2181
  • พอร์ต 10389 ของ SymasLDAP

หากต้องการพิจารณาว่าคอมโพเนนต์ Apigee แต่ละรายการกำลังรอการเรียก API ที่พอร์ตใด ให้ส่งคำขอ API ต่อไปนี้ไปยังเซิร์ฟเวอร์การจัดการ (ซึ่งโดยทั่วไปจะอยู่ที่พอร์ต 8080)

curl -v -u username:password http://host:port/v1/servers?pod=gateway&region=dc-1
curl -v -u username:password http://host:port/v1/servers?pod=central&region=dc-1
curl -v -u username:password http://host:port/v1/servers?pod=analytics&region=dc-1

เอาต์พุตของคำสั่งเหล่านี้จะมีส่วนที่คล้ายกับที่แสดงด้านล่าง ส่วน http.management.port จะแสดงหมายเลขพอร์ตของคอมโพเนนต์ที่ระบุ

{
  "externalHostName" : "localhost",
  "externalIP" : "111.222.333.444",
  "internalHostName" : "localhost",
  "internalIP" : "111.222.333.444",
  "isUp" : true,
  "pod" : "gateway",
  "reachable" : true,
  "region" : "default",
  "tags" : {
    "property" : [ {
      "name" : "Profile",
      "value" : "Router"
    }, {
      "name" : "rpc.port",
      "value" : "4527"
    }, {
      "name" : "http.management.port",
      "value" : "8081"
    }, {
      "name" : "jmx.rmi.port",
      "value" : "1100"
    } ]
  },
  "type" : [ "router" ],
  "uUID" : "2d4ec885-e20a-4173-ae87-10be38b35750"
}

การดูบันทึก

ไฟล์บันทึกจะติดตามข้อความเกี่ยวกับเหตุการณ์/การทำงานของระบบ ข้อความจะปรากฏ ในบันทึกเมื่อกระบวนการเริ่มต้นและเสร็จสมบูรณ์ หรือเมื่อเกิดข้อผิดพลาด การดูไฟล์บันทึก จะช่วยให้คุณได้รับข้อมูลเกี่ยวกับคอมโพเนนต์ของระบบ เช่น CPU, หน่วยความจำ, ดิสก์, โหลด, กระบวนการ และอื่นๆ ก่อนและหลังที่ระบบเข้าสู่สถานะล้มเหลว นอกจากนี้ยังช่วยให้คุณระบุและ วิเคราะห์แหล่งที่มาของปัญหาปัจจุบันในระบบ หรือช่วยคาดการณ์ปัญหาที่อาจเกิดขึ้นในระบบได้ด้วย

ตัวอย่างเช่น บันทึกของระบบทั่วไปของคอมโพเนนต์จะมีรายการต่อไปนี้ดังที่แสดงด้านล่าง

TimeStamp = 25/01/13 19:25 ; NextDelay = 30
Memory
HeapMemoryUsage = {used = 29086176}{max = 64880640} ;
NonHeapMemoryUsage = {init = 24313856}{committed = 57278464} ;
Threading
PeakThreadCount = 53 ; ThreadCount = 53 ;
OperatingSystem
SystemLoadAverage = 0.25 ;

คุณสามารถแก้ไขไฟล์ /opt/apigee/conf/logback.xml เพื่อควบคุมกลไกการบันทึกโดยไม่ต้องรีสตาร์ทเซิร์ฟเวอร์ ไฟล์ logback.xml มีพร็อพเพอร์ตี้ต่อไปนี้ซึ่งกำหนดความถี่ที่กลไกการบันทึกตรวจสอบไฟล์ logback.xml เพื่อดูการเปลี่ยนแปลงการกำหนดค่า

<configuration scan="true" scanPeriod="30 seconds" >

โดยค่าเริ่มต้น กลไกการบันทึกจะตรวจสอบการเปลี่ยนแปลงทุกนาที หากคุณละเว้นหน่วยเวลา ในแอตทริบิวต์ scanPeriod ระบบจะตั้งค่าเริ่มต้นเป็นมิลลิวินาที

ตารางต่อไปนี้จะบอกตำแหน่งไฟล์บันทึกของคอมโพเนนต์ Apigee Edge Private Cloud

คอมโพเนนต์ ตำแหน่ง

เซิร์ฟเวอร์การจัดการ

opt/apigee/var/log/edge-management-server

เราเตอร์

opt/apigee/var/log/edge-router

Message Processor

opt/apigee/var/log/edge-message-processor

Qpid Server

opt/apigee/var/log/edge-qpid-server

เซิร์ฟเวอร์ Postgres ของ Apigee

opt/apigee/var/log/edge-postgres-server

UI ของ Edge

opt/apigee/var/log/edge-ui

ZooKeeper

opt/apigee/var/log/apigee-zookeeper

SymasLDAP

opt/apigee/var/log/apigee-openldap

Cassandra

opt/apigee/var/log/apigee-cassandra

Qpidd

opt/apigee/var/log/apigee-qpidd

ฐานข้อมูล PostgreSQL

opt/apigee/var/log/apigee-postgresql

การเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับโปรเซสเซอร์ข้อความและ Edge UI

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ Message Processor

  1. ในโหนด Message Processor ให้แก้ไข /opt/apigee/customer/application/message-processor.properties หากไม่มีไฟล์ดังกล่าว ให้สร้างไฟล์
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_system_log.level=DEBUG
  3. รีสตาร์ทตัวประมวลผลข้อความ
    /opt/apigee/apigee-service/bin/apigee-service edge-message-processor restart

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ UI ของ Edge

  1. แก้ไข /opt/apigee/customer/application/ui.properties ในโหนด UI ของ Edge หากไม่มีไฟล์ดังกล่าว ให้สร้างไฟล์
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_application_logger.application=DEBUG
  3. รีสตาร์ท UI ของ Edge โดยทำดังนี้
    /opt/apigee/apigee-service/bin/apigee-service edge-ui restart

แนวทางปฏิบัติแนะนำสำหรับ apigee-monit

เมื่อใช้ apigee-monit Apigee ขอแนะนำให้คุณทำดังนี้

  • หยุดตรวจสอบคอมโพเนนต์ก่อนที่จะดำเนินการใดๆ ที่เริ่มหรือหยุดคอมโพเนนต์นั้น เช่น การสำรองข้อมูลหรือการอัปเกรด
  • ตรวจสอบ apigee-monit โดยใช้เครื่องมือ เช่น cron โปรดดูข้อมูลเพิ่มเติมที่หัวข้อตรวจสอบ apigee-monit

เครื่องมือตรวจสอบ

เครื่องมือตรวจสอบ เช่น Nagios, Collectd, Graphite, Splunk, Sumologic และ Monit จะช่วยให้คุณ ตรวจสอบสภาพแวดล้อมของทั้งองค์กรและกระบวนการทางธุรกิจได้

ส่วนประกอบ Nagios Collectd Splunk

การตรวจสอบระดับระบบ

การใช้งาน CPU

หน่วยความจำว่าง/ที่ใช้

การใช้พื้นที่ในดิสก์

สถิติเครือข่าย

กระบวนการ

การตรวจสอบ API

JMX

Java

ไฟล์บันทึก

เหตุการณ์สำคัญ

ถึงขีดจำกัดอัตราคำขอ

เข้าถึงเซิร์ฟเวอร์แบ็กเอนด์ (Hybris หรือ SharePoint) ไม่ได้

เข้าถึง FaaS (STS) ไม่ได้

เหตุการณ์ที่ต้องระวัง

เข้าถึงเซิร์ฟเวอร์ SMTP ไม่ได้

มีการละเมิด SLA