การตรวจสอบแนวทางปฏิบัติที่ดีที่สุด

Edge for Private Cloud เวอร์ชัน 4.17.05

การแจ้งเตือนการตรวจสอบ

Apigee Edge จะช่วยให้คุณส่งต่อการแจ้งเตือนไปยัง Syslog หรือระบบ/เครื่องมือตรวจสอบภายนอกได้เมื่อ "ข้อผิดพลาด" หรือ "ล้มเหลว" เกิดขึ้นเนื่องจากเหตุการณ์ล้มเหลว การแจ้งเตือนเหล่านี้อาจเป็นการแจ้งเตือนระดับระบบ หรือ การแจ้งเตือน/เหตุการณ์ระดับแอปพลิเคชัน การแจ้งเตือนระดับแอปพลิเคชันส่วนใหญ่เป็นการแจ้งเตือนแบบกำหนดเองที่ สร้างขึ้นตามเหตุการณ์ที่สร้างขึ้น ผู้ดูแลเครือข่ายมักจะกำหนดค่าการกำหนดค่า โปรดติดต่อทีมสนับสนุนของ Apigee เพื่อขอข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งเตือน

การตั้งค่าเกณฑ์การแจ้งเตือน

กำหนดเกณฑ์ที่จะใช้สร้างการแจ้งเตือนหลังจากนั้น สิ่งที่คุณตั้งค่าจะขึ้นอยู่กับ การกำหนดค่าฮาร์ดแวร์ คุณควรกำหนดเกณฑ์ให้สอดคล้องกับขีดจำกัดของคุณ เช่น Apigee Edge อาจต่ำเกินไปหากคุณมีความจุเพียง 6 GB คุณกำหนดเกณฑ์ได้โดยใช้เครื่องหมายเท่ากับ (=) หรือมากกว่า (>) คุณยังระบุช่วงเวลาระหว่าง 2 ช่วงต่อกันได้ด้วย การสร้างการแจ้งเตือน คุณสามารถใช้ตัวเลือก ชั่วโมง/นาที/วินาที

เกณฑ์ในการตั้งค่าการแจ้งเตือนระดับระบบ

โดยตารางต่อไปนี้จะอธิบายเกณฑ์ดังกล่าว

การแจ้งเตือน

เกณฑ์ที่แนะนำ

คำอธิบาย

หน่วยความจำเหลือน้อย

500MB

หน่วยความจำเหลือน้อยเกินกว่าที่จะเริ่มคอมโพเนนต์

พื้นที่ในดิสก์ต่ำ (/var/log)

8GB

พื้นที่ในดิสก์ต่ำเกินไป

ภาระงานสูง

3+

กระบวนการที่รอทำงานมีจำนวนเพิ่มขึ้นโดยไม่คาดคิด

หยุดกระบวนการแล้ว

ไม่มี ค่าบูลีนเป็น "จริง" หรือ "เท็จ"

กระบวนการ Apigee Java ในระบบหยุดทำงาน

การตรวจสอบเกี่ยวกับ Apigee สำหรับ Apigee และบุคคลที่สามโดยเฉพาะ พอร์ต

ตรวจสอบพอร์ตต่อไปนี้เพื่อให้แน่ใจว่าทำงานอยู่

  • พอร์ต 4526, 4527 และ 4528 บนเซิร์ฟเวอร์การจัดการ เราเตอร์ และผู้ประมวลผลข้อความ
  • พอร์ต 1099, 1100 และ 1101 บนเซิร์ฟเวอร์การจัดการ เราเตอร์ และผู้ประมวลผลข้อความ
  • พอร์ต 8081 และ 15999 บนเราเตอร์
  • พอร์ต 8082 และ 8998 บน Message Processor

พอร์ต 8080 บนเซิร์ฟเวอร์การจัดการ ตรวจสอบพอร์ตของบุคคลที่สามต่อไปนี้เพื่อให้แน่ใจว่า ใช้งานอยู่

  • พอร์ต Qpid 5672
  • Postgres พอร์ต 5432
  • Cassandra Port 7000, 7199, 9042, 9160
  • พอร์ต ZooKeeper 2181
  • พอร์ต OpenLDAP 10389

หากต้องการระบุพอร์ตที่คอมโพเนนต์ Apigee แต่ละรายการกำลังฟังการเรียก API ให้ออก การเรียก API ต่อไปนี้ไปยังเซิร์ฟเวอร์การจัดการ (ซึ่งโดยทั่วไปจะอยู่ในพอร์ต 8080)

curl -v -u <username>:<password> http://<host>:<port>/v1/servers?pod=gateway&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=central&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=analytics&region=dc-1

เอาต์พุตของคำสั่งเหล่านี้จะมีส่วนที่คล้ายกับดังที่แสดงด้านล่าง &quot;http.management.port&quot; ส่วน ให้หมายเลขพอร์ตของคอมโพเนนต์ที่ระบุ

{
  "externalHostName" : "localhost",
  "externalIP" : "111.222.333.444",
  "internalHostName" : "localhost",
  "internalIP" : "111.222.333.444",
  "isUp" : true,
  "pod" : "gateway",
  "reachable" : true,
  "region" : "default",
  "tags" : {
    "property" : [ {
      "name" : "Profile",
      "value" : "Router"
    }, {
      "name" : "rpc.port",
      "value" : "4527"
    }, {
      "name" : "http.management.port",
      "value" : "8081"
    }, {
      "name" : "jmx.rmi.port",
      "value" : "1100"
    } ]
  },
  "type" : [ "router" ],
  "uUID" : "2d4ec885-e20a-4173-ae87-10be38b35750"
}

การดูบันทึก

ไฟล์บันทึกจะติดตามข้อความเกี่ยวกับเหตุการณ์/การดำเนินการของระบบ ข้อความปรากฏขึ้น ในบันทึกเมื่อกระบวนการเริ่มต้นและเสร็จสมบูรณ์ หรือเมื่อมีเงื่อนไขข้อผิดพลาดเกิดขึ้น ด้วยการดูบันทึก คุณสามารถรับข้อมูลเกี่ยวกับส่วนประกอบของระบบ เช่น CPU, หน่วยความจำ, ดิสก์, โหลด กระบวนการอื่นๆ เป็นต้น ก่อนและหลังการบรรลุสถานะล้มเหลว วิธีนี้ยังช่วยให้คุณระบุและ วินิจฉัยแหล่งที่มาของปัญหาระบบปัจจุบันหรือช่วยคุณคาดการณ์ระบบที่เป็นไปได้ ปัญหา

ตัวอย่างเช่น บันทึกระบบโดยทั่วไปของคอมโพเนนต์จะมีรายการต่อไปนี้ตามที่เห็นด้านล่าง

TimeStamp = 25/01/13 19:25 ; NextDelay = 30
Memory
HeapMemoryUsage = {used = 29086176}{max = 64880640} ;    
NonHeapMemoryUsage = {init = 24313856}{committed = 57278464} ;
Threading
PeakThreadCount = 53 ; ThreadCount = 53 ;
OperatingSystem
SystemLoadAverage = 0.25 ;

คุณสามารถแก้ไขไฟล์ /opt/apigee/conf/logback.xml เพื่อควบคุมกลไกการบันทึกได้โดยไม่ต้อง ต้องรีสตาร์ทเซิร์ฟเวอร์ ไฟล์ logback.xml มีพร็อพเพอร์ตี้ต่อไปนี้ที่กำหนดฟังก์ชัน ความถี่ที่กลไกการบันทึกจะตรวจสอบไฟล์ logback.xml เพื่อดูการเปลี่ยนแปลงการกำหนดค่า

<configuration scan="true" scanPeriod="30 seconds" >

โดยค่าเริ่มต้น กลไกการบันทึกจะตรวจสอบการเปลี่ยนแปลงทุกนาที หากคุณไม่ใส่หน่วยเวลา กับแอตทริบิวต์ scanPeriod ก็ให้ ค่าเริ่มต้นคือมิลลิวินาที

ตารางต่อไปนี้จะบอกตำแหน่งไฟล์บันทึกของคอมโพเนนต์ Apigee Edge Private Cloud

ส่วนประกอบ

ตำแหน่ง

เซิร์ฟเวอร์การจัดการ

opt/apigee/var/log/edge-management-server

เราเตอร์

opt/apigee/var/log/edge-router

Message Processor

opt/apigee/var/log/edge-message-processor

เซิร์ฟเวอร์ Qpid

opt/apigee/var/log/edge-qpid-server

เซิร์ฟเวอร์ Apigee Postgres

opt/apigee/var/log/edge-postgres-server

UI ของ Edge

opt/apigee/var/log/edge-ui

ZooKeeper

opt/apigee/var/log/apigee-zookeeper

OpenLDAP

opt/apigee/var/log/apigee-openldap

Cassandra

opt/apigee/var/log/apigee-cassandra

คพิด

opt/apigee/var/log/apigee-qpidd

ฐานข้อมูล PostgreSQL

opt/apigee/var/log/apigee-postgresql

กำลังเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับข้อความ โปรเซสเซอร์และ Edge UI

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับโปรแกรมประมวลผลข้อความ

  1. ในโหนดตัวประมวลผลข้อความ ให้แก้ไข /opt/apigee/customer/application/messsage-processor.properties หากไม่มี ให้สร้างไฟล์ดังกล่าว
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_system_log.level=DEBUG
  3. รีสตาร์ทโปรแกรมประมวลผลข้อความ โดยทำดังนี้
    &gt; /opt/apigee/apigee-service/bin/apigee-service edge-message-processor รีสตาร์ท

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ Edge UI

  1. ในโหนด Edge UI ให้แก้ไข /opt/apigee/customer/application/ui.properties หากไม่มี ให้สร้างไฟล์ดังกล่าว
  2. เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
    conf_application_logger.application=DEBUG
  3. รีสตาร์ท Edge UI ดังนี้
    &gt; /opt/apigee/apigee-service/bin/apigee-service รีสตาร์ท EDGE-UI ของการบริการ

เครื่องมือตรวจสอบ

เครื่องมือตรวจสอบ เช่น Nagios, Collectd, Graphite, Splunk, Sumologic และ Monit สามารถช่วยคุณได้ ติดตามตรวจสอบทั้งสภาพแวดล้อมขององค์กรและกระบวนการทางธุรกิจ

ส่วนประกอบ

Nagios

เก็บรวบรวมแล้ว

Splunk

การตรวจสอบระดับระบบ

การใช้งาน CPU

?

?

หน่วยความจำว่าง/มือสอง

?

?

การใช้งานพื้นที่ในดิสก์

?

?

สถิติเครือข่าย

?

?

กระบวนการ

?

การตรวจสอบ API

?

JMX

?

Java

?

ไฟล์บันทึก

?

เหตุการณ์วิกฤต

ถึงขีดจำกัดอัตราคำขอ

?

เข้าถึงเซิร์ฟเวอร์แบ็กเอนด์ (Hybris หรือ SharePoint) ไม่ได้

?

เข้าถึง FaaS (STS) ไม่ได้

?

เหตุการณ์คำเตือน

เข้าถึงเซิร์ฟเวอร์ SMTP ไม่ได้

?

มีการละเมิด SLA

?