نظارت بر بهترین شیوه ها

Edge for Private Cloud نسخه 4.17.09

نظارت بر هشدارها

Apigee Edge به شما این امکان را می دهد که هشدارها را به syslog ها یا سیستم ها/ابزارهای مانیتورینگ خارجی در زمانی که خطا یا خرابی به دلیل خرابی یک رویداد رخ می دهد، ارسال کنید. این هشدارها می توانند هشدارها/رویدادها در سطح سیستم یا در سطح برنامه باشند. هشدارهای سطح برنامه عمدتاً هشدارهای سفارشی هستند که بر اساس رویدادهای ایجاد شده ایجاد می شوند. مدیر شبکه معمولاً شرایط سفارشی را پیکربندی می کند. برای اطلاعات بیشتر در مورد هشدارها، با پشتیبانی Apigee تماس بگیرید.

تنظیم آستانه هشدار

یک آستانه تعیین کنید که پس از آن باید یک هشدار ایجاد شود. آنچه شما تنظیم می کنید به پیکربندی سخت افزار شما بستگی دارد. آستانه باید متناسب با ظرفیت شما تنظیم شود. به عنوان مثال، اگر فقط 6 گیگابایت ظرفیت داشته باشید، Apigee Edge ممکن است خیلی کم باشد. شما می توانید آستانه را با معیار برابر با (=) یا بیشتر از (>) اختصاص دهید. همچنین می توانید فاصله زمانی بین دو تولید متوالی هشدار را مشخص کنید. می توانید از گزینه ساعت/دقیقه/ثانیه استفاده کنید.

معیارهای تنظیم هشدارهای سطح سیستم

جدول زیر معیارها را توضیح می دهد:

هشدار

آستانه پیشنهادی

توضیحات

حافظه کم

500 مگابایت

حافظه برای راه اندازی یک جزء بسیار کم است

فضای دیسک کم (/var/log)

8 گیگابایت

فضای دیسک خیلی کم شده است.

بار بالا

3+

فرآیندهای در انتظار اجرا به طور غیرمنتظره ای افزایش یافته اند

روند متوقف شد

N/A، مقدار بولی درست یا نادرست

فرآیند جاوا Apigee در سیستم متوقف شده است

بررسی پورت های خاص Apigee و شخص ثالث

پورت های زیر را برای اطمینان از فعال بودن آنها زیر نظر بگیرید

  • پورت 4526، 4527 و 4528 در سرور مدیریت، روتر و پردازشگر پیام
  • پورت 1099، 1100 و 1101 روی سرور مدیریت، روتر و پردازشگر پیام
  • پورت 8081 و 15999 روی روترها
  • پورت 8082 و 8998 در پردازشگرهای پیام
  • پورت 8080 روی سرور مدیریت

پورت های شخص ثالث زیر را بررسی کنید تا مطمئن شوید که فعال هستند:

  • پورت Qpid 5672
  • پورت Postgres 5432
  • پورت کاساندرا 7000، 7199، 9042، 9160
  • پورت ZooKeeper 2181
  • پورت OpenLDAP 10389

برای تعیین اینکه هر جزء Apigee به کدام پورت برای فراخوانی های API گوش می دهد، فراخوانی های API زیر را به سرور مدیریت (که عموماً روی پورت 8080 است) صادر کنید:

curl -v -u <username>:<password> http://<host>:<port>/v1/servers?pod=gateway&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=central&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=analytics&region=dc-1

خروجی این دستورات شامل بخش هایی مشابه آنچه در زیر نشان داده شده است خواهد بود. بخش " http.management.port " شماره پورت مولفه مشخص شده را می دهد.

{
  "externalHostName" : "localhost",
  "externalIP" : "111.222.333.444",
  "internalHostName" : "localhost",
  "internalIP" : "111.222.333.444",
  "isUp" : true,
  "pod" : "gateway",
  "reachable" : true,
  "region" : "default",
  "tags" : {
    "property" : [ {
      "name" : "Profile",
      "value" : "Router"
    }, {
      "name" : "rpc.port",
      "value" : "4527"
    }, {
      "name" : "http.management.port",
      "value" : "8081"
    }, {
      "name" : "jmx.rmi.port",
      "value" : "1100"
    } ]
  },
  "type" : [ "router" ],
  "uUID" : "2d4ec885-e20a-4173-ae87-10be38b35750"
}

مشاهده گزارش‌ها

فایل‌های گزارش، پیام‌های مربوط به رویداد/عملکرد سیستم را پیگیری می‌کنند. هنگامی که فرآیندها شروع و تکمیل می شوند یا زمانی که یک شرایط خطا رخ می دهد، پیام ها در گزارش ظاهر می شوند. با مشاهده فایل های گزارش، می توانید اطلاعاتی در مورد اجزای سیستم، به عنوان مثال، CPU، حافظه، دیسک، بارگذاری، فرآیندها و غیره، قبل و بعد از رسیدن به وضعیت ناموفق به دست آورید. این همچنین به شما امکان می دهد منبع مشکلات فعلی سیستم را شناسایی و تشخیص دهید یا به شما در پیش بینی مشکلات احتمالی سیستم کمک کنید.

به عنوان مثال، یک گزارش سیستم معمولی یک جزء حاوی ورودی های زیر است که در زیر مشاهده می شود:

TimeStamp = 25/01/13 19:25 ; NextDelay = 30
Memory
HeapMemoryUsage = {used = 29086176}{max = 64880640} ;    
NonHeapMemoryUsage = {init = 24313856}{committed = 57278464} ;
Threading
PeakThreadCount = 53 ; ThreadCount = 53 ;
OperatingSystem
SystemLoadAverage = 0.25 ;

می‌توانید فایل /opt/apigee/conf/logback.xml را ویرایش کنید تا مکانیسم ورود به سیستم را بدون نیاز به راه‌اندازی مجدد سرور کنترل کنید. فایل logback.xml حاوی ویژگی زیر است که فرکانس را تعیین می کند که مکانیسم ورود به سیستم فایل logback.xml را برای تغییرات پیکربندی بررسی می کند:

<configuration scan="true" scanPeriod="30 seconds" >

به‌طور پیش‌فرض، مکانیسم گزارش‌گیری هر دقیقه تغییرات را بررسی می‌کند. اگر واحدهای زمانی را در ویژگی scanPeriod حذف کنید، به طور پیش فرض میلی ثانیه است.

جدول زیر محل فایل‌های لاگ اجزای Apigee Edge Private Cloud را نشان می‌دهد.

اجزاء

مکان

سرور مدیریت

opt/apigee/var/log/edge-management-server

روتر

opt/apigee/var/log/edge-router

پردازشگر پیام

opt/apigee/var/log/edge-message-processor

سرور Qpid

opt/apigee/var/log/edge-qpid-server

سرور Apigee Postgres

opt/apigee/var/log/edge-postgres-server

رابط کاربری لبه

opt/apigee/var/log/edge-ui

باغ وحش

opt/apigee/var/log/apigee-zookeeper

OpenLDAP

opt/apigee/var/log/apigee-openldap

کاساندرا

opt/apigee/var/log/apigee-cassandra

Qpidd

opt/apigee/var/log/apigee-qpidd

پایگاه داده PostgreSQL

opt/apigee/var/log/apigee-postgresql

فعال کردن گزارش‌های اشکال‌زدایی برای پردازشگر پیام و رابط کاربری Edge

برای فعال کردن گزارش‌های اشکال‌زدایی برای پردازشگر پیام:

  1. در گره Message Processor، /opt/apigee/customer/application/messsage-processor.properties را ویرایش کنید. اگر آن فایل وجود ندارد، آن را ایجاد کنید.
  2. ویژگی زیر را به فایل اضافه کنید:
    conf_system_log.level=DEBUG
  3. پردازشگر پیام را مجددا راه اندازی کنید:
    > /opt/apigee/apigee-service/bin/apigee-service edge-message-processor restart

برای فعال کردن گزارش‌های اشکال‌زدایی برای Edge UI:

  1. در گره رابط کاربری Edge، /opt/apigee/customer/application/ui.properties را ویرایش کنید. اگر آن فایل وجود ندارد، آن را ایجاد کنید.
  2. ویژگی زیر را به فایل اضافه کنید:
    conf_application_logger.application=DEBUG
  3. رابط کاربری Edge را مجددا راه اندازی کنید:
    > /opt/apigee/apigee-service/bin/apigee-service edge-ui restart

ابزارهای نظارت

ابزارهای نظارتی مانند Nagios، Collectd، Graphite، Splunk، Sumologic و Monit می توانند به شما در نظارت بر کل محیط سازمانی و فرآیندهای تجاری خود کمک کنند.

جزء

ناگیوس

جمع آوری شد

اسپلانک

بررسی های سطح سیستم

استفاده از CPU

?

?

حافظه رایگان/استفاده شده

?

?

استفاده از فضای دیسک

?

?

آمار شبکه

?

?

فرآیندها

?

بررسی های API

?

JMX

?

جاوا

?

فایل های لاگ

?

رویدادهای بحرانی

نرخ حد مجاز رسید

?

سرور Backend (Hybris یا SharePoint) قابل دسترسی نیست

?

FaaS (STS) قابل دسترسی نیست

?

رویدادهای هشدار دهنده

دسترسی به سرور SMTP امکان پذیر نیست

?

SLA نقض شده است

?