검토 : 인트라넷 환경에서 Google 검색 어플라이언스 구현

광고 제품 정보
GSA는 “블랙 박스”1U 표준 랙 장착 서버입니다. “블랙 박스”로 Google은 장치를 관리하기위한 웹 인터페이스를 제공하지만 운영 체제 (Linux의 많은 Google 커스텀 버전)에 액세스하기를 원하지 않습니다. 실제로, 라이센스 계약은 어떤 식 으로든 어플라이언스의 하드웨어 또는 OS를 조작하지 않을 것이라고 규정합니다. 이 장치에는 키보드, 마우스 또는 비디오가 필요하지 않습니다. 정상적인 작동에 필요한 것은 네트워크 케이블 및 표준 전원 입력입니다.

GSA는 하드웨어 크기와 이에 따라 라이센스의 크기에 따라 다양한 요구에 맞게 다양한 맛을 제공합니다. (라이센스는 어플라이언스가 기어 다니는 URL 수를 기준으로합니다.) 3 가지 하드웨어 구성이 있습니다. GB-1001, GB-5005 및 GB-800. 이것들은 다음과 같이 분해됩니다.

    • GB-1001-150K 문서 $ 28K, $ 50K에 대한 300K 문서

 

    • GB-5005-$ 230K에 대한 1.5m 문서

 

    • GB-8008-$ 450K에 대한 4M 문서

 

왜 Google?
광고 된 바와 같이, GSA는 우리의 환경에서 우리가 가지고있는 다양한 파일 타입, 보안 컨텐츠에 액세스, 문서화 된 API 등을 색인화 할 수있는 모든 요구를 충족했습니다. Google 브랜드 파워는 또 다른 큰 판매 요소였습니다. 우리가 사용자에게 Google 기반 검색 엔진을 얻을 것이라고 말했을 때 그들은 문제가있는 검색의 시대가 끝났다는 것을 알았습니다. 마지막으로, 우리가 GSA와 함께한 30 일의 시험 실행 경험은 거래를 봉인했습니다. 어플라이언스는 설치, 구성 및 유지 관리해야 할 가장 쉬운 엔터프라이즈 솔루션입니다. 우리는 문자 그대로 운송 상자를 열고 나서 1 시간 안에 달리고있었습니다.

설치
어플라이언스에는 후면 패널에 두 개의 네트워크 포트가 있습니다. 하나는 정상 작동 용이고 다른 하나는 네트워크 구성에만 사용됩니다. 네트워크 설정을 구성하기 위해 스페셜 (일부 핀 아웃은 비표준) 오렌지 이더넷 케이블을 통해 랩톱을 어플라이언스에 연결했습니다. 설치 프로세스는 “블랙 박스”를 상상할 수있는 것만 큼 쉬웠습니다.

먼저 일반 작동 네트워크 케이블과 전원을 연결했습니다. 어플라이언스의 전원 플러그는 전원 스위치입니다. 켜지려면 연결하고 플러그를 뽑아 끕니다. 그것을 연결 한 후, 우리는 기기가 계속 될 신호 인 곡을 재생하기 위해 약 5 분 동안 기다렸다. 다음으로, 우리는 랩톱 (이미 DHCP 모드로 설정)을 기기에 연결하여 전원을 켜 었습니다. 랩톱에 로그인하고 Appliance의 내장 DHCP 서버에서 올바른 IP를 할당한지 확인한 후 네트워크 설정을 구성 할 준비가되었습니다. 총 경과 시간 (랙 장착 제외) : 10 분 코웨이공기청정기.

구성
정상 관리와 같은 네트워크 구성은 전적으로 브라우저를 통해 수행되며 간단한 5 단계 프로세스입니다. 첫 번째 화면은 기본 네트워크 정보를 요청합니다. IP 주소, 서브넷 마스크, 기본 게이트웨이 및 DNS. 후속 화면은 GSA 알림 메시지, 시간대, NTP (시간) 서버 및 관리자 계정 이름/비밀번호의 “From”주소 인 SMTP 서버를 수집합니다. 마지막 단계는 설정을 올바르게 수행하기 위해 크롤링 할 몇 가지 URL을 테스트하는 것입니다. 최종 설정 후 스크린 구성이 완료된 후 랩톱을 뽑아서 좋은 부분을 얻을 수 있습니다. 크롤링을 시작하십시오. 총 경과 시간 : 10 분.

사이트 크롤링 (들)
제공된 URL을 사용하여 GSA의 모든 관리는 원격으로 수행됩니다. 이전 단계에서 제공 한 ID/비밀번호로 로그인 한 후 관리 콘솔이 제시되었습니다. 우리는 인덱스를 유지하기 위해 새로운 컬렉션을 만들었고,“URL에서 시작”URL을 넣고, 동일한 URL을“다음 패턴이있는 URL을 팔로우하고 크롤링”상자에 복사했고 우리는 완료되었습니다. 설정을 저장 한 다음 “Crawling 시작”버튼을 클릭했습니다. 그런 다음“크롤링 상태”화면으로 가서“크롤링 된 URL”카운터 증가를 보았습니다. Google은 약 15 분 정도 약 4,000 개의 URL을 크롤링 할 수 있다고 광고합니다. 해당 URL에서 링크 된 문서 (Word, PDF, Excel 등)가 있으면 크롤링 시간이 크게 증가 할 것입니다.

크롤링이 완료된 후 컬렉션이 자동으로 색인화 된 다음 서빙 전제 조건 (인덱스 컬렉션을 생산으로 옮길 것인지 결정하는 데 사용하려는 모든 기준)에 대해 확인하고 컬렉션이 프로덕션으로 이동 (결과적으로 검색 가능) 또는 스테이징으로 이동합니다. 스테이징 영역을 사용하면 사용자가 검색하기 전에 새 크롤링을 검증 할 수 있습니다.

크롤링 구성
첫 번째 크롤링 후에는 돌아가서 크롤링 매개 변수를 조정해야 할 필요성을 찾을 수 있습니다. Google은 사이트가 크롤링되는 방식, 주파수, 얼마나 많은 스레드 수 등을 사용하는 방법에 대한 많은 양의 제어 기능을 제공합니다. 보안이있는 사이트의 경우 GSA는 기본 인증을 지원하고 양식 인증을 지원하는 추가 보안 모듈을 사용할 수 있습니다. 우리에게 가장 어려운 구성 측면은 검색에서 제외 할 URL 패턴의 올바른 조합을 결정하는 것이 었습니다. 도미노 상점이고 GSA를 사용하려는 경우 때때로 복잡한 도미노 쿼리 문자열 매개 변수를 지원하기 위해 크롤러 구성을 얻는 데 시간을 소비해야 할 수도 있습니다.

크롤링 매개 변수를 조정하고 첫 번째 크롤링이 완료된 후 크롤러가 모든 콘텐츠를 잡았는지 확인하기 위해 약간의 테스트를 수행했습니다. 분류 체계 내부에 깊숙이 묻힌 일부 현으로 우리 사이트를 탐색하고 테스트를 시작했습니다. 우리는 항상 GSA가 정확하게 기어 올랐다는 것을 알았습니다. 또한 PDF 문서, PowerPoint 프레젠테이션 등에서 문자열로 일부 테스트를 수행했습니다. 우리가 신중한 분석으로 기어 다니지 않은 것을 발견했을 때 우리는 크롤링 설정을 더 조정해야한다는 것을 알게되었습니다.

다른 주목할만한 기능

Google은 또한 주어진 쿼리의 결과 페이지 상단에 표시되어야 할 인덱스 문서를 지정할 수있는 Keymatch 도구를 제공합니다. 이들은 우리 모두가 사용하는 Google의 결과 페이지 상단에있는 스폰서 링크와 거의 동일하게 나타납니다. 동의어 도구를 사용하면 검색 쿼리에 대한 대체 단어 또는 문구를 지정할 수 있습니다. 예를 들어 누군가 WCM을 검색하면 결과 페이지 상단에서 “웹 컨텐츠 관리”를 제안 할 수 있습니다.

출력 형식 기능을 사용하면 (XSLT를 통해) 검색 결과의 프레젠테이션을 제어 할 수 있습니다. 결과 페이지의 글꼴, 색상, 로고, 헤더 등을 변경하는 데 사용할 수 있습니다. 일부 XSLT 수정으로 결과 페이지에서 “캐시 된”기능을 쉽게 제거 할 수있었습니다.

보고 도구를 사용하면 다양한 시간 범위에서 검색 쿼리에 대한 보고서를 실행할 수 있습니다. 지정된 기간 동안 하루에 하루에 검색 수, 시간당 상위 100 개 키워드 및 상위 100 개의 쿼리가 표시됩니다.

단점

GSA는 기기에 파일 시스템을 크롤링 할 수있는 시설이 없기 때문에 공유 네트워크 드라이브를 색인화하려는 조직이 아닙니다. 많은 회사들이 네트워크에 저장된 대량의 비정형 콘텐츠로 어려움을 겪고 있기 때문에 이것은 너무 나쁩니다. 물론이 문제에 대한 수많은 다른 제품이 있습니다.

데이터베이스 (예 : SQL, Oracle 등)에 직접 액세스하는 것은 GSA의 제한이없는 또 다른 영역뿐만 아니라 컨텐츠 또는 문서 관리 시스템과의 통합입니다.

결론
GSA (Google Search Appliance)는 HTTP 액세스 가능한 콘텐츠를위한 훌륭한 검색 제품입니다. 크롤러 구성 및 결과 서비스 및 충분한보고 기능과 같은 관리 기능을 잘 제어 할 수 있습니다. 컨텐츠/문서 관리 시스템, 데이터베이스 또는 인덱싱 네트워크 드라이브와 직접 통합 할 수있는 솔루션을 찾는 사람들은 다른 제품을 찾아야합니다. 그러나 많은 HTML 기반 컨텐츠가있는 인트라넷 또는 인트라넷 사이트가있는 경우 GSA가 필요한 것일 수 있습니다.