이레테크 데이터랩스는 데이터 사이언티스트를 통한 전문 통계 교육서비스와 고객의 업무 환경에 적합한 맞춤 개발 서비스, 데이터 관리 및 통계 컨설팅 서비스를 제공합니다.

Salford Systems' applications span every major industry and business function

기능소개

뛰어난 기능과 ​​정확성

  • 최신 알고리즘을 통한 정밀도 향상
  • 빠르고 자동화된 모델링 기능
브로셔 다운로드    평가판 다운로드   

새 기능

  • Brainpower : 선도적인 모델 분석자의 작업 방식을 구현한 프리패키지 자동화 시나리오(70개 이상)
  • Efficiencies: 분석자가 모델 개발의 창의적인 측면에 집중할 수 있도록 단순 반복 작업 최소화
  • Enhanced Algorithms : 대규모 데이터 세트에도 적용 가능한 회귀분석, 분류분석, 로지스틱 회귀분석
  • Improvements: 사용자 피드백 및 데이터 과학의 발전을 기반으로 한 핵심 도구의 새로운 기능
  • Bridging-the-gap: Jerome Friedman과 Leo Breiman의 최첨단 학문적 사고와 현업 적용간의 간극 최소화

CART - Classification And Regression Trees®

Ultimate Classification Tree

CART® 소프트웨어는 고급 분석 분야에 혁명을 일으키고 데이터 과학의 현 시대를 열어 준 최고의 분류 트리입니다. CART는 최신 데이터 마이닝에서 가장 중요한 도구 중 하나입니다. 다른 사람들은 CART는 정확성, 성능, 기능 세트, 기본 제공 자동화 및 사용 용이성 면에서 독보적인 존재입니다. CART는 전문가와 비전문가 모두가 사용할 수 있도록 만들어졌으며, 다른 분석 도구를 사용한다면 숨겨져 있을 수 있는, 데이터 간의 중요한 관계들을 신속하게 나타낼 수 있습니다.

Proprietary Code

기술적으로, CART는 스탠포드 대학과 버클리 캘리포니아 대학에서 세계적으로 유명한 4 명의 통계학자들이 1984년에 소개한 획기적인 수학 이론을 기반으로 합니다. Salford Systems의 CART는 원 저작 코드를 구현하는 유일한 의사 결정 트리 소프트웨어입니다. CART 이론을 처음 소개한 사람들은 계속 Salford Systems와 협력하여 CART를 지속적으로 향상시킵니다.

Fast and Versatile

CART는 특히 시장 조사 및 웹 분석 결과를 향상시키도록 확장되었습니다. CART는 고속 전개를 지원하여, Salford Systems이 대용량 데이터를 실시간으로 예측하고 점수 매길 수 있습니다. 수년에 걸쳐 CART는 애널리스트가 사용할 수 있는 가장 빠르고 가장 융통성있는 예측 모델링 알고리즘으로 알려졌으며, 배깅 및 부스팅을 기반으로 한 많은 최신 데이터 마이닝 방식의 기초로도 사용됩니다.

 
Video

CART로 분류 모델 구축하는 방법   동영상 보기   

MARS - Multivariate Adaptive Regression Splines®

Automatic Non-Linear Regression

MARS® 소프트웨어는 비선형성 주효과 및 교호 효과를 찾아내면서 전통적인 회귀 분석과 유사한 형태의 결과를 선호하는 사용자에게 이상적입니다. 회귀 모델링에 대한 MARS의 접근 방식은 다른 회귀 분석 방법으로는 알아내기 어려운 중요한 데이터 패턴과 관계를 효과적으로 알 수 있습니다. MARS는 각각의 기울기가 있는 일련의 직선들을 이어서 모델을 만듭니다. 이를 통해 MARS는 데이터에서 감지된 모든 패턴을 추적 할 수 있습니다.

High-Quality Regression and Classification

MARS 모델은 통신사 고객의 월별 평균 청구액 또는 웹 사이트 1회 방문 시 구매 예상액과 같은 수치를 예상합니다. MARS는 예 / 아니오 결과에 대한 고품질 분류 모델을 생성 할 수도 있습니다. MARS는 변수 선택, 변수 변환, 교호 작용 탐지 및 자체 테스트를 모두 자동으로 고속으로 수행합니다.

High-Performance Results

MARS가 뛰어난 성능을 발휘하는 분야로는 발전 업체의 전기 수요 예측, 제품의 엔지니어링 사양에 대한 고객 만족도, 지리 정보 시스템 (GIS)의 유무 모델링 등이 있습니다.

 
Video

MARS로 분류 모델 구축하는 방법   동영상 보기   

TreeNet®

Predictive Power

TreeNet은 매우 정확한 모델을 지속적으로 생성 할 수 있는 Salford의 가장 유연하고 강력한 데이터 마이닝 도구입니다. TreeNet의 정확성 수준은 단일 모델이나 배깅 또는 기존 부스팅과 같은 앙상블을 통해 일반적으로 달성할 수 있는 수준이 아닙니다. TreeNet은 회귀 분석과 분류 분석에서 모두 뛰어난 성능을 보여줍니다. 이 알고리즘은 정확한 모델로 수렴하기 위해 순차적 오류-수정 프로세스로 만들어진 수천 개의 작은 의사 결정 트리를 생성합니다. Salford는 Tree Net으로 모델링 대회에서 여러 번 상을 수상했습니다.

Supreme Accuracy

TreeNet은 목표 레이블이 잘못된 데이터에도 견고합니다. 이러한 유형의 데이터 오류는 기존의 데이터 마이닝 방식으로는 처리되기 매우 어려우며 기존의 부스팅에는 치명적일 수 있습니다. 하지만, TreeNet은 기존 모델과 너무 차이가 큰 훈련(training) 데이터 포인트를 동적으로 거부하므로 이러한 오류에 일반적으로 영향받지 않습니다. 또한, TreeNet은 단일 모델이나 배깅 또는 기존 부스팅과 같은 앙상블로는 일반적으로 얻을 수 없는 정확도가 장점입니다. 신경망과는 달리, TreeNet은 데이터 오류에 민감하지 않으므로 시간이 많이 소요되는 데이터 준비, 사전 처리 또는 결측치의 대체가 필요하지 않습니다.

Advanced Features

교호 효과 탐지 통계량은 예측 모델에 어떤 종류의 교호 작용이 필요한지 여부를 확인하고, 특히 어떤 교호 작용이 중요한지 알아내기 위해 검색합니다. 교호 작용 탐지 시스템은 모델 성능을 (때로는 극적으로) 향상시킬 뿐만 아니라 가치 있는 새로운 세그먼트와 이전에 인식하지 못했던 패턴을 발견하는데 도움이 됩니다.

 

Jerome Friedman의 기술 문서는 다운로드 할 수도 있습니다.

  • Greedy Function Approximation: Gradient Boosting Machine은 방법론을 소개합니다.
  • Stochastic Gradient Boosting은 원래 아이디어에 대한 몇 가지 개선점에 대해 설명합니다.
 
Video

TreeNet Gradient Boosting으로 분류 모델을 구축하는 방법   동영상 보기   

TreeNet Gradient Boosting으로 회귀 모델을 구축하는 방법   동영상 보기   

Random Forest®

Breiman and Cutler’s Random Forests

Random Forests® 소프트웨어는 다중 대안 분석, 무작위 추출 전략 및 앙상블 학습을 활용하는 배깅 (bagging) 도구입니다. Random Forests® 소프트웨어의 강점은 데이터의 이상치 및 이상 징후를 발견하고, 군집을 표시하고, 미래의 결과를 예측하고, 중요한 예측변수를 식별하고, 결측치를 대체하고, 통찰력있는 그래픽을 제공하는 것입니다.

Cluster and Segment

Random Forests는 나무가 자란 후에 적용되는 방법에 의해 대부분의 인사이트를 제공합니다. 변수의 중요성을 평가하는 새로운 방법뿐만 아니라 데이터의 클러스터 또는 세그먼트를 식별하는 새로운 기술이 있습니다. 이 방법은 University of California, Berkeley의 Leo Breiman과 Adele Cutler가 개발했으며 Salford Systems에게 독점적으로 라이센스되었습니다. Salford Systems는 Random Forests의 생존 공동 저자인 Adele Cutler 교수와 공동 연구를 진행하고 있습니다.

Suited for Wide Datasets

Random Forests는 서로 영향을 받지 않으며 구성된 여러 개의 CART 트리 모음입니다. 의사 결정 나무에서 만들어진 예측의 합이 전체 숲의 예측을 결정합니다. 랜덤 포레스트는 행의 수는 10,000개 미만이고 열의 수는 수백만 개인 중소 규모 데이터 세트의 복잡한 데이터 구조를 분석하는 데 가장 적합합니다.

 
Video

Random Forests로 분류 모델을 구축하는 방법   동영상 보기