NO.136 군중 감정 로컬 모델에 대한 기능 엔지니어링 전략을 구현해야 합니다.
어떻게 해야 하나요?
설명/참조:
설명:
선형 판별 분석 방법은 범주형 또는 서수 변수가 아닌 연속형 변수에 대해서만 작동합니다.
선형 판별 분석은 변수의 평균을 비교하는 방식으로 작동한다는 점에서 분산 분석(ANOVA)과 유사합니다.
시나리오:
데이터 과학자는 머신 러닝 파이프라인의 자동 기능 엔지니어링 및 모델 구축을 사용하여 로컬 환경에서 노트북을 구축해야 합니다.
로컬 군중 감정 모델에 대한 실험은 로컬 페널티 감지 데이터를 결합해야 합니다.
로컬 모델의 모든 공유 기능은 연속형 변수입니다.
오답:
B: 피어슨 상관관계 계수는 피어슨 R 검정이라고도 하며 두 변수 간의 선형 관계를 측정하는 통계 값입니다. 계수 값을 살펴보면 두 변수 간의 관계 강도와 양의 상관관계인지 음의 상관관계인지에 대한 정보를 유추할 수 있습니다.
C: 스피어만 상관 계수는 비모수 및 정규 분포가 아닌 데이터에 사용하도록 설계되었습니다. 스피어만 계수는 두 변수 간의 통계적 의존성을 나타내는 비모수적 척도이며, 그리스 문자 로(rho)로 표시되기도 합니다. 스피어만 계수는 두 변수가 단조롭게 연관되어 있는 정도를 나타냅니다. 서수 변수와 함께 사용할 수 있기 때문에 스피어만 순위 상관관계라고도 합니다.
참조:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/fisher-linear- 차별적 분석
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/compute-linear- 상관관계 테스트렛 2 사례 연구 개요 귀하는 미국의 고급 개인 및 상업용 부동산 전문 회사인 Fabrikam Residences의 데이터 과학자입니다. Fabrikam Residences는 유럽으로의 확장을 고려하고 있으며 주요 유럽 도시의 개인 주택 가격을 조사해 달라는 요청을 받았습니다. Azure Machine Learning Studio를 사용하여 부동산의 중간값을 측정합니다. 선형 회귀 및 베이지안 선형 회귀 모듈을 사용하여 부동산 가격을 예측하기 위한 회귀 모델을 생성합니다.
데이터 세트
런던과 파리 두 도시에 대한 속성 세부 정보가 포함된 두 개의 데이터 세트가 CSV 형식으로 있으며, 열은 다음과 같습니다:
두 데이터 집합은 Azure Machine Learning Studio에 별도의 데이터 집합으로 추가되어 실험의 시작점으로 포함되었습니다.
데이터 집합 문제
두 데이터 집합의 AccessibilityToHighway 열에 누락된 값이 포함되어 있습니다. 누락된 데이터는 새 데이터로 대체하여 데이터의 다른 변수를 사용하여 조건부로 모델링한 후 누락된 값을 채워야 합니다.
각 데이터 집합의 열에 누락된 값과 null 값이 포함되어 있습니다. 또한 데이터 집합에 이상값이 많이 포함되어 있습니다. Age 열에 이상값의 비율이 높습니다. Age 열에서 이상값이 있는 행을 제거해야 합니다. MedianValue 및 AvgRoomsinHouse 열에는 모두 숫자 형식의 데이터가 들어 있습니다. 두 열 간의 관계를 더 자세히 분석하려면 기능 선택 알고리즘을 선택해야 합니다.
모델 적합성
모델에 과적합의 징후가 보입니다. 과적합을 줄이는 더 정교한 회귀 모델을 만들어야 합니다.
실험 요구 사항
성능을 평가하려면 선형 회귀 및 베이지안 선형 회귀 모듈을 교차 검증하도록 실험을 설정해야 합니다.
각 경우에서 데이터 집합의 예측자는 MedianValue라는 열입니다. 초기 조사 결과, 두 데이터 집합은 MedianValue 열을 제외하고는 구조가 동일한 것으로 나타났습니다. 더 작은 파리 데이터 집합에는 텍스트 형식의 MedianValue가 포함되어 있는 반면, 더 큰 런던 데이터 집합에는 숫자 형식의 MedianValue가 포함되어 있습니다. 파리 데이터 집합의 MedianValue 열의 데이터 유형이 런던 데이터 집합의 구조와 일치하는지 확인해야 합니다.
결과 예측을 위해 데이터 열의 우선 순위를 정해야 합니다. 비매개변수 통계를 사용하여 관계를 측정해야 합니다.
기능 선택 알고리즘을 사용하여 MedianValue 열과 AvgRoomsinHouse 열 간의 관계를 분석해야 합니다.
모델 교육
학습된 모델과 테스트 데이터 세트가 주어지면 기능 변수의 순열 기능 중요도 점수를 계산해야 합니다. 순열 기능 중요도 모듈을 설정하여 모델의 정확도를 조사하고 결과를 복제하기 위한 올바른 지표를 선택해야 합니다.
모델 학습 프로세스에서 하이퍼파라미터를 구성하여 하이퍼파라미터를 사용하여 학습 단계의 속도를 높이고자 합니다. 또한 이 구성은 각 평가 간격에서 가장 성과가 낮은 실행을 취소하여 성공 가능성이 더 높은 모델에 노력과 리소스를 집중하도록 합니다.
모델이 하이퍼파라미터 튜닝에서 컴퓨팅 리소스를 효율적으로 사용하지 못할 수 있다고 우려합니다.
또한 해당 모델로 인해 전체 튜닝 시간이 늘어나는 것을 방지할 수 있을지도 모른다는 우려도 있습니다. 따라서 유망한 작업을 종료하지 않고도 비용을 절감할 수 있는 모델에 대한 조기 종료 기준을 구현해야 합니다.
테스트
Azure Machine Learning Studio의 파티션 및 샘플 모듈을 사용하여 샘플링을 기반으로 데이터 집합의 여러 파티션을 생성해야 합니다. 교차 유효성 검사를 위해 3개의 동일한 파티션을 만들어야 합니다. 또한 테스트 및 학습 데이터 집합의 행이 각 도시의 주요 강 근처에 있는 속성별로 균등하게 나뉘도록 교차 유효성 검사 프로세스를 구성해야 합니다. 속성이 강 근처에 있음을 식별하는 데이터는 NextToRiver라는 열에 보관됩니다. 데이터가 샘플링 프로세스를 거치기 전에 이 작업을 완료하려고 합니다.
대도시의 부동산 가격 데이터를 보여주는 부동산 데이터 집합을 사용하여 선형 회귀 모듈을 훈련하는 경우 모델에 사용할 최적의 기능을 결정해야 합니다. 기능 중요도 프로세스가 완료되기 전과 후에 성능을 측정하기 위해 제공되는 표준 메트릭을 선택할 수 있습니다. 여러 학습 모델에 걸쳐 특징의 분포가 일관성이 있는지 확인해야 합니다.
데이터 시각화
테스트 결과를 패브리캄 레지던스 팀에 제공해야 합니다. 결과를 표시하는 데 도움이 되는 데이터 시각화를 만듭니다.
모델의 진단 테스트 평가를 수행하려면 수신기 작동 특성(ROC) 곡선을 생성해야 합니다. 두 클래스 의사 결정 포리스트와 두 클래스 의사 결정 정글 모듈을 서로 비교하려면 Azure Machine Learning Studio에서 ROC 곡선을 생성하는 데 적합한 방법을 선택해야 합니다.