Tuesday 27 February 2018

무역 전략 overfitting


피팅.
'불충분 함'의 정의
함수가 제한된 데이터 요소 집합에 너무 밀접하게 맞을 때 발생하는 모델링 오류입니다. 모델을 보완하는 것은 일반적으로 지나치게 복잡한 모델을 만들어서 연구중인 데이터의 특이성을 설명하는 형태를 취합니다. 실제로 연구되는 데이터에는 오류 또는 임의의 잡음이 있습니다. 따라서 모델이 약간 부정 확한 데이터와 너무 가깝게 일치 시키려고하면 상당한 오류가있는 모델이 감염되어 예측 능력이 저하 될 수 있습니다.
속보를 '과소 평가'
금융 전문가는 제한된 데이터를 기반으로 모델을 초과 적용하는 위험에 대해 항상 인식하고 있어야합니다. 예를 들어 일반적인 문제는 컴퓨터 알고리즘을 사용하여 패턴을 찾기 위해 과거 시장 데이터의 광범위한 데이터베이스를 검색하는 것입니다. 충분한 연구를 감안할 때, 정 밀한 정확성을 가지고 주식 시장에서의 수익과 같은 것을 예측하는 정교한 정리를 개발하는 것이 종종 가능합니다. 그러나 샘플 외부의 데이터에 적용될 때, 그러한 정리는 실제 우연한 사건 발생에 단순히 모델을 오버 피팅하는 것일 수 있습니다. 모든 경우에, 모델을 개발하는 데 사용 된 샘플 외부의 데이터에 대해 모델을 테스트하는 것이 중요합니다.

금융 시장의 역 테스트.
자동 판매업 잡지 발행물 39 호 Q2 2016에 게시 됨.
체계적인 상인은 전략의 경향에 의해 저주를받습니다. 대학 연구자 그룹은 매우 간략한 전략에 대해서조차 지나친 성향을 평가하기위한 온라인 도구를 제공합니다.
수학적 재무의 맥락에서 백 테스팅 과도 함이란 backtest라고하는 역사적인 시장 데이터를 사용하여 동일한 데이터 세트에서 많은 변형 된 전략을 시도하는 투자 전략을 개발하는 것을 의미합니다. 역 테지 오버 피팅 (backtest overfitting)은 이제 백 투 테스트를 기반으로 한 양적 투자 모델과 전략이 종이에 좋게 보이는 것이 실제로 실망스럽게 느껴지는 주된 이유라고 생각됩니다. 이 조건을 겪고있는 모델은 일반적인 동작이 아닌 제한된 데이터 집합의 특정 idiosyncrasies를 대상으로하므로 결과적으로 새 데이터가 제시 될 때 성능이 좋지 않을 수 있습니다.
Backtest overfitting은 오진 (false positive) 비율의 증가를 고려하지 않고 동일한 데이터에서 많은 수의 유사 모델을 테스트하는 과학 연구에서보다 일반적인 테스트의 인스턴스입니다. 홀드 아웃 (hold-out) 방법과 같은 표준 초과 피팅 기법은 단일 테스트가 수행되었다고 가정하고 데이터 집합과 관련된 모델의 복잡성을 평가하기 위해 설계 되었기 때문에이 문제를 식별하지 못합니다.
미국 Lawrence Berkeley 국립 연구소 (은퇴).
CARMA, University of Newcastle, 호주.
CARMA, University of Newcastle, 호주.
Western Michigan University, 수학과
새로운 화합물 XYZ가 두통을 치료하기 위해 개발된다고 가정하십시오. 우리는 XYZ가 실제로 효과적이라는 가설을 테스트하고자합니다. 거짓 긍정은 XYZ가 효과적이라고 잘못 판단 할 때 발생합니다. 이것은 여러 가지 이유에서 발생할 수 있습니다 : 환자는 오진되었거나, 두통과 관련된 통증이 증상을 알리는 데 필요한 문턱 수준과 비슷하게 진동했습니다. 가양 성의 확률은 5 %에 ​​불과하다고 가정합니다. 우리는 관련없는 특성 (색, 맛, 환약의 모양)을 변경하여 화합물의 변형을 시험 할 수 있으며, 20 개 중 1 개 이상이 (거짓으로) 효과가 있다고 예상됩니다.
문제는 생물학이나 화합물의 복잡성과 관련이 없습니다. 대신 연구원은 각 변종을 개별적으로 치료하면서 여러 가지 검사를 수행했으며 오히려 오 탐지 확률이 증가한다는 사실을 깨닫지 못했습니다. 전신 스캔 (full body scan) 및 기타 현재의 기술 주도 의료 진단 및 방법은 동일한 이유로 종종 손상됩니다.
마찬가지로, 금융 분야에서는 동일한 데이터에 대해 수십억 건은 아니더라도 수백만 건의 테스트를 수행하는 것이 일반적입니다. 저자는 일반적으로 특정 발견과 관련된 실험의 수를 제공하지 않으며 결과적으로 많은 공개 된 투자 이론 또는 모델이 오 탐지됩니다. 예를 들어, 과거 5 년간의 주식 시장 데이터 만 백 테스트로 사용할 수있는 경우, 이 데이터에 대해 45 가지 이상의 전략 변형을 시도하거나 전략 결과가 지나친 결과를 낳을 수 있다는 것을 앞서 살펴 보았습니다. 특정한 의미에서 전략의 샤프 비율 (Sharpe Ratio, SR)이 우연히 1.0 이상일 가능성이 있습니다 (실제 SR은 0이 될 수도 있고 부정적 일 수도 있음).
샤프 비율 (Sharpe Ratio) 및 이와 유사한 메트릭스는 최고의 성과를내는 전략에 자본을 할당하는 데 사용됩니다. SR은 투자 전략의 성과를 수치화합니다. 이는 무위험 자산의 수익률을 초과하는 평균 초과 자본 수익률과 동일한 수익률의 표준 편차 사이의 비율입니다. 따라서 비율이 높을수록 관련된 위험에 대한 수익률이 높아집니다.
체계적인 투자 전략을 개발하거나 심지어 투자하는 사람 (또는 그러한 전략을 기반으로 한 상장 된 펀드)은 예기치 않은 재정적 손실을 피하기 위해 과장 될 수있는 정도를 이해해야합니다. 이러한 이유로 우리는 Backtest Overfitting Demonstration Tool (BODT)과 Tenure Maker Simulation Tool (TMST)의 두 가지 온라인 도구를 개발했습니다. 이 도구의 주요 목표는 투자 전략에 너무 무리를 두는 것이 얼마나 쉬운 일인지, 그리고 이러한 과적이 재무적인 수익에 어떻게 영향을 미칠 수 있는지를 보여주는 것입니다. 이 두 가지 도구는 크게 두 가지 유형의 투자 전략에서 비롯됩니다.
그림 01 : 표본 최적화 결과.
일반적인 거래 규칙 (예 : 계절적 기회 (BODT는이 유형을 목표로 함)
예측 방정식에 기반한 예. 계량 경제학 모델 (TMST는이 유형을 목표로 함)
BODT는 재무 전략 분석가가 투자 전략을 수립하는 데 사용하는 프로세스의 단순화 된 버전을 사용합니다. 즉, 컴퓨터 프로그램을 사용하여 과거의 시장 데이터 (흔히 '샘플 내 (In-Sample)'데이터라고 함)를 기반으로 최적의 전략을 찾고, 변수 TMST는 '최적'전략을 찾기 위해 예측 및 계량 경제 학적 방정식을 적용합니다. 역 테지 오버 피팅 (backtest overfitting)을 피하기 위해주의를 기울이지 않으면 과거 시장 데이터를 사용하는 테스트를 기반으로 한 이러한 전략은 종이에서 훌륭하게 보일 수 있지만 실제로 다른 데이터 세트 (실제로는 '샘플 외부'라고 함)에 실망스럽게 나타날 수 있습니다 OOS) 데이터). 그림 01과 02는 이러한 현상을 보여줍니다. 왼쪽 그림은 과거 데이터 집합 또는 IS 데이터 집합을 기반으로 최적의 전략 (파란 선과 관련된)을 개발할 수있는 방법을 보여줍니다 (이 경우에는 의사 무작위로 생성 된 일일 마감 유지 일, 보유 기간, 정지 손실 및 측면 매개 변수 (우리는 나중에이 매개 변수에 대해 더 자세히 논의 함)에 따라 노란색 선과 관련이 있습니다. 이 최적의 전략은 IS 데이터 세트에서 Sharpe Ratio가 1.59입니다. 반면에 올바른 그래프는 동일한 최적의 전략이 OOS 데이터 세트에서 제대로 수행되지 않으며 결과가 SR의 결과가 -0.18이되어 전략이 IS 데이터에 너무 많이 부합 함을 보여줍니다. 실제로 최적의 전략은 실제로 여기에서 돈을 잃어 버렸습니다.
온라인 BODT와 TMST는 과핑의 영향을 보여줍니다. 우리는 더 많은 기술 버전을 개발했습니다. 단일 테스트의 경우, 우리는 IS 데이터에서 SR이 높은 전략을 선택하는 것을 피하기 위해 최소 Backtest Length (MinBTL)을 메트릭으로 제안했지만 OOS 데이터에서는 0보다 작습니다. 우리는 또한 추정 된 SR이 벤치 마크 SR보다 큰 확률을 계산하기 위해 어떤 단계에서 확률 적 Sharpe Ratio (PSR)를 제안했다. 다중 테스트의 경우 더 강력한 성능 통계를 제공하기 위해 Deflated Sharpe Ratio (DSR)을 개발했습니다.
그림 02 : 샘플 밖의 결과.
특히, 수익률이 비정상 분포를 따르는 경우. 관심있는 독자는 참고 자료 섹션을 참조하여 추가 읽기를 원할 수 있습니다.
Backtest Overfitting 데모 도구.
계절 전략은 투자자들 사이에서 매우 인기가 있으며 TV 쇼, 비즈니스 출판물 및 학술지에 매일 판매됩니다. 이 섹션에서는 계절적 전략이 관련된 백 테트를 과장하는 것이 얼마나 쉬운지를 설명합니다. Backtest Overfitting Demonstration Tool (BODT)은 무작위 (예측할 수없는) 및 실제 주식 시장 데이터에 대한 최적의 전략을 찾아 내고, 투자자가 재판 횟수를 통제하지 않으면 백 샘플 내 샘플 데이터의 높은 Sharpe Ratio가 의미가 없음을 보여줍니다.
BODT는 BODT (프로그래밍 언어 Python으로 코딩 됨)의 핵심 인 최적화 모듈과 사용자와 최적화 모듈 사이에 다리를 제공하는 온라인 인터페이스 인 통신 모듈의 두 가지 모듈을 가지고 있습니다. 특히 온라인 인터페이스는 매개 변수 값을 수집 및 / 또는 설정하고이를 최적화 프로그램에 제공하며 최적화 프로그램의 결과를보고합니다. BODT는 다음 네 단계를 수행합니다.
데이터 가져 오기 및 매개 변수 설정. 여기에는 매개 변수 가져 오기 / 설정, 사용자가 선택한 실험 유형에 따라 S & P 500 실제 주식 시장 데이터 가져 오기 / 의사 무작위 데이터 생성이 포함됩니다. 의사 랜덤 실험을 선택한 경우 샘플 길이 (시간 수 또는 날짜 길이), 표준 편차 및 시드의 세 가지 매개 변수를 제공합니다. 이로부터 주식의 일일 종가는 평균 제로 가우스 분포로부터의 수익률를 이끌어 냄으로써 시뮬레이션됩니다. 실세계 실험을 선택한 경우, 데이터 값은 1962 년 1 월에서 2014 년 2 월 사이의 S & P 500 지수의 일일 종가입니다. 각각의 경우에 샘플 데이터는 두 세트로 똑같이 나뉘어집니다 : 샘플 내 (IS ) 데이터 세트 ( '교육 세트'라고도 함) 및 OOS (Out-of-Sample) 데이터 세트 ( '테스트 세트'라고도 함)를 제공합니다.
'최적의'전략 확보. BODT는 모든 투자 전략을 생성합니다. 투자 전략은 보유 기간, 중단 손실, 진입 일 및 측면 (네 가지 매개 변수의 모든 조합을 시도하여 무차별 강제 검색을 수행)의 네 가지 매개 변수를 연속적으로 조정하여 구성됩니다. 모든 전략은 IS 샘플 데이터에서 Sharpe Ratio를 계산하여 평가되며 SR 최적화 측면에서 최적의 거래 전략이 선택됩니다.
OOS 데이터에 대한 최적의 전략 평가. 위에서 얻은 '최적의'전략은 OOS 데이터에 적용되고 SR 통계가 계산됩니다. 특히 전략은 2 단계에서 설정된 IS를 통해 평가됩니다. 그런 다음 가장 실적이 좋은 전략을 탐색 한 후 OOS 세트를 통해 평가됩니다. OOS 집합은 전략 설계에 사용되지 않는다는 점에 유의하십시오. 백 테스트는 발생 된 실험의 수를 제어 한 후 IS 성능이 OOS 성능과 일치 할 때 현실적이라고합니다.
심상. BODT의 결과에는 세 개의 그림, 영화 및 수치 값의 요약이 포함됩니다. 그림 1과 그림 2와 유사한 온라인 도구의 처음 두 그래프는 IS 집합, 즉 백 테스트 및 OOS 데이터에 대한 결과를 보여줍니다. 이 두 그래프에서 황색 선은 기본 시계열이고 파란색 선은 전략의 성능을 보여줍니다. 대부분의 경우 오른쪽 그래프의 SR (즉, OOS 데이터의 최종 전략)은 음수이거나 최종 왼쪽 그래프의 SR보다 훨씬 낮습니다 (즉, IS 데이터의 최종 전략) , 그 전략이 IS 데이터에 지나치게 적합하다는 것을 증명한다.
그림 03은 시행 횟수 값이 파란색 선으로 변경된 경우 고급 DSR (Deflated Sharpe Ratio) 통계의 값을 보여줍니다. 벤치 마크 설정 (skewness : -3 및 kurtosis : 10)의 경우 빨간색 선으로 표시되어 비대칭 및 첨도 값이 변경된 경우에만 다른 동작에 대한 아이디어를 제공합니다. 마지막으로 테이블 01과 유사한 테이블에 일련의 숫자 값을 출력합니다. 여기에는 SR 및 DSR 통계 값뿐만 아니라 사용 된 매개 변수도 포함됩니다.
도표 03 : "시험의 수에 관하여 DSR 변화"
BODT의 실행 시간은 일반적으로 2 분 미만입니다. 최대 유지 기간, 정지 손실 및 샘플 길이에 대한 값은 프로그램에서 수행하는 반복 횟수에 큰 영향을줍니다. 이 값이 클수록 프로그램 실행 시간이 길어집니다. BODT는 일반인에게 무료로 제공되며이 기사 마지막 부분의 하이퍼 링크를 통해 액세스 할 수 있습니다.
더 자세한 설명과 튜토리얼도 제공됩니다.
매개 변수.
표 02는 BODT의 매개 변수를 보여줍니다. 사용자는 '& # 9679;'로 표시된 매개 변수 중 일부를 제어 할 수 없습니다. '고정 값'열에; 이 매개 변수의 경우 BODT는 '기본값'열에 표시된대로 기본값을 사용합니다. 사용자가 값을 입력하지 않거나 허용 범위를 벗어나는 값을 입력하면 기본값이 사용됩니다. 이러한 가능한 범위의 이유는 수행 된 시행 횟수 (또는 최적화 반복 횟수)의 상한선을 배치하기 위해서입니다. 그러한 한도가 분석과 관련하여 일반성의 상실을 의미하지는 않습니다. 반대로 상대적으로 적은 수의 반복에도 오버 피팅이 상당히 높은 성능 (샘플 내)을 제공 할 수 있음을 보여줍니다. BODT의 매개 변수는 다음과 같습니다.
최대 보유 기간 : 주식이 청산 (매각)되기 전에 보유 할 수있는 일 수. 그것은 거래 일수로 주어집니다. BODT는 모든 정수 값을 사용자가 지정한 최대 값보다 작거나 같게합니다.
최대 정지 손실 : 포지션 청산 (폐쇄)되기 전에 손실 될 수있는 투자 자본의 비율. BODT는 정수가 사용자가 지정한 최대 값까지만 시도합니다.
샘플 길이 : 샘플에서 사용 된 관측 수.
표준 편차 : 일별 가격을 생성하는 데 사용되는 임의 회수의 표준 편차.
시드 : 임의의 리턴을 생성하는 데 사용되는 의사 난수에 대한 시드입니다.
참가 일 : 각 거래 월에 시장에 진입하는 날. 매매 거래 월은 22 입국 일로 추정됩니다. 모든 22 가지 가능성이 BODT에 의해 시도됩니다.
측면 : 주식 가격이 올라갈 때 이익을 창출하는 것, 또는 짧게 만드는 것 중 어느 쪽인지 오래 유지되는 포지션의 측면.
주가가 떨어지면 이익을 얻는다. 두 옵션 모두 BODT에 의해 평가됩니다.
4 가지 유형의 실험.
오버 피팅의 영향을 연구하기 위해 BODT는 아래에 설명 된 네 가지 유형의 실험을 수행합니다. 처음 세 개는 표준 편차 및 표 2에 주어진 시드 값 / 범위와 함께 가우스 분포로부터 무작위로 생성 된 데이터 (일일 마감 가격)를 기반으로합니다. 마지막 실험은 S & P 500 데이터를 기반으로합니다.
실험 1 : 특정 예제 복제.
첫 번째 실험은 그림 01과 02의 두 개의 플롯과 관련된 특정 예제를 복제합니다 (동일한 플롯이 BODT의 웹 페이지에도 표시됩니다). 따라서 사용자는 매개 변수에 대해 사전 설정된 값을 호출하여이 실험을 복제 할 수 있습니다.
실험 2 : 임의로 매개 변수 생성.
두 번째 실험에서는 각 매개 변수에 허용 된 범위에서 무작위로 생성 된 정수 매개 변수를 사용합니다.
실험 3 : 사용자 정의 매개 변수 값.
세 번째 실험에서는 매개 변수를 입력하라는 메시지가 표시됩니다. 사용자는 표 02의 처음 5 개 매개 변수에 대해 지정된 범위의 값을 입력 할 수 있습니다. 매개 변수가 공백으로 남겨지면 BODT에 의해 실행 가능한 범위에서 임의의 값이 생성됩니다. 이 실험에서 사용자는 표준 편차와 시드 값을 선택하여 데이터 생성에 영향을 줄 수 있습니다.
실험 4 : 실제 주식 시장 데이터 사용.
네 번째 실험에서는 사용자가 실제 금융 데이터, 즉 S & P 500 주식 시장 데이터에 대한 매개 변수를 입력하도록 요청합니다. 이 데이터는 일일 종가가 1962 년 1 월에서 2014 년 2 월 사이에 취해진 값입니다. 이 지수에 대한 우리의 선호는 벤치 마크 및 금융 도구. 표준 편차는 데이터에 의해 암시되며 시드 매개 변수는이 실험과 관련이 없습니다. S & amp; P 500 Index 데이터의 크기로 인해 매개 변수 샘플 길이의 범위가 변경되었습니다.
재능 제작자 시뮬레이션 도구.
위의 섹션에서는 계절 전략이 포함 된 백 테스팅에 너무 쉽게 적응하는 방법을 보여줍니다. 그러나 다른 유형의 전략은 어떻습니까? 학문적 계량 경제 학적 방법이나 통계 방법에 기초한 전략이 너무 과장되기 쉬운가요? 불행히도, 이러한 의사 - 수학적 투자가 과도하게 적용되기가 쉽습니다. Tenure Maker Simulation Tool (TMST)은 예측할 수없는 무작위 시계열의 예상 전력 (샘플 내)을 최대화하는 계량 경제 지표를 찾습니다. 결과 샤프 비율은 '계절'카운터 파트보다 훨씬 높은 경향이 있습니다. 그 의미는 엄격한 학술지에 발표 된 대부분의 과학적 전략이 과장 될 가능성이 높다는 것입니다. 이 간행물은 강사가 근속 기간을받는 기초이므로 도구의 이름입니다.
Tenure Maker Simulation Tool의 핵심 인 BODT는 프로그래밍 언어 Python (최적화 모듈)으로 코딩 된 최적화 프로그램으로, 온라인 인터페이스 (통신 모듈)를 통해 사용자에게 전달됩니다. 온라인 인터페이스는 매개 변수 값을 수집 및 / 또는 설정하고이를 최적화 프로그램에 제공하며 최적화 프로그램의 결과를보고합니다. BODT와 마찬가지로 TMST는 무료 도구입니다. 자세한 내용은 웹에 문서화되어 있습니다. 관심있는 독자는이 기사 끝 부분의 하이퍼 링크 섹션을 참조 할 수 있습니다.
TMST는 다음 네 단계를 수행합니다.
생성 반환. 일련의 IID (독립적으로 동일하게 분산 된) 정상 수익률이 생성됩니다. 이 샘플 데이터는 샘플 내 (IS) 세트로 간주됩니다.
시계열 모델 생성. 일련의 시계열 모델이 생성되며, 이 시리즈는 동일한 시리즈의 과거 실현의 일부로 예측됩니다. 예측 시리즈는 OOS (Out-Of-Sample) 세트로 간주됩니다. 시계열 모델에는 다음이 포함됩니다.
&황소; 과거 시리즈의 롤링 합계;
&황소; 과거 시리즈의 다항식;
&황소; 과거 시리즈의 지체; 과.
&황소; 위의 교차 제품.
전략 평가. 순방향 선택 알고리즘은 SR을 최적화하는 측면에서 생성 된 전략을 평가하고 개선 된 모델을 선택합니다.
심상. TMST는 그림 04와 그림 05에 표시된 두 개의 그래프를 출력합니다. 그림 04는 백 테스트 (backtest), 즉 '최적'전략을 얻는 방법을 보여줍니다. 이 그래프에서 파란색 선은 거래 전략 행태를 나타내고 노란색 선은 시장 행태를 나타냅니다. 그림 05는 연간 Sharpe Ratio (aSR)의 '인플레이션'진행 상황을 보여줍니다.
그림 04 : 고도로 최적화 된 Sharpe Ratio의 예.
프로그램이 지속적으로 최적화됨에 따라 그림 04의 파란색 선은 프로그램이 과거 데이터에 적합함에 따라 시간이 지남에 따라 더 많은 수익을 얻습니다. 몇 초 또는 몇 분 만에 프로그램은 입력 데이터 세트를 기반으로 매우 높은 Sharpe Ratio를 가진 매우 수익성있는 주식 곡선으로 보이는 것을 만듭니다. 사실, 우리는 건설을 통해 불가능한 과거 실현을 사용하여 시리즈의 미래 실현을 예측하고 있습니다. Sharpe Ratio는 일반적인 거래 규정에 기반한 계절적 대응보다 훨씬 더 부풀려 있습니다. 이것은 계량 경제 학적 규격이 매우 유연하여 많은 수의 독립적 인 재판을 생성하는 것이 더 쉬운 이유 중 하나입니다.
TMST에는 6 개의 매개 변수가 있습니다. 이 매개 변수 중 5 개는 사용자가 사용할 수 없습니다 (표 3의 '고정 값'열에 ''로 표시). 이 매개 변수의 경우 TMST는 '기본값'열에 표시된대로 미리 지정한 값을 설정합니다.
여섯 가지 매개 변수는 다음과 같습니다.
샘플 길이 : 생성 된 관측 수 (IID 반환).
너비 : 롤 합계 회귀 모델에서 되돌림 기간으로 사용되는 샘플 길이입니다.
Polynomial degree : 다항식 회귀 모델에서 사용 된 다항식 적합도입니다.
지체 횟수 : 지체 회귀 모형에 포함 된 지체 된 변수의 수입니다.
교차 제품 수 : 교차 제품 회귀 변수의 크기.
최대 계산 시간 : 이것은 사용자가 사용할 수있는 하나의 매개 변수입니다. 최적화 모듈이 전략을 생성 할 수있는 총 계산 시간을 초 단위로 나타냅니다. 범위는 30-900 초이며 기본값은 90 초입니다. 정수 값만 허용됩니다. 또한 사용자가이 매개 변수의 값을 입력하지 않거나 값이 지정된 범위를 벗어나면 기본값이 사용됩니다.
도표 05 : 연례 Sharpe 비율에있는 Infation.
다음 두 가지 옵션을 사용할 수 있습니다.
실험 1 : 전체.
모든 전략이 생성되면 프로그램이 중지되며 최대 10 분이 소요될 수 있습니다.
실험 2 : 제한적.
사용자는 최대 계산 시간을 설정하여 (최적화 모듈에서) 전략 생성을 제한합니다.
결론.
금융 연구는 주어진 데이터 세트에서 많은 수의 대체 투자 전략을 시뮬레이션하기 위해 컴퓨터 기술에 점점 더 의존하고 있습니다. 이 접근법의 한 가지 문제점은 표준 Neyman-Pearson 가설 테스트 프레임 워크가 개별 실험을 위해 설계되었다는 점입니다. 즉, 여러 시도가 시도 될 때, 유의 수준 (즉, 위양성의 확률)은 연구자가 설정 한 값보다 높습니다.
학술 자료 및 투자 제안서는 특정 발견에 관련된 시험의 횟수를 거의 공개하지 않습니다. 결과적으로 많은 발표 된 연구 결과가 단지 통계적으로 우연한 것일 가능성이 높습니다. 실질적인 의미는 투자자들이 관련성이없는 발견, 금융 이론 또는 투자 상품에 자본을 할당하는 데 유인되고 있다는 것입니다.
Backtest Overfitting Demonstration Tool (BODT)과 Tenure Maker Simulation Tool (TMST)은 우리가 알기로는 재정 투자 전략과 의사 결정이 실제로 어떻게 영향을 미치는지를 보여주는 최초의 과학적 소프트웨어입니다. 특히, 샘플 내 데이터를 백 테스트하여 최적의 전략을 확인한 결과 샘플 밖의 데이터에 적용 할 때 실망스러운 결과를 낳을 수 있습니다. BODT와 TMST의 주요 목표는 재무 연구 세계에서 역 테지 오버 피팅 문제에 대한 인식을 제고하는 것입니다.
회사를 AlgoWorld에 추가하십시오.
인기 품목.
저작권 및 사본; 자동화 된 상인 회사 2017 - 전략 | 규정 준수 | 과학 기술.

양적 거래.
양적 투자 및 거래 아이디어, 연구 및 분석.
2017 년 11 월 17 일 금요일.
지나치게 맞추지 않고 거래 전략 최적화.
우리는 우리가 원했던만큼 많은 가격 시리즈 (모두 동일한 ARMA 프로세스를 따르는)를 시뮬레이션 할 수 있습니다. 이는 우리가 원하는만큼 많은 거래를 시뮬레이션 할 수 있고 우리가 원하는만큼 높은 정밀도로 최적의 거래 매개 변수를 얻을 수 있음을 의미합니다. 이는 분석 솔루션만큼이나 우수합니다. (이 절차를 설명하는 아래의 흐름도 참조 - 확대하려면 클릭하십시오.)
흥미롭게도 최적의 K의 모드는 0입니다. 그것은 확실히 간단한 거래 전략을 만듭니다. 예상되는 로그 수익이 양수이고, 반대로 반바지 일 때마다 구매하십시오. CAGR은 거래 비용이 0이고 중간 가격으로 처형 될 경우 약 4.5 %입니다. 누적 수익률 곡선은 다음과 같습니다.
필자 소개 Ernest Chan은 QTS Capital Management, LLC의 관리 멤버이다. Ray Ng는 QTS의 양적 전략가입니다. 그는 박사 학위를 받았다. McMaster 대학의 이론적 응축 물질 물리학에서
Ernie Chan 박사의 워크샵 예정.
나는 런던의 CQF와 CQF에서 널리 인정받는 코스를 가르친 유명한 크립 독성 상인이자 펀드 매니저 인 Nick Kirk의 온라인 워크숍을 진행할 것입니다.
이 온라인 코스는 일일 및 포트폴리오 옵션 전략에 대한 백 테스팅에 중점을 둡니다. 차익 거래에 중점을두기 때문에 성가신 옵션 가격 이론은 논의되지 않을 것입니다.
12 댓글 :
이 게시물에 Matlab을 포함시킬 수 있습니까?
재미있는 게시물. 이것은 기본적으로 포트폴리오 리샘플링과 동일한 것으로 보이지만 포트폴리오 최적화 대신 거래에 적용됩니다.
Ernestepchan의 소스 코드에 오신 것을 환영합니다.
리샘플링은 실제 과거 데이터를 사용하여 더 많은 기록 데이터를 생성한다는 의미이므로 실제로 리샘플링하는 것은 아닙니다. 여기에서는 과거 데이터를 설명하는 모델을 사용하여 더 많은 기록 데이터를 생성합니다.
아주 좋은 생각이야. 오버 피팅은 실제로 전략 개발에 큰 문제입니다. 이를 사용하는 데 발생할 수있는 잠재적 인 문제는 가격 / 물량 프로세스의 기본 모델을 얼마나 잘 모델링 할 수 있는지입니다. 어떤 신호가 종속되어 있는지에 따라 프로세스가 패턴을 나타내지 않거나 시장에서 평균적으로 실현 된 결과가 다를 수 있습니다.
- 몇 가지 유사성 척도에 의해 주식을 집단으로 묶어 라.
- 각 그룹 내에서 그룹 내 주식의 결합 된 역사에 대한 신호를 평가하십시오.
예, 이 접근법에 대한 몇 가지 매우 유효한 제한 사항을 지적했습니다.
주식 전략에 관한 문제에 어떻게 접근했는지 설명해 주셔서 감사합니다! 그것은 그 맥락에서 의미가 있습니다.
어니 아마도 당신이 생각하는 것보다 더 비슷합니다. Michaud 리샘플링에서 모델을 추정하고 있습니다. 암묵적으로 자산이 다변량 정규 오차 (매개 변수 mu 및 sigma를 평균 및 공분산)로 무작위로 걷는 것으로 가정합니다. 그런 다음 더 많은 음악과 시그마를 리샘플링하고, 각각에 대한 포트폴리오를 최적화 한 다음 최종 포트폴리오 가중치를 평균화합니다.
존, 지금은 유사점을 볼 수 있습니다 - 감사합니다.
아주 재미있는 기사 어니. 몇 가지 질문과 의견이 있습니다.
1) 이론적으로는 가능하지만 시계열 모델이 기본 가격에 적합하지 않은 경우가 종종 있음을 나타냅니다. 우리가 잘 맞는지를 확인하고 여전히 나쁜 백 테스트 성능을 제공한다면 전략을 거부 할 것입니다. 실제로는 아직 발생하지 않았습니다.

양적 거래.
양적 투자 및 거래 아이디어, 연구 및 분석.
2017 년 11 월 17 일 금요일.
지나치게 맞추지 않고 거래 전략 최적화.
우리는 우리가 원했던만큼 많은 가격 시리즈 (모두 동일한 ARMA 프로세스를 따르는)를 시뮬레이션 할 수 있습니다. 이는 우리가 원하는만큼 많은 거래를 시뮬레이션 할 수 있고 우리가 원하는만큼 높은 정밀도로 최적의 거래 매개 변수를 얻을 수 있음을 의미합니다. 이는 분석 솔루션만큼이나 우수합니다. (이 절차를 설명하는 아래의 흐름도 참조 - 확대하려면 클릭하십시오.)
흥미롭게도 최적의 K의 모드는 0입니다. 그것은 확실히 간단한 거래 전략을 만듭니다. 예상되는 로그 수익이 양수이고, 반대로 반바지 일 때마다 구매하십시오. CAGR은 트랜잭션 비용이 0이고 중간 가격이 책정 된 경우 약 4.5 %입니다. 누적 수익률 곡선은 다음과 같습니다.
필자 소개 Ernest Chan은 QTS Capital Management, LLC의 관리 멤버이다. Ray Ng는 QTS의 양적 전략가입니다. 그는 박사 학위를 받았다. McMaster 대학의 이론적 응축 물질 물리학에서
Ernie Chan 박사의 워크샵 예정.
나는 런던의 CQF와 CQF에서 널리 인정받는 코스를 가르친 유명한 크립 독성 상인이자 펀드 매니저 인 Nick Kirk의 온라인 워크숍을 진행할 것입니다.
이 온라인 코스는 일일 및 포트폴리오 옵션 전략에 대한 백 테스팅에 중점을 둡니다. 차익 거래에 중점을두기 때문에 성가신 옵션 가격 이론은 논의되지 않을 것입니다.
목요일, 2017 년 9 월 7 일.
StockTwits 감정 분석.
콜튼 스미스.
이 블로그 게시물은 NLP를 사용한 모든 트윗의 사용 대 라벨 된 트윗의 사용을 비교합니다. 우선 데이터의 성격을 더 잘 이해하기 위해 몇 가지 기본 데이터 분석을 수행했습니다. 아래의 그림 2에는 시간당 레이블이 표시된 트윗의 수가 표시됩니다. 예상대로 시장 개방 및 폐쇄에 대한 스파이크가 있습니다.
매일 시장 전망은 낙관적이고 약세 라벨 트윗의 수를 합산하여 추정 할 수 있습니다. 이전 문헌을 토대로, 나는 상당한 완고함을 예상했다. 이는 그림 3에서 낙천 짹짹의 일일 평균 퍼센트가 79 % 인 것으로 확인되었습니다.
StockTwits 트윗을 작성할 때 사용자는 여러 기호에 태그를 지정할 수 있으므로 감정 레이블이 둘 이상의 기호에 적용될 수 있습니다. 하나 이상의 심볼에 태그를 지정하면 특정 감정 및 예측 가능성이 낮아 지므로 대부분의 트윗은 단일 심볼에만 태그를 붙였습니다. 아래 그림 4를 보면 트윗의 90 % 이상이 단일 심볼에 태그를 지정하고 매우 작은 퍼센트의 태그 5+ 만 태그를 지정합니다.
분석에 사용 된 데이터의 기간은 2012-11-01부터 2016-12-31까지입니다. 아래의 그림 5에서 총 꼬리표 수에 의한 상위 기호, 업종 및 섹터가 표시됩니다. 업계에서 가장 트위트 된 분야는 생명 공학 및 ETF입니다. 이것은 소셜 미디어 감정 데이터를 기반으로 거래하는 것이 최선일 것이라는 희망을 의미하는 이러한 업계의 변동성 때문에 의미가 있습니다.
이제는 데이터의 예측 가능성을 가장 잘 감찰하기 위해 정서 점수를 어떻게 만들지 결정해야했습니다. 미끄러짐, 유동성 및 거래 비용을 포함한 공개 전략과의 긴밀한 거래에 장애가 있지만, 시장 개방 직전의 정서 점수가 가까운 수익률을 예측할 때 얼마나 좋은가를 분석하는 것이 더 큰 규모의 요인 모델. 각 일의 정서 점수는 이전 시장 시일부터 현재 일까지의 트윗을 사용하여 계산되었습니다 :
250 종목의 실적은 아래 그림 6에서 볼 수 있습니다 (차트를 클릭하면 확대됩니다).
임계 값은 2.11 Sharpe Ratio의 가능성을 보여주기 위해 체리 선택되었지만 결과는 사용 된 임계 값에 따라 다릅니다. 이 민감도는 대부분의 기호에서 트윗 볼륨이 부족하기 때문일 수 있습니다. 또한, 각 구간마다 거의 같은 수의 주식을 유지하려는 시도에서 길고 짧은 임계 값이 동일하지 않습니다. 중립 바구니에는 길거나 짧은 신호를 생성 할만큼 극단적 인 S-Score가없는 우주의 모든 주식이 포함되어 있습니다. 위와 동일한 기준 액을 사용하여 50 일 평균 달러 물량의 상위 4 분의 1로 정의 된 유동성 우주에서 테스트를 수행했습니다. 아래 그림 7에서 볼 수 있듯이 Sharpe는 1.24로 떨어지지 만 여전히 매우 고무적입니다.
이러한 결과의 민감도는 별도의 열차 및 테스트 세트에 대한 분석을 수행하여 추가 검사를 받아야하지만 표시된 StockTwits 데이터로 인해 잠재적으로 생성 될 수있는 수익에 매우 만족했습니다.
장기간의 쇼트가 인상적인 4.5 Sharpe 비율을 자랑하기 때문에 예측력이 있습니다. 더 많은 데이터가 있기 때문에, 결과는 장기간에 걸친 포트폴리오 구축에 훨씬 덜 민감합니다. 긴밀한 개방 전략의 높은 매출액을 피하기 위해 우리는 가능한 장기 전략을 모색 해 왔습니다. Deutsche Bank의 Quantitative Research Team은 최근 장기 전략을 포함하여 SMA 데이터만을 사용하는 전략에 대한 논문을 발표했습니다. 또한 최근에 나는 주간 정서적 모멘텀을 포착하려고하는 강력한 매주 리 밸런싱 전략을 개발했습니다.
콜턴 스미스 (Colton Smith)는 워싱턴 대학교 (University of Washington)에서 산업 및 시스템 공학을 전공하고 응용 수학 (Applied Math)을 담당했습니다. 현재 시카고에 살고 있으며 Social Market Analytics에서 일하고 있습니다. 그는 데이터 과학에 대한 열정을 갖고 있으며 양적 금융 경력을 발전시키는 데 큰 기대를 걸고 있습니다. LinkedIn : linkedin / in / coltonfsmith /
2017 년 7 월 21 일 금요일
내부자 거래 데이터베이스 구축 및 미래 주식 반환 예측.
scriptmaker는 사용자가 백 테스팅을위한 주문 도서 데이터를 기록 할 수있게합니다. Pair Trading Lab은 쌍 전략의 쉬운 백 테스팅을위한 웹 기반 플랫폼을 제공합니다.
목요일, 2017 년 5 월 4 일
역설적 인 해결 : 위험이 기대되는 로그 수익을 감소시키는 이유는 무엇입니까?
2017 년 3 월 3 일 금요일.
더 많은 데이터 또는 적은 예측 자 : 어느 것이 과승을 위해 더 나은 치료법입니까?
다음으로 N (= 630,000) 개의 데이터 포인트를 무작위로 선택하여 교체하여 새로운 학습 세트 ( "가방")를 만들고이 K (= 100) 회 반복하여 K 가방을 만듭니다. 각 가방에 대해 새로운 회귀 모델을 학습합니다. 마지막으로, 우리는 공식 예측 수익으로 사용될 이러한 K 모델의 예상 수익률을 평균합니다. 이로 인해 Sharpe 비율은 변경되지 않고 CAGR이 15.1 %로 약간 개선되었습니다.
2016 년 11 월 16 일 수요일
사전 수입 공고 전략.
2) t-4 일부터 t-2 일까지의 사전 발표 수익을 계산합니다 (거래 일 수 계산).
3) 발표 전 수익에서 동일한 수익 추정 기간 동안 시장 수익률을 차감하고이 시장 조정 수익률을 PAR이라고 부릅니다.
4) 가장 좋은 PAR을 가진 18 개 종목을 골라 내고 t-1 종목 시장을 마감 (t 달러 +1)하고 t + 1 종가에서 종가를 청산한다. 최악의 PAR로 18 종목을 선택하고 그 반대의 경우를 수행하십시오. 시장 인덱스 ETF 또는 미래를 통해 모든 순 노출을 헤지합니다.
2) 또한 동일한 시장 종가에서 예상 발표일의 최종 변경 이후 달력 일수 인 델타 U를 계산합니다.
3) delta < 0이고 δU < 45, 가까운 시장에서 주식을 매수하고 다음날 시장 개방을 청산. ΔD & gt; 0 및 δU> = 45 인 경우, 반대가된다.
흥미롭게도, 이 전략의 시장 중립적 인 버전 (모든 순 노출량을 헤지하기 위해 IWV 사용)은 샤프 비율을 향상시키지 않지만 CAGR을 상당히 저하시킵니다.
2016 년 9 월 28 일 수요일
정말로 저주파 데이터에주의하십시오.
문제는 사실상 모든 무역에서 돈을 잃을뿐만 아니라 무역이 거의 일어나지 않았다는 것을 알 수 있습니다. 일일 EOD 데이터가 거래가 시작되어야 함을 시사하면 1 분 바 BBO 데이터는 사실 평균에서 벗어난 것이 없음을 알려줍니다.
* 참고 : etf에 따르면 "발행자 [of DNO]는 SEC에 새로운 서류 작성을 기다리는 중으로 2016 년 3 월 22 일이 펀드의 생성을 일시적으로 중지했으며이 조치로 인해 비정상적이거나 과도한 보험료가 발생할 수 있습니다 of the market price of the fund relative to its fair value. Redemptions are not affected. Trade with care; check iNAV vs. price." For an explanation of "creation" of ETF units, see my article "Things You Don't Want to Know about ETFs and ETNs".
Quantiacs just recently registered as a CTA and operates a marketplace for trading algorithms that anyone can contribute. They also published an educational blog post for Python and Matlab backtesters: quantiacs/Blog/Intro-to-Algorithmic-Trading-with-Heikin-Ashi. aspx I will be moderating a panel discussion on "How can funds leverage non-traditional data sources to drive investment returns?" at Quant World Canada in Toronto, November 10, 2016.
October 22 and 29, Saturdays, Quantitative Momentum Strategies online workshops. Momentum strategies are for those who want to benefit from tail events. I will discuss the fundamental reasons for the existence of momentum in various markets, as well as specific momentum strategies that hold positions from hours to days.

No comments:

Post a Comment