2016년 1월 29일 금요일

통계적으로 유의차 없다는 말의 진정한 의도는?

2024-04-17-수 수정

회사 다닐 때 6시그마(섹스 색마) 때문에 짜증 났던 일이 기억난다. 취지는 참 좋다. 좌우 3시그마(표준편차) 폭이면 99%가 아니라 99.7%의 신뢰성이 있으니 좋겠지. 이렇게 되면 백분율이 아니라 천분율이다. 좌우 6시그마는 0.999999998%이다. 그런데 비현실적이다. 이미 기계는 마이크로미터 수준으로 가공이 되고 있단 말이지. 더 어떻게 하란 말이지? (한국에선 가방끈 짧고 돈 못 벌면 불평도 못 하지? 참으로 변태적 논리다. 시비를 가리는데 가방끈이나 소득은 왜 따지나?)

왜 이 짓을 할까 고민해 봤다. 기계화 되어 인력이 남아돌고 할 일 없기 때문에? 사람 자르기 위해서 괴롭히는 것인가? 아니면 특정 학교의 특정 분야 출신을 승진 시키기 위해서? 한국은 민주국가도 아니고 능력주의 국가도 아닌 세습국가(지역, 혈연, 학연)라고 하니 충분히 그럴 수도 있지. (나 때문에 고생한 사람들에게 미안하다.) 생산라인이 기계화 되었을 때 이미 6시그마는 달성한 것 아냐? 지금 누가 손으로 물건 만드니? 기계가 정밀하게 만들고 있잖아?

이제 자본주의, 무한경쟁 피곤하다. 그냥 좀 편하게 살고 싶다. 공산주의와 자본주의를 50% 섞거나 복지국가로 가자. 도대체 한국 놈들은 사는 목적이 뭐냐? 빽 없는 애들도 좀 살게 하자. 우린 결국 늙어 죽어! 돈 얼마 벌지도 못 하면서 왜 그렇게 사니? 부자 되겠다는 것은 로또 복권 당첨되겠다는 것만큼 환상이다. 투기로 돈을 버는 것은 경제에 아무 도움 안 되는 도박이다. 사회에 도움 되는 일을 하고 돈을 벌어라.

통계학을 제외하고 6시그마를 얘기하면 그냥 단순하게 오차(산포, 편차 등)를 줄이자 외엔 할 말이 없다. 결국 통계학을 써야 뭔가 폼이 나는데 이게 이해하기 쉽지 않다. PC용 통계 소프트웨어 MiniTab이란 것이 있다. 이걸 사용해도 결과를 볼 줄 알아야 하지 않겠나? 통계학 지식이 있다면 Excel로도 할 수 있다. 여러 함수를 조합해서 계산하면 된다. 그런데 그 정도 지식이 있을 리가 없잖아?




그래서 좀 더 간단하게 직관적으로 문제를 이해하도록 하자. 고등학교 수학 복습하는 거다. 우리가 한국인 신장을 조사했다고 하자. 인구가 약 1만 명이라고 하자. 이게 모집단이다. 남자는 평균이 173cm, 여자는 평균이 160cm이고, 남자는 최소가 약 160cm, 여자는 최소가 약 150cm로 잡았다. 신장과 체중은 정규분포를 따른다. (이건 실제 한국 청소년 신장 데이터와 거의 비슷하다. 남녀의 평균 키 차이는 13cm이고 이게 10cm 킬 힐의 차이다.)

그런데 모집단(전체 인구)에 대한 정보를 정확히 알 수는 없다. 이건 국민 전부를 조사하겠다는 것인데 그건 불가능하고 비효율적이다. 그래서 몇 명만 뽑아 조사할 수 있는데 이게 샘플(Sample)이다. 그럼 이 몇 명의 평균과 분포는 모집단의 것과 얼마나 비슷할까? 여기서 통계학이 필요한 것이다. 상세한 계산법은 몰라도 결과는 대충 이해할 수 있어야 한다.





만약 그 샘플 몇 개가 작은 쪽에서 뽑은 것이라면? 반대로 큰 쪽에서 뽑은 것이라면? 샘플이 1개라면 평균은 샘플의 값 그 자체니까 모집단과 같은 정규 분포를 보인다. 고로 모집단의 평균을 알 수 없다. 샘플을 모집단의 수인 1만개로 할 경우 (전부 조사한 경우) 정확하게 평균을 알 수 있다. 샘플이 10, 50, 100으로 많아지면 평균의 분포는 모집단의 평균에 점차 접근해 갈 것이다. 샘플이 많다면 그 평균의 신뢰도는 높아진다. 이렇게 평균이 존재할 구간을 수학적으로 구할 수가 있다. 그렇게 구한 추정 구간의 중간이 평균이라고 오해 하면 안 된다. 그 구간 안에 평균이 있을 것이란 추측이다. 그 값에서 ±얼마 구간 안에 있을 확률이 90%, 95%, 99%라는 식이다.

또 이 데이터가 남녀의 신장 차이가 아니라 고대인과 현대인의 신장 차이라고 하자. 그럼 여기서 고대인, 현대인 몇 명의 샘플을 취해서 비교해 보고 신장이 커졌다고 할 수 있을까? (품질이 향상되었다고 할 수 있을까?) 만약 재수 없게 현대인 중에 160cm 근처 몇 명과 고대인 중에 170cm 근처의 몇 명을 취했다면 판단은 반대로 뒤집어진다. (후보자의 인기도가 바뀐다. 그래서 적은 샘플을 조사한 여론 조사 선동을 믿으면 안 된다. 한국 언론은 한국 놈들처럼 믿을 수 없는 것들이다.)

한국 언론 대부분이 독재 잔당 지지 언론이다. 그 뿌리는 군부 독재를 거쳐 친일파로 거슬러 올라간다. 상류층, 부유층 30%가 친일파 후손이고 이들은 다른 상류층, 부유층과 결혼, 친구, 선후배로 엮여 있다. 친일파는 빨갱이와 원수지간이다. 빨갱이는 생각이 다른 사람이고 친일파는 매국노/반역자이다. 이들이 권력을 잡고 자신들을 비판하는 자들을 부당하게 괴롭힌다. 그럼 빨갱이는 있는가? 냉전 끝나고 전향을 해서 빨갱이는 멸종했다 생각해라.

모집단을 보면 분명 현대인이 고대인보다 더 커졌다. 현대인 중에서 가장 작은 사람이 고대인 중에서 가장 큰 사람보다 작긴 하지만 평균적으로 신장이 커졌다. 문제는 모집단을 모른다는 것이고 일부 샘플만 취해서 모집단을 추정해야 한다. 이 경우 두 집단의 추정 평균이 있을 구간이 서로 겹칠 경우는 판단이 애매모호하다. 그래서 신뢰도 90%, 95%, 99% 수준으로 두 구간이 구분 되는 경우 유의차(의미 있는 차이)가 있다고 한다. 다시 말 해서 확실한 경우만 차이가 있다고 하고, 그렇지 않은 경우는 함부로 말할 수 없다는 의미에서 “통계적으로 무의미하다”는 알쏭달쏭한 말을 한다. 통계적 분석의 신뢰도를 높이려면 샘플을 늘리라는 것이다. (상당히 무책임 하군. 그걸 누가 무슨 돈으로 언제 다 하냐고)



이번엔 반대로 모집단의 평균과 분포를 안다고 하자. 이제 샘플의 수와 관계없다. A, B, C 3개 부족의 신장이다. 여기서 어떤 한 사람의 신장만 보고 어느 부족인지 판단할 수 있을까? A와 B는 평균 차이도 크고 분포도 거의 겹치지 않아서 거의 다르다고 할 수 있다. B와 C는 거의 구분이 어려우니 두 집단이 거의 같다고 할 수 있다. A와 B는 모호하다. 모집단을 보면 집단 사이에 차이는 분명히 있으나 어느 한 물건을 보고 그게 어느 집단에 속하는지 판단할 수 없다. A조건의 물건은 C조건의 물건보다 낫다. B조건의 물건은 C조건의 물건과 별로 차이 없다. A와 B조건에서 생산한 물건은 그 차이가 애매모호하다. 

이게 말하는 것은 평균 향상보다는 먼저 분포(산포)를 줄여야 구분이 가능하고 판단이 명확하다는 것이다. 아무리 평균 향상이 있었어도 분포(산포)가 크면 무용지물이란 얘기다. 6시그마(섹스 색마)의 원래 취지는 이 분포를 줄이자는 것이다. 표적에 탄착군을 좁게 형성한 후에 오조준을 한다는 개념이다. 그런데 보통의 공학도는 그걸 넘어 평균 향상을 요구 당한다. 안개 속에서 활을 쏘아 맞추라는 얘기와 같다. 화살이 모이지도 않았는데 정확하게 맞추기까지 해야 한다.

누구도 열심히 일을 하려 하지 않는 것은 보상이 없고 책임만 맡기 때문이다. 그래서 서로 일을 떠밀며 면피를 하려고 한다. 조직에선 협력보다는 싸움만 구경한다. 이들의 행동은 경험에서 나온 것이다. 자리로 보상하지 말고 돈으로 보상하란 말이지. 자리로 보상할 경우는 항상 자리가 부족하잖니? 나머지는 집에 가야 하잖니? 관리자는 돌아가면서 하거나 투표로 뽑으란 말이지.

여기서 6시그마가 비현실적이라고 하는 것이다. 통계적으로 신뢰가 있으려면 10000개의 샘플을 조사해야 한다고 하자. 그 비용과 시간이 장난 아니다. 어떤 품질 Q가 어떤 원인 A, B, C와 모종의 관계가 있다고 하자. A, B, C를 각각 상중하로 조합하여 섞으면 실험의 수는 3*3*3 = 27개가 된다. 통계적 신뢰를 얻기 위해서 각 실험 조합에 10000개씩 만들어 본다고 하면 27만개의 샘플이 필요하다. 이 미친 짓을 할 사람이 있겠냐? 다구찌 기법인가 사용하면 좀 줄어든다고 하는데 그 방법 자체가 이해하기 어렵다. 여하튼 무식하게 만들어서 실험을 끝냈더니 넓은 분포(산포) 때문에 뭐가 뭔지 모르게 되었다면 곤란하다. 

그러니까 짧고 굵게 정밀한 실험 몇 번으로 끝을 내는 방법이 좋은데 그렇게 못 할 경우는 길고 가늘게, 시간과 비용을 소모하며, 여러 번의 실험을 하여 통계 처리를 해야 한다. 여하튼 통계학에서 말하는 것도 역시 지름길은 없다는 것이다. 품질, 비용, 시간 보존의 법칙(Q=C*D)을 어기려는 경영자는 지옥에 갈 것이다. 세상에 공짜는 없어.

물건이 작고 값이 싼 경우(예를 들어 나사?)는 샘플을 많이 만들 수 있겠지? 그런데 물건이 크고 비싼 경우(예를 들어 비행기, 배, 건물?)는 샘플 제작이 불가능하고 모형 제작과 시뮬레이션으로 대신한다. 각 부품의 통계 자료를 이용해서 조립된 물건의 분포를 계산할 수는 있다. 그러나 이런 짓도 한계가 있고 현실적으로 통계를 모든 곳에서 사용할 수 없다.

가장 골 때리는 경우가 애매모호한 경우로 시뮬레이션도 하고 샘플 제작도하는 (당연히 모형 제작은 필요 없지) 경우이다. 시뮬레이션과 실험의 격차를 깨닫게 되면서 샘플을 많이 만들 수도 없어 통계를 적용하기도 어려운 정말 묘한 경계이다. 더구나 생산 조건도 불안정하여 분포(산포)도 크다면? 적용되는 기술이 물리+화학+기계+전기+전자 등 복합적이라 복잡하다면?

통계는 단순한 부품에나 적용하세요. 나사도 자기 짝에 맞는 볼트와 너트를 찾아 줄 정도다.아무 볼트와 너트가 딱 맞는 게 아니다. 서로 안 들어가는 것도 있고, 꼽았는데 헐렁한 것도 있다. 모든 물건이 그렇게 만들어진다.



TV, 신문에 나오는 여론 조사는 믿지 마라. 제대로 된 통계가 아닌 선동용이다. 시간이 남아 돌아 집에서 전화 받는 노인, 주부에게만 물어본 결과다. 젊은 사람들은 일 하는 시간이라 여론 조사에 대답할 수 없잖아. 노인들은 독재 시대를 경험했기 때문에 물어도 솔직하게 대답하지 않는다. 겉으로는 항상 독재잔당지지한다고 대답한다. 그러니까 여론 조사를 해도 실제 투표 결과와 일치하지 않는 것이다. 지든 이기든 무조건 투표해라.

댓글 없음:

댓글 쓰기