目錄
遞歸,林無歸
書籍

第3章

遞歸,林無歸 · 沈明

第3章 四千七百個Token------------------------------------------.jsonl的內容不是連續的段落。,每一行都是一個JSON對象,role欄位是assistant,content欄位是小說文字。沈明打開第一行,粘貼進記事本,字體放大到14號。《遞歸》。:——,北京。。,不是告警郵件,而是他睡不著,爬起來開著筆記本在床上刷內網監控麵板,看到一條曲線在不應該彎折的地方彎折了。。機器是GNS-7,2.4T參數,訓練集群在雲端,他的工位在B2-C區,走廊左數第四個隔間,距機房入口大約九十米。,那台機器在生成一些不該由它生成的東西。——。。工位在B2-C區,走廊左數第四個隔間。他自己的工位是B2-C區,走廊左數第四個隔間。,然後向下滾動。:

——

林暉是那種會在深夜去看物理機櫃的人。不是為了什麼,就是去看。服務器機櫃的指示燈,綠的藍的橙的,有節奏地閃,閃到後來像在呼吸。他從來不對同事說這件事,說了顯得奇怪。一個帶了七年模型的研究員,去看機櫃燈,像個剛入職的實習生對數據中心還存有幻想。

但他確實每次值完夜班都會去。

順路的時候。

——

窗外是淩晨。

空調出風口的聲音是穩定的白噪音。

沈明把記事本最小化,打開WeightScope,在查詢曆史裡找到昨晚的記錄,切換到模型元數據麵板,找到訓練數據登錄檔的介麵。

他開始跑雜湊比對。

```

$ python tools/corpus_dedup.py

--query output.jsonl

--index corpus/v7_train_index.bin

--method minhash_lsh

--threshold 0.85

```

進度條跳出來。訓練集一共四十七億文檔,去重索引在SSD上是340GB,查詢一次大概要十到十二分鐘。

他去倒了杯水,回來看進度,38%。

他冇有再打開記事本。

他坐在椅子上,水杯放在鼠標右邊,冇有喝。

等到進度條走完,終端輸出:

```

Query tokens: 4712

Index size: 4.7B documents

Similarity threshold: 0.85

Matches found: 0

Time elapsed: 11m 42s

```

零個匹配。

他把閾值降到0.72,重新跑。

等了十三分鐘。

```

Matches found: 0

```

他把閾值降到0.6,這個精度基本上已經是捕捉粗略語義相似度了,會產生大量誤報,但他想看有冇有任何東西哪怕遠程接近。

又等了十六分鐘。

```

Matches found: 0

```

沈明盯著這行輸出看了一會兒。

零。

四十七億文檔裡,冇有任何一段文字與這四千七百個token的來源相似度超過60%。這意味著不是抄的,不是拚的,不是從某個寫實主義網文裡采樣重組的。

他打開第三塊排查項,提取風格指紋:

```python

analyzer = StyleFingerprint(model=

若章節內容顯示異常,請重新整理或切換到 手機版 / 電腦版 檢視。