注意,,這里講的是所有視頻平臺的原理,不僅僅限于抖音,,抖音可能使用了其中幾種,不是全部)
A,、初級的檢測:MD5檢測機制
所有的文件都有自己的MD5,,互相不重復,一個視頻初次上傳到抖音(其他平臺也一樣的),,系統(tǒng)會自動讀取這個視頻的MD5值,,錄入自己的數(shù)據庫。
一個視頻(如果不能確定是不是第一次)上傳到抖音時,,系統(tǒng)會讀取這個視頻的MD5值和數(shù)據庫中已有的條目比對,。如果發(fā)現(xiàn)了一致的MD5,判定后面這個視頻是抄襲,沒有一致的結果,,接著進行下面的判定,。
B、進階檢測:關鍵幀抽取比對
所有的視頻都是一張一張的圖片快速播放形成的,,每一張圖都稱一幀,。一個視頻初次上傳到某個平臺系統(tǒng)會自動讀取這個視頻的某些時間幀(即第幾秒的畫面)。
然后將該畫面經過算法處理,,拿到一個該畫面的MD5值(或者類似的值)將此值與當前時間對應的關系存入數(shù)據庫,。
(例如:該視頻第3秒是一只狗,,第6秒是這只狗和他的主人)一個視頻(如果不能確定是不是第一次)上傳到平臺時,,系統(tǒng)會讀取這個視頻的時間幀,和數(shù)據庫內已有數(shù)據進行對比如果發(fā)現(xiàn)了一致的時間幀,,判定后面這個視頻是抄襲,;
沒有一致的結果,接著進行下面的判定,。
C,、骨灰級檢測:人工智能算法
在上面的檢測方法的基礎上,進一步分析某些時間幀的特征,,比如把AB兩個視頻的第9秒這一幀取出來對比,,兩個圖按照一樣的方式平均分割成9塊,其中8塊都是相同或者相似的內容,,只有一塊不同,,這塊很可能是個水印,;
接著比對多個時間幀,,如果都是如此,判定這兩個視頻為相似,,平臺算法設定相似度超過xx即為抄襲,。
這里只是舉了一個人工智能算法里低級的算法,更復雜的一兩句說不清,,也沒必要知道,。
還想了解更多關于抖音短視頻的朋友可以添加我的微信,我會把我這幾年做抖音的經驗分享給你,。
?。摹⑵渌麢z測方法:人肉舉報
抖音里就有這個功能,,可以舉報當前視頻是抄襲,,平臺算法設定超過XX人舉報時,,會把這個視頻提交到人工審核組進一步判定。
如何來做偽原創(chuàng)內容呢,?
A,、手段:軟件改MD5即可。
除此以外,,一個視頻加加水印去水印加濾鏡打馬賽克鏡像反轉加字幕添加幀刪除幀等都會改變原來的MD5,,修改視頻文件名不會影響MD5。
B手段:改變時間幀,。
比如源視頻15秒長度,,前加1秒內容,或者減一秒內容,,視頻尾部再適當加減1秒,,重新合成15秒的視頻。
如果是長視頻平臺,,比如西瓜視頻,,常用的方法有:多個視頻拼接,加自己的片頭和片尾還有轉場等等,。
根據我們的測試經驗,,快手,抖音,,美拍等短視頻產品使用的是A方法,,或許會升級到AB,西瓜視頻搜狐視頻等長視頻平臺使用的是AB的方法,。
也許你要問,,這個技術很難很難,開發(fā)一套非常貴,,一般的公司用不起,,受奇藝優(yōu)酷等平臺在用,也只是比較低端的技術,,的人工智能算法,,用在我大天朝的互聯(lián)網監(jiān)測系統(tǒng)里,主要作用是掃黃,。
手段其實不那么可怕,,一是多平臺之間互相搬運,被舉報的概率很低,;二是不要搬運太出名的視頻,你搬一個陳翔六點半,,或者papi醬,,非要說自己拍的,,你看大家懟不懟你。
看到這里,,你可能也明白了,,單純的頻改md5有一些用,但還是很容易被平臺判斷是搬運的風險,,所以說還要多做幾重工作,,當然這又是另一個問題啦!