將UI界面轉換為代碼（HTML/Tailwind CSS/React/Vue.js）

個簡單的工具，可使用 AI 將屏幕截圖、模型和 Figma 設計轉換為干凈、實用的代碼。

支持的堆棧：

HTML + Tailwind
React + Tailwind
Vue + Tailwind
Bootstrap
Ionic + Tailwind
SVG

支持的AI模型：

GPT-4 Turbo (Apr 2024) - Best model
GPT-4 Vision (Nov 2023) - Good model that's better than GPT-4 Turbo on some inputs
Claude 3 Sonnet - Faster, and on par or better than GPT-4 vision for many inputs
DALL-E 3 for image generation

有關更多演示，請參閱下面的示例部分。

https://screenshottocode.com/

我們還剛剛添加了實驗性支持，用于拍攝正在運行的網站的視頻/屏幕記錄并將其轉變為功能原型。

開始使用

該應用程序有一個 React/Vite 前端和一個 FastAPI 后端。如果您想使用 Claude Sonnet 或獲得實驗視頻支持，您將需要一個能夠訪問 GPT-4 Vision API 的 OpenAI API 密鑰或一個 Anthropic 密鑰。

運行后端（我使用 Poetry 進行包管理 -pip install poetry如果你沒有它）：

cd backend
echo "OPENAI_API_KEY=sk-your-key" > .env
poetry install
poetry shell
poetry run uvicorn main:app --reload --port 7001

如果您想使用 Anthropic，請將與您的 Anthropic 的 API 密鑰一起ANTHROPIC_API_KEY添加。backend/.env

運行前端：

cd frontend
yarn
yarn dev

打開http://localhost:5173以使用該應用程序。

如果您希望在不同端口上運行后端，請更新 VITE_WS_BACKEND_URLfrontend/.env.local

出于調試目的，如果您不想浪費 GPT4-Vision 積分，您可以在模擬模式下運行后端（該模式會傳輸預先錄制的響應）：

MOCK=true poetry run uvicorn main:app --reload --port 7001

Docker

如果您的系統上安裝了 Docker，請在根目錄中運行：

echo "OPENAI_API_KEY=sk-your-key" > .env
docker-compose up -d --build

該應用程序將在http://localhost:5173啟動并運行。請注意，您無法使用此設置開發應用程序，因為文件更改不會觸發重建。

?♂? 常見問題解答

我在設置后端時遇到錯誤。我該如何修復它？ 嘗試這個。如果仍然不起作用，請提出問題。
如何獲取 OpenAI API 密鑰？請參閱https://github.com/abi/screenshot-to-code/blob/main/Troubleshooting.md
如何配置 OpenAI 代理？- 如果您無法直接訪問 OpenAI API（例如由于國家/地區限制），您可以嘗試使用 VPN，或者您可以配置 OpenAI 基本 URL 以使用代理：在backend/.env或直接在 UI 中設置 OPENAI_BASE_URL設置對話框。確保 URL 的路徑中包含“v1”，因此它應如下所示： https://xxx.xxxxx.xxx/v1
如何更新前端連接的后端主機？- 在 front/.env.local 中配置 VITE_HTTP_BACKEND_URL 和 VITE_WS_BACKEND_URL 例如設置 VITE_HTTP_BACKEND_URL= http://124.10.20.1:7001
運行后端時看到 UTF-8 錯誤？- 在 Windows 上，使用 notepad++ 打開 .env 文件，然后轉到編碼并選擇 UTF-8。

些在線圖文編輯器不支持直接插入代碼塊，但可以直接粘貼 HTML 格式的高亮代碼塊。

花了一點時間研究了一下各家的編輯器，規則卻各不相同。有的要求代碼塊被包含于 <code> ... </code> 或者 <pre> <code> ... </code> </pre> , 有些要求 class 屬性里包含 "code" 關鍵詞，或者要求代碼塊里必須包含至少一個 <br> 。如果不符合這些要求，不是變成普通文本，就是丟失換行縮進，或者丟失顏色樣式。

所以，這就難了。先得找個支持代碼高亮的編輯器，仔細地選擇并復制代碼塊，復制完還得編輯剪貼板里的 HTML 。這就不如干脆寫個轉換工具了。

因為瀏覽器操作系統剪貼板可能不太方便，下面用 aardio 寫一個工具軟件。

先看軟件成品演示：

軟件用法：

1、輸入編程語言名稱（支持自動完成）。
2、然后在輸入框中粘貼要轉換的編程代碼。
3、點擊「復制高亮代碼塊」按鈕。

然后我們就可以打開在線圖文編輯器直接粘貼生成的高亮代碼塊了。

下面是這個軟件的 aardio 源代碼：

import win.ui;
/*DSG{{*/
var winform = win.form(text="HTML 代碼塊生成工具 - 本工具使用 aardio 語言編寫";right=1055;bottom=674;bgcolor=16777215)
winform.add(
button={cls="button";text="復制高亮代碼塊";left=633;top=609;right=1000;bottom=665;bgcolor=16777215;color=14120960;db=1;dr=1;font=LOGFONT(h=-14);note="可在網頁編輯器直接粘貼";z=4};
cmbLangs={cls="combobox";left=262;top=625;right=446;bottom=651;db=1;dl=1;edge=1;items={"javascript"};mode="dropdown";z=2};
editCode={cls="edit";left=1;top=4;right=1052;bottom=599;db=1;dl=1;dr=1;dt=1;edge=1;hscroll=1;multiline=1;vscroll=1;z=5};
static={cls="static";text="請選擇語言：";left=70;top=629;right=248;bottom=649;align="right";db=1;dl=1;transparent=1;z=3};
webCtrl={cls="custom";text="自定義控件";left=8;top=10;right=1048;bottom=604;db=1;dl=1;dr=1;dt=1;hide=1;z=1}
)
/*}}*/

import web.view;
var wb = web.view(winform.webCtrl);

import win.clip.html;
wb.export({ 
    onHighlight = function(html,background,foreground){
        html = `<pre class="code" style="overflow-x:auto;text-align:left;box-shadow: rgba(216, 216, 216, 0.5) 0px 0px 0px 1px inset;padding:10px;border-radius:3px;background-color:`+background+`;color:`+foreground+`;white-space:pre;word-break:break-all;display:block;font-size:14px;font-style:normal;font-variant-ligatures:normal;font-variant-caps: normal;font-family: "Consolas", Consolas, "Liberation Mono", Menlo, Courier, monospace"><code>`
            + html + `</code></pre>`;

        html,count = string.replace(html,'\n',"<br>");
        if(!count){
            html = string.replace(html,`\</code\>\</pre\>$`,`<br></code></pre>`);
        }
        var cb = win.clip.html();
        cb.write(html); 

        winform.setTimeout( 
            function(){
                winform.editCode.show(true);
                winform.webCtrl.show(false);
                winform.text = "HTML 代碼塊生成工具 - 已復制高亮代碼塊到剪貼板，可在網頁直接粘貼";
            },1000); 
    };
    setLanguages = function(langs){
        winform.languages = langs;
    }  
})


winform.cmbLangs.onEditChange = function(){ 

    var text = string.lower(winform.cmbLangs.text);
    var items = table.filter( winform.languages : {}, lambda(v) string.startWith(v,text) ); 
    winform.cmbLangs.autoComplete(items);  
}
winform.cmbLangs.editBox.disableInputMethod();

import web.prism;
import wsock.tcp.asynHttpServer;
var httpServer = wsock.tcp.asynHttpServer(); 
httpServer.run(web.prism,{
    ["/index.html"] = /*****
<!DOCTYPE html>
<html>
  <head>
    <meta charset="UTF-8" /> 
    <link href="prism.css" rel="stylesheet" />
  </head>
  <body>
    <pre id="code-pre"><code id="code" class="lang-javascript"></code></pre>
    <script src="prism.js"></script>
    <script>
   function computedColorStyle(element, options = {}) {

        Array.prototype.forEach.call(element.children,child => {
            computedColorStyle(child, options);
        });

        const computedStyle = getComputedStyle(element);
        element.style["color"] = computedStyle.getPropertyValue("color");  
    }

    highlight = function(code,language){
        var html = Prism.highlight(code, Prism.languages[language], language);

        var codeEle = document.getElementById("code");
        codeEle.innerHTML = html;
        computedColorStyle(codeEle);

        const computedStyle = getComputedStyle(codeEle);  
        onHighlight(codeEle.innerHTML
            ,getComputedStyle(document.getElementById("code-pre")).getPropertyValue("background-color")
            ,computedStyle.getPropertyValue("color"));
    }

    setLanguages( Object.keys(Prism.languages) );
    </script>
  </body> 
</html> 
    *****/
});

wb.go( httpServer.getUrl("/index.html"));

winform.button.oncommand = function(id,event){
    winform.text = "HTML 代碼塊生成工具 - 本工具使用 aardio 語言編寫"
    winform.editCode.show(false);
    winform.webCtrl.show(true);

    wb.xcall("highlight",winform.editCode.text,winform.cmbLangs.text);
}


winform.show();
win.loopMessage();

打開 aardio 創建工程，然后復制粘貼上面的代碼到 main.aardio 里面就可以直接運行，或生成獨立 EXE 文件：

這個軟件的原理：

1、首先通過 WebView2 調用 Prism.js 高亮代碼。為了可以內存加載 Prism.js （支持生成獨立 EXE ），我寫了一個 aardio 擴展庫 web.prism 。關于 WebView2 請參考：放棄 Electron，擁抱 WebView2！JavaScript 快速開發獨立 EXE 程序

2、因為 Prism.js 生成的 HTML 代碼塊都是使用 class 屬性指定樣式，所以我們需要調用 getComputedStyle 獲取最終渲染的字體顏色屬性。

3、最后在 JavaScript 里調用 aardio 函數處理生成的 HTML 代碼塊，aardio 的任務是將 HTML 修改為更合適直接粘貼的格式，并盡可能地處理各圖文編輯器的兼容問題。然后調用 win.clip.html 將處理好的 HTML 復制到系統剪貼板：

import win.clip.html;

var cb = win.clip.html();
cb.write(html);

然后只要愉快地粘貼代碼塊就可以。

如果是 aardio 代碼不需要用這個工具，在 aardio 編輯器里右鍵直接點『復制全部到 HTML 代碼塊』就可以了：

小新編譯自 Insight Data Blog

量子位出品 | 公眾號 QbitAI

寫個網頁能有多麻煩？在大多數公司里，這項工作分為三步：

1. 產品經理完成用戶調研任務后，列出一系列技術要求；

2. 設計師根據這些要求來設計低保真原型，逐漸修改得到高保真原型和UI設計圖；

3. 工程師將這些設計圖實現為代碼，最終變成用戶使用的產品。

這么多環節，任何地方出一點問題，都會拉長開發周期。因此，不少公司，比如Airbnb已經開始用機器學習來提高這個過程的效率。

△ Airbnb內部的AI工具，從圖紙到代碼一步到位

看起來很美好，但Airbnb還沒公開該模型中端到端訓練的細節，以及手工設計的圖像特征對該模型的貢獻度。這是該公司特有的閉源解決方案專利，可能不會進行公開。

好在，一個叫Ashwin Kumar的程序員創建了一個開源版本，讓開發者/設計師的工作變得更簡單。

以下內容翻譯自他的博客：

理想上，這個模型可以根據網站設計的簡單手繪原型，很快地生成一個可用的HTML網站：

△ SketchCode模型利用手繪線框圖來生成HTML網站

事實上，上面例子就是利用訓練好的模型在測試集上生成的一個實際網站，代碼請訪問：https://github.com/ashnkumar/sketch-code。

從圖像標注中獲取靈感

目前要解決的問題屬于一種更廣泛的任務，叫做程序綜合（program synthesis），即自動生成工作源代碼。盡管很多程序綜合研究通過自然語言規范或執行追蹤法來生成代碼，但在當前任務中，我會充分利用源圖像，即給出的手繪線框圖來展開工作。

在機器學習中有一個十分熱門的研究領域，稱為圖像標注（image caption），目的是構建一種把圖像和文本連接在一起的模型，特別是用于生成源圖像內容的描述。

△ 圖像標注模型生成源圖像的文本描述

我從一篇pix2code論文和另一個應用這種方法的相關項目中獲得靈感，決定把我的任務按照圖像標注方式來實現，把繪制的網站線框圖作為輸入圖像，并將其相應的HTML代碼作為其輸出內容。

注：上段提到的兩個參考項目分別是

pix2code論文：https://arxiv.org/abs/1705.07962

floydhub教程：https://blog.floydhub.com/turning-design-mockups-into-code-with-deep-learning/?source=techstories.org

獲取合適的數據集

確定圖像標注方法后，理想中使用的訓練數據集會包含成千上萬對手繪線框圖和對應的HTML輸出代碼。但是，目前還沒有我想要的相關數據集，我只好為這個任務來創建數據集。

最開始，我嘗試了pix2code論文給出的開源數據集，該數據集由1750張綜合生成網站的截圖及其相應源代碼組成。

△ pix2code數據集中的生成網站圖片和源代碼

這是一個很好的數據集，有幾個有趣的地方：

該數據集中的每個生成網站都包含幾個簡單的輔助程序元素，如按鈕、文本框和DIV對象。盡管這意味著這個模型受限于將這些少數元素作為它的輸出內容，但是這些元素可通過選擇生成網絡來修改和擴展。這種方法應該很容易地推廣到更大的元素詞匯表。
每個樣本的源代碼都是由領域專用語言（DSL）的令牌組成，這是該論文作者為該任務所創建的。每個令牌對應于HTML和CSS的一個片段，且加入編譯器把DSL轉換為運行的HTML代碼。

彩色網站圖像變手繪圖

為了修改我的任務數據集，我要讓網站圖像看起來像手工繪制出的。我嘗試使用Python中的OpenCV庫和PIL庫等工具對每張圖像進行修改，包括灰度轉換和輪廓檢測。

最終，我決定直接修改原始網站的CSS樣式表，通過執行以下操作：

1. 更改頁面上元素的邊框半徑來平滑按鈕和DIV對象的邊緣；

2. 模仿繪制的草圖來調整邊框的粗細，并添加陰影；

3. 將原有字體更改為類似手寫的字體；

最終實現的流程中還增加了一個步驟，通過添加傾斜、移動和旋轉來實現圖像增強，來模擬實際繪制草圖中的變化。

使用圖像標注模型架構

現在，我已經處理好數據集，接下來是構建模型。

我利用了圖像標注中使用的模型架構，該架構由三個主要部分組成：

1. 一種使用卷積神經網絡（CNN）的計算機視覺模型，從源圖像提取圖像特征；

2. 一種包含門控單元GRU的語言模型，對源代碼令牌序列進行編碼；

3. 一個解碼器模型，也屬于GRU單元，把前兩個步驟的輸出作為輸入，并預測序列中的下一個令牌。

△ 以令牌序列為輸入來訓練模型

為了訓練模型，我將源代碼拆分為令牌序列。模型的輸入為單個部分序列及它的源圖像，其標簽是文本中的下一個令牌。該模型使用交叉熵函數作為損失函數，將模型的下個預測令牌與實際的下個令牌進行比較。

在模型從頭開始生成代碼的過程中，該推理方式稍有不同。圖像仍然通過CNN網絡進行處理，但文本處理開始時僅采用一個啟動序列。在每個步驟中，模型對序列中輸出的下個預測令牌將會添加到當前輸入序列，并作為新的輸入序列送到模型中；重復此操作直到模型的預測令牌為，或該過程達到每個文本中令牌數目的預定義值。

當模型生成一組預測令牌后，編譯器就會將DSL令牌轉換為HTML代碼，這些HTML代碼可以在任何瀏覽器中運行。

用BLEU分數評估模型

我決定使用BLEU分數來評估模型。這是機器翻譯任務中常用的一種度量標準，通過在給定相同輸入的情況下，衡量機器生成的文本與人類可能產生內容的近似程度。

實際上，BLEU通過比較生成文本和參考文本的N元序列，以創建修改后的準確版本。它非常適用于這個項目，因為它會影響生成HTML代碼中的實際元素，以及它們之間的相互關系。

最棒的是，我還可以通過檢查生成的網站來比較當前的實際BLEU分數。

△ 觀察BLEU分數

當BLEU分數為1.0時，則說明給定源圖像后該模型能在正確位置設置合適的元素，而較低的BLEU分數這說明模型預測了錯誤元素或是把它們放在相對不合適的位置。我們最終模型在評估數據集上的BLEU分數為0.76。

福利：定制網頁風格

后來，我還想到，由于該模型只生成當前頁面的框架，即文本的令牌，因此我可以在編譯過程中添加一個定制的CSS層，并立刻得到不同風格的生成網站。

△ 一個手繪圖生成多種風格的網頁

把風格定制和模型生成兩個過程分開，在使用模型時帶來了很多好處：

1.如果想要將SketchCode模型應用到自己公司的產品中，前端工程師可以直接使用該模型，只需更改一個CSS文件來匹配該公司的網頁設計風格；

2. 該模型內置的可擴展性，即通過單一源圖像，模型可以迅速編譯出多種不同的預定義風格，因此用戶可以設想出多種可能的網站風格，并在瀏覽器中瀏覽這些生成網頁。

總結和展望

受到圖像標注研究的啟發，SketchCode模型能夠在幾秒鐘內將手繪網站線框圖轉換為可用的HTML網站。

但是，該模型還存在一些問題，這也是我接下來可能的工作方向：

1. 由于這個模型只使用了16個元素進行訓練，所以它不能預測這些數據以外的令牌。下一步方向可能是使用更多元素來生成更多的網站樣本，包括網站圖片，下拉菜單和窗體，可參考啟動程序組件（https://getbootstrap.com/docs/4.0/components/buttons/）來獲得思路；

2. 在實際網站構建中，存在很多變化。創建一個能更好反映這種變化的訓練集，是提高生成效果的一種好方法，可以通過獲取更多網站的HTML/CSS代碼以及內容截圖來提高；

3. 手繪圖紙也存在很多CSS修改技巧無法捕捉到的變化。解決這個問題的一種好方法是使用生成對抗網絡GAN來創建更逼真的繪制網站圖像。

整合營銷服務商